회귀는 연속 값 속성을 예측하는 데 사용할 수 있는 감독형 머신 러닝 접근 방식 유형을 정의합니다. 회귀는 일부 비즈니스 조직에서 대상 변수 및 예측 변수 연관을 탐색할 수 있도록 합니다. 통화 예측 및 시계열 모델링에 사용할 수 있는 데이터를 탐색하는 데 필수적인 도구입니다.
회귀와 같이 데이터를 함수에 맞추면 데이터를 평활화할 수 있습니다. 선형 회귀에는 두 속성(또는 변수)에 맞는 "최적의" 선을 발견하여 한 속성을 사용하여 다른 속성을 예측할 수 있습니다. 여러 선형 회귀는 2개 이상의 속성이 포함되고 데이터가 다차원 공간에 맞는 선형 회귀의 발전입니다.
선형 회귀에서 데이터는 직선에 맞도록 모델링됩니다. 예를 들어, 확률 변수 y(응답 변수라고 함)는 y =wx+b 방정식을 사용하여 다른 확률 변수 x(예측 변수라고 함)의 선형 함수로 모델링할 수 있습니다. 여기서 y의 분산은 고려됩니다. 일정해야 합니다.
회귀 문제는 입력 값에 배치된 출력 값의 계산으로 관리됩니다. 분류에 사용되는 경우 입력 값은 데이터베이스의 값이고 출력 값은 클래스를 나타냅니다. 회귀는 분류 문제를 탐색하는 데 사용할 수 있지만 예측과 같은 여러 응용 프로그램에 사용할 수 있습니다. 회귀의 기본 구조는 하나의 예측 변수와 예측만 포함하는 단순 선형 회귀입니다.
회귀는 다음과 같은 두 가지 방법을 사용하여 분류를 수행하는 데 사용할 수 있습니다. -
-
사업부 − 데이터는 클래스에 위치한 영역으로 나뉩니다.
-
예측 − 출력 클래스의 값을 예측하는 공식이 생성됩니다.
이러한 방법은 변수가 정수인 하나 이상의 예측 변수(독립)에서 반응(종속) 변수의 값을 예측하는 데 사용됩니다. 선형, 다중, 가중, 다항식, 비모수 및 로버스트와 같은 다양한 형태의 회귀가 있습니다(로버스트 기술은 오류에 정규성 조건이 필요하지 않거나 데이터에 중요한 이상값이 포함된 경우에 유용함).
회귀는 개별 변수의 표현에 정의된 일부 종속 데이터 세트를 예측할 수 있으며 추세는 일정한 기간 동안 액세스할 수 있습니다. 회귀는 변수를 예측하는 좋은 방법을 지원하지만 변수의 독립성, 변수의 고유한 정규 분포와 같은 특정 제한 및 가정이 있습니다.
각 회귀 트리 리프는 연속 값 예측을 저장합니다. 이는 리프를 포함하는 훈련 세트에 대한 예측된 속성의 평균 비용입니다. 대조적으로, 모델 트리에서 각 잎은 회귀 모델과 예측된 속성에 대한 다변량 연속 방정식을 사용하는 경향이 있습니다. 회귀 및 모델 트리는 데이터가 쉬운 선형 모델로 잘 표현되지 않을 때 선형 회귀보다 효과적인 영향을 미칩니다.