Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

회귀와 분류의 차이점은 무엇입니까?

<시간/>

회귀

회귀는 연속 값 속성을 예측하는 데 사용할 수 있는 감독된 기계 학습 접근 방식의 유형을 정의합니다. 회귀는 일부 비즈니스 조직에서 대상 변수 및 예측 변수 연관을 탐색할 수 있도록 합니다. 통화 예측 및 시계열 모델링에 사용할 수 있는 데이터를 탐색하는 데 필수적인 도구입니다.

회귀와 같이 데이터를 함수에 맞추면 데이터를 평활화할 수 있습니다. 선형 회귀에는 두 개의 속성(또는 변수)에 맞는 "최적의" 선을 찾는 것이 포함되므로 한 속성을 사용하여 다른 속성을 예측할 수 있습니다. 여러 선형 회귀는 2개 이상의 속성이 포함되고 데이터가 다차원 공간에 맞는 선형 회귀의 발전입니다.

선형 회귀에서 데이터는 직선에 맞도록 모델링됩니다. 예를 들어, 확률 변수 y(응답 변수라고 함)는 y =wx+b 방정식을 사용하여 다른 확률 변수 x(예측 변수라고 함)의 선형 함수로 모델링할 수 있습니다. 여기서 y의 분산은 고려됩니다. 일정해야 합니다.

회귀 문제는 입력 값에 배치된 출력 값의 계산으로 관리됩니다. 분류에 사용되는 경우 입력 값은 데이터베이스의 값이고 출력 값은 클래스를 나타냅니다. 회귀는 분류 문제를 탐색하는 데 사용할 수 있지만 예측과 같은 여러 응용 프로그램에 사용할 수 있습니다. 회귀의 기본 구조는 하나의 예측 변수와 예측만 포함하는 단순 선형 회귀입니다.

분류

분류는 클래스 레이블이 익명인 객체의 클래스를 예측하기 위해 모델을 사용할 수 있도록 하기 위해 데이터 클래스 또는 개념을 표현하고 구별하는 모델을 발견하는 절차입니다. 파생된 모델은 훈련 기록 그룹(즉, 클래스 레이블이 익숙한 데이터 개체)의 분석을 기반으로 합니다.

각 튜플은 클래스 레이블 속성이라고 하는 속성 중 하나에 의해 결정되는 사전 정의된 클래스에 속하는 것으로 처리됩니다. 분류 구조에서 데이터 튜플은 샘플, 예제 또는 객체로 표현됩니다. 모델을 생성하기 위해 분석된 데이터 튜플은 집합적으로 훈련 데이터 세트를 형성합니다. 훈련 세트를 구성하는 개별 튜플은 훈련 샘플로 표시되며 샘플 모집단에서 선택됩니다.

모든 훈련 샘플의 클래스 레이블이 제공되기 때문에 이 프로세스도 지도 학습으로 정의됩니다. 훈련 샘플의 클래스 레이블이 식별되지 않고 이해해야 할 다양한 클래스를 미리 알 수 없는 비지도 학습에서.