분류는 보다 효율적인 예측 및 분석을 돕기 위해 데이터 집합에 요소를 할당하는 데이터 마이닝 접근 방식입니다. 분류는 일반적으로 이진 분류로 알려진 두 개의 대상 클래스가 있을 때 사용됩니다.
특히 패턴 인식 문제에서 두 개 이상의 클래스를 예측할 수 있는 경우 이를 다항 분류로 정의합니다. 그러나 다항 분류는 범주형 응답 데이터에 사용할 수 있습니다. 여기에서 다양한 요소 중 어떤 범주에 가장 확률이 높은 인스턴스가 있는지 예측해야 합니다.
데이터 분류는 2단계 단계입니다. 첫 번째 단계에서는 데이터 클래스 또는 개념의 미리 결정된 컬렉션을 정의하는 분류기가 구축됩니다. 이것은 학습 단계(또는 훈련 단계)로, 분류 알고리즘이 데이터베이스 튜플 및 관련 클래스 레이블로 구성된 훈련 세트를 분석하거나 "이해로부터" 분류기를 개발합니다.
튜플 X는 n차원 속성 벡터 X =(x1 , x2 , ... xn ), n개의 측정값을 정의하면 n개의 데이터베이스 속성에서 튜플에 생성되므로 A1 ,A2 ,... An .
모든 튜플 X는 클래스 레이블 속성으로 알려진 다른 데이터베이스 속성에 의해 결정된 미리 정의된 클래스에 속하는 것으로 간주됩니다. 클래스 레이블 속성은 이산 값이고 순서가 지정되지 않습니다. 모든 값이 범주 또는 클래스로 제공된다는 점에서 범주형입니다.
훈련 세트를 구성하는 단일 튜플은 훈련 튜플로 정의되며 분석 중인 데이터베이스에서 선택됩니다. 분류 프레임워크에서 데이터 튜플은 샘플, 인스턴스, 데이터 포인트 또는 개체로 정의할 수 있습니다.
모든 훈련 튜플의 클래스 레이블이 지원되기 때문에 이 단계를 지도 학습이라고 합니다. 모든 학습 튜플의 클래스 레이블이 인기가 없고 이해할 클래스의 수나 집합을 미리 알 수 없는 비지도 학습(또는 클러스터링)과 비교할 수 있습니다.
두 번째 단계에서는 모델을 분류에 사용할 수 있습니다. 먼저 분류기의 예측 정확도를 예측합니다. 분류기의 정확도를 계산하기 위해 훈련 세트를 사용할 수 있다면 분류기가 레코드를 과적합하는 경향이 있기 때문에 이 추정은 낙관적일 수 있습니다(즉, 학습하는 동안 훈련 기록에 없는 훈련 레코드의 특정 이상을 통합할 수 있습니다. 일반 데이터 세트 완료).
따라서 테스트 세트가 활용되고 테스트 튜플과 관련 클래스 레이블이 생성됩니다. 이 튜플은 일반 데이터 세트에서 무작위로 선택됩니다. 훈련 튜플과 별개로 분류기를 만드는 데 사용되지 않음을 정의합니다.