분류는 데이터 클래스 또는 개념을 정의하고 분류하는 모델을 발견하는 절차입니다. 모델은 학습 데이터 세트(즉, 클래스 레이블이 유명한 데이터 객체)의 검색을 기반으로 합니다. 모델은 클래스 레이블이 익명인 객체의 클래스 레이블을 예측할 수 있습니다.
파생된 모델은 분류 규칙(즉, IF-THEN 규칙), 의사 결정 트리, 수치 공식 또는 신경망을 비롯한 여러 형식으로 표현될 수 있습니다. 의사 결정 트리는 각 노드가 속성 값에 대한 테스트를 나타내고, 각 분기가 테스트 결과를 정의하고, 트리 잎이 클래스 또는 클래스 분포를 설명하는 순서도와 같은 트리 아키텍처입니다.
의사 결정 트리를 분류 규칙으로 변환할 수 있습니다. 분류에 사용되는 신경망은 일반적으로 단위 간에 가중치 연결이 있는 뉴런과 유사한 처리 단위 집합입니다. 순진한 베이지안 분류, 지원 벡터 기계 및 k-최근접 이웃 분류를 포함하여 분류 모델을 구성하는 몇 가지 방법이 있습니다.
분류 예측 범주형(이산형, 정렬되지 않은) 레이블, 회귀 모델은 연속 값 함수입니다. 회귀는 (이산) 클래스 레이블 대신 누락되거나 사용할 수 없는 통계 데이터 값을 예측할 수 있습니다.
예측은 숫자 예측과 클래스 레이블 예측을 모두 정의합니다. 회귀 분석은 수치 예측에 사용되는 통계적 방법론이지만 여러 기술도 존재합니다. 회귀는 분포 추세 식별을 둘러싸고 있으며 사용 가능한 데이터에 따라 다릅니다.
분류 및 회귀는 분류 및 회귀 프로세스에 상당히 적용 가능한 속성을 인식하려고 시도하는 관련성 분석이 선행되어야 할 수 있습니다. 이러한 속성은 분류 및 회귀 프로세스를 위해 선택됩니다. 관련이 없는 여러 속성이 고려 대상에서 승인되지 않을 수 있습니다.
AllElectronics의 영업 관리자가 판매 캠페인에 대한 세 가지 유형의 반응(예:좋은 반응, 약한 반응, 무반응)을 기반으로 매장에 있는 많은 품목을 정의해야 한다고 가정합니다.
가격, 브랜드, 만든 장소, 유형 및 범주를 포함하여 항목의 설명 기능을 기반으로 이러한 세 가지 클래스 각각에 대한 모델을 도출할 수 있습니다. 결과 분류는 각 클래스를 다른 클래스로부터 최대한 분석하여 데이터 세트의 조직화된 이미지를 제시해야 합니다.
의사 결정 트리는 가격을 세 가지 클래스를 가장 잘 구별하는 개별 요소로 식별할 수 있습니다. 트리는 가격 외에도 각 클래스의 개체를 서로 더 구별할 수 있도록 지원하는 다른 기능에 브랜드와 만든 장소가 포함되어 있음을 나타낼 수 있습니다. 이러한 의사결정 트리를 통해 주어진 판매 캠페인의 영향을 파악하고 향후 보다 효율적인 캠페인을 설계할 수 있습니다.