Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 분류란 무엇입니까?

<시간/>

분류는 데이터 인스턴스의 팀 구성원을 예측하는 데 사용되는 데이터 마이닝 접근 방식입니다. 2단계 절차입니다. 첫 번째 단계에서는 미리 결정된 데이터 클래스 또는 접근 방식 집합을 정의하는 모델이 구축됩니다. 속성으로 정의된 데이터베이스 튜플을 고려하여 모델을 개발했습니다.

각 튜플은 클래스 레이블 속성으로 알려진 속성 중 하나에 의해 결정된 사전 정의된 클래스에 속하는 것으로 간주됩니다. 분류 프레임워크에서 데이터 튜플은 샘플, 예제 또는 개체로도 정의됩니다. 모델을 개발하기 위해 분석된 데이터 튜플은 훈련 데이터 세트를 공동으로 형성합니다. 훈련 세트를 구성하는 단일 튜플은 훈련 샘플로 정의되며 샘플 모집단에서 임의로 선택됩니다.

각 훈련 샘플의 클래스 레이블이 지원되기 때문에 이 절차를 지도 학습이라고도 합니다. 훈련 샘플의 클래스 레이블이 익명이고 학습할 여러 클래스를 미리 알 수 없는 비지도 학습에서

학습된 모델은 분류 규칙, 의사 결정 트리 또는 수치 공식의 구조로 설명됩니다. 예를 들어, 사용자 신용 데이터 데이터베이스가 주어지면 분류 규칙을 학습하여 사용자를 최고 또는 공정한 신용 등급으로 식별할 수 있습니다. 규칙을 사용하여 향후 데이터 샘플을 분류하고 데이터베이스 내용을 잘 이해할 수 있습니다.

홀드아웃 접근 방식은 클래스 레이블이 지정된 샘플의 테스트 세트를 적용하는 간단한 기술입니다. 이 샘플은 무작위로 선택되며 훈련 샘플과 무관합니다. 주어진 테스트 세트에 대한 모델의 효율성은 모델에 의해 적절하게 제한되는 테스트 세트 샘플의 백분율입니다. 각 테스트 샘플에 대해 유명한 클래스 레이블은 해당 샘플에 대한 학습된 모델의 클래스 예측과 구별됩니다.

모델의 효율성이 학습 데이터 세트에 따라 달라지는 경우 이 추정은 학습된 모델이 정보를 과적합하도록 영향을 미치기 때문에 낙관적일 수 있습니다. 표본 모집단). 따라서 테스트 세트가 사용됩니다.

  • 학습 − 훈련 정보는 분류 알고리즘에 의해 분석됩니다. 따라서 class label 속성은 신용등급이며, 학습된 모델 또는 분류자는 분류 규칙의 구조에 기술됩니다.

  • 분류 − 테스트 데이터는 분류 규칙의 효율성을 측정하는 데 사용됩니다. 효율성이 허용 가능한 것으로 취급되면 규칙을 사용하여 새 데이터 튜플을 분류할 수 있습니다.