분류는 데이터 인스턴스의 팀 구성원을 예측하는 데 사용되는 데이터 마이닝 접근 방식입니다. 2단계 절차입니다. 첫 번째 단계에서는 미리 결정된 데이터 클래스 또는 접근 방식 집합을 정의하는 모델이 구축됩니다. 속성으로 정의된 데이터베이스 튜플을 고려하여 모델을 개발했습니다.
새로 제시된 객체의 특징을 분석하고 미리 정의된 클래스 컬렉션 중 하나로 생성하는 작업입니다. 분류 규칙을 학습하기 위해 시스템은 예측 속성에서 클래스를 예측하는 규칙을 발견해야 하므로 먼저 각 클래스에 대한 조건이 표현되어야 합니다. 이 케이스가 적용되는 클래스를 예측할 수 있으려면 시스템에 특정 알려진 속성 값이 있는 케이스 또는 튜플이 제공되어야 합니다.
클래스가 정의되면 시스템은 분류를 제어하는 규칙을 추론해야 하므로 시스템은 각 클래스의 표현을 발견할 수 있어야 합니다. 설명은 훈련 세트의 예측 속성만 정의하여 부정적인 예가 아닌 긍정적인 예만 특성화를 충족해야 합니다. 규칙의 정의가 모든 긍정적인 예를 포함하고 클래스의 부정적인 예는 포함하지 않는 경우 규칙이 정확합니다.
베이지안 분류 − 베이지안 분류기는 통계적 분류기입니다. 그들은 주어진 샘플이 특정 클래스에 속할 확률을 포함하여 클래스 멤버십 확률을 예측할 수 있습니다. 베이지안 분류기는 또한 높은 데이터베이스에 사용될 때 높은 효율성과 속도를 보여주었습니다.
나이브 베이지안 분류기는 주어진 클래스에 대한 속성 값의 효과가 다른 속성 값의 자율적이라고 생각합니다. 이러한 가정을 클래스 조건부 독립성이라고 합니다. 포함된 평가를 정의하기 위해 생성되었으며 Naive로 처리됩니다.
베이즈 정리 − 베이즈 정리 - X를 데이터 튜플이라고 하자. 베이지안 방법에서 X는 "증거"로 취급됩니다. 데이터 튜플 X가 특정 클래스 C에 속한다는 가정을 포함하여 H를 가정합니다. 데이터를 정의하기 위해 확률 P(H|X)가 결정됩니다. 이 확률 P(H|X)는 가설 H의 영향이 "증거" 또는 주목한 데이터 튜플 X를 제공했을 확률입니다.
P(H|X)는 X를 조건으로 하는 H의 사후 확률입니다. 예를 들어 데이터 튜플의 특성은 일반적으로 연령 및 소득 속성에 의해 정의된 사용자로 제한되며 X는 Rs를 가진 30세 사용자입니다. 20,000 수입. H가 사용자가 컴퓨터를 구매할 것이라는 가설이라고 가정합니다. 따라서 P(H|X)는 사용자의 나이와 소득이 인정되는 경우 사용자 X가 컴퓨터를 구매할 확률을 반전시킵니다.
P(H)는 H의 사전 확률입니다. 예를 들어, 이것은 연령, 소득 또는 기타 데이터에 관계없이 주어진 사용자가 컴퓨터를 구매할 확률입니다. 사후 확률 P(H|X)는 X가 없는 사전 확률 P(H)보다 더 많은 데이터에 있습니다.
마찬가지로 P(X|H)는 H를 조건으로 하는 X의 사후 확률입니다. 사용자 X가 30세이고 Rs를 얻을 확률입니다. 20,000.
주어진 정보로부터 P(H), P(X|H), P(X)를 측정할 수 있습니다. 베이즈 정리는 P(H), P(X|H) 및 P(X)로부터 사후 확률 P(H|X)를 계산하는 방법을 지원합니다.
에 의해 제공됩니다.$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$