베이지안 분류기는 통계적 분류기입니다. 그들은 주어진 샘플이 특정 클래스에 속할 확률과 같은 클래스 멤버십 확률을 예측할 수 있습니다. 베이지안 분류기는 대규모 데이터베이스에 적용할 때도 높은 정확도와 속도를 보였습니다.
클래스가 정의되면 시스템은 분류를 제어하는 규칙을 추론해야 하므로 시스템은 각 클래스에 대한 설명을 찾을 수 있어야 합니다. 설명은 훈련 세트의 예측 속성만 참조해야 하므로 부정적인 예가 아닌 긍정적인 예만 설명을 충족해야 합니다. 설명에 모든 긍정적인 예가 포함되고 클래스의 부정적인 예가 하나도 포함되지 않는 경우 규칙이 올바른 것으로 간주됩니다.
모든 속성에 의한 기여는 독립적이고 각각은 분류 문제, Naïve Bayes 분류라고 하는 간단한 분류 체계에 동등하게 기여한다고 가정합니다. 각 "독립적인" 속성의 기여도를 분석하여 조건부 확률이 결정됩니다. 분류는 서로 다른 속성이 예측에 미치는 영향을 결합하여 이루어집니다.
나이브 베이즈 분류는 클래스 조건부 독립성을 가정하기 때문에 나이브라고 합니다. 주어진 클래스에 대한 속성 값의 효과는 다른 속성의 값과 무관합니다. 이 가정은 계산 비용을 줄이기 위한 것이므로 순진한 것으로 간주됩니다.
베이즈 정리 - X를 데이터 튜플이라고 하자. 베이지안 용어에서 X는 "증거"로 간주됩니다. 데이터 튜플 X가 지정된 클래스 C에 속한다는 가정과 같이 H를 가정합니다. 데이터를 분류하기 위해 확률 P(H|X)가 결정됩니다. 이 확률 P(H|X)는 "증거" 또는 관찰된 데이터 튜플 X가 주어졌을 때 가설 H가 유지되는 확률입니다.
P(H|X)는 X를 조건으로 하는 H의 사후 확률입니다. 예를 들어 데이터 튜플의 세계가 각각 age 및 income 속성으로 설명되는 고객으로 제한되고 X가 Rs를 가진 30세 고객이라고 가정합니다. 20,000 수입. H가 고객이 컴퓨터를 구매할 것이라는 가설이라고 가정합니다. 그런 다음 P(H|X)는 고객의 나이와 소득을 알고 있는 경우 고객 X가 컴퓨터를 구매할 확률을 반영합니다.
P(H)는 H의 사전 확률입니다. 예를 들어, 연령, 소득 또는 기타 정보에 관계없이 지정된 고객이 컴퓨터를 구입할 확률입니다. 사후 확률 P(H|X)는 X와 무관한 사전 확률 P(H)보다 더 많은 정보를 기반으로 합니다.
마찬가지로 P(X|H)는 H를 조건으로 하는 X의 사후 확률입니다. 고객 X가 30세이고 Rs를 번 확률입니다. 20,000.
주어진 데이터로부터 P(H), P(X|H), P(X)를 추정할 수 있습니다. 베이즈 정리는 P(H), P(X|H) 및 P(X)에서 사후 확률 P(H|X)를 계산하는 방법을 제공합니다.
에 의해 제공됩니다.$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$