다음과 같은 두 가지 유형의 통계 기반 알고리즘이 있습니다. -
-
회귀 − 회귀 문제는 입력 값에 있는 출력 값의 평가를 다룹니다. 분류에 활용될 때 입력 값은 데이터베이스의 값이고 출력 값은 클래스를 정의합니다. 회귀는 분류 문제를 명확히 하는 데 사용할 수 있지만 예측을 비롯한 다양한 응용 프로그램에 사용됩니다. 회귀의 기본 형태는 하나의 예측 변수와 예측만 포함하는 단순 선형 회귀입니다.
회귀는 다음과 같은 두 가지 다양한 방법을 사용하여 분류를 구현하는 데 사용할 수 있습니다. -
-
사업부 − 데이터는 클래스에 위치한 영역으로 나뉩니다.
-
예측 − 출력 클래스의 값을 예측하는 공식이 생성됩니다.
-
-
베이지안 분류 − 분류에는 통계적 분류기가 사용됩니다. 베이지안 분류는 베이지안 정리를 기반으로 합니다. 베이지안 분류기는 높은 데이터베이스에 사용될 때 높은 효율성과 속도를 봅니다.
베이즈 정리 - X를 데이터 튜플이라고 하자. 베이지안 방법에서 X는 "증거"로 취급됩니다. 데이터 튜플 X가 특정 클래스 C에 속한다는 가정을 포함하여 H를 가정합니다. 데이터를 정의하기 위해 확률 P(H|X)가 결정됩니다. 이 확률 P(H|X)는 가설 H의 영향이 "증거" 또는 주목한 데이터 튜플 X를 제공했을 확률입니다.
P(H|X)는 X를 조건으로 하는 H의 사후 확률입니다. 예를 들어 데이터 튜플의 특성은 일반적으로 연령 및 소득 속성에 의해 정의된 사용자로 제한되며 X는 Rs를 가진 30세 사용자입니다. 20,000 수입. H가 사용자가 컴퓨터를 구매할 것이라는 가설이라고 가정합니다. 따라서 P(H|X)는 사용자의 나이와 소득이 인정되는 경우 사용자 X가 컴퓨터를 구매할 확률을 반전시킵니다.
P(H)는 H의 사전 확률입니다. 예를 들어, 나이, 소득 또는 기타 데이터에 관계없이 지정된 사용자가 컴퓨터를 구매할 확률입니다. 사후 확률 P(H|X)는 X가 없는 사전 확률 P(H)보다 더 많은 데이터에 있습니다.
마찬가지로 P(X|H)는 H를 조건으로 하는 X의 사후 확률입니다. 사용자 X가 30세이고 Rs를 얻을 확률입니다. 20,000.
주어진 정보에서 P(H), P(X|H), P(X)를 측정할 수 있습니다. 베이즈 정리는 P(H), P(X|H) 및 P(X)로부터 사후 확률 P(H|X)를 계산하는 방법을 지원합니다.
에 의해 제공됩니다.
$$P(H|X)=\frac{P(X|H)P(H)}{P(X)}$$