엔트로피 기반 이산화는 감독된 하향식 분할 접근 방식입니다. 분할점(분리 속성 범위를 위한 데이터 값)의 계산 및 보존에서 클래스 분포 데이터를 탐색합니다. 통계적 속성 A를 이산화할 수 있으며, 이 방법은 최소 엔트로피를 갖는 A 값을 분할점으로 선택하고 결과 간격을 재귀적으로 분할하여 계층적 이산화에 나타날 수 있습니다.
특정 이산화는 A에 대한 개념 계층을 형성합니다. D는 속성 그룹과 클래스 레이블 속성으로 설명되는 데이터 튜플을 포함합니다. class-label 속성은 튜플당 클래스 데이터를 지원합니다. 집합 내 속성 A의 엔트로피 기반 이산화에 대한 기본 접근 방식은 다음과 같습니다. -
A의 각 값은 A의 영역을 분할하기 위한 잠재적인 간격 경계 또는 분할점(표시된 분할점)으로 처리될 수 있습니다. 즉, A에 대한 분할점은 D의 튜플을 조건 A를 충족하는 두 개의 하위 집합으로 나눌 수 있습니다. ≤ 분할점 및 A> 분할점을 각각 생성하여 이진 이산화를 만듭니다.
엔트로피 기반 이산화는 튜플의 클래스 레이블에 대한 데이터를 사용합니다. 엔트로피 기반 이산화 후 직관을 정의할 수 있으므로 분류를 살펴봐야 합니다. 속성 A와 일부 분할점을 분할하여 D의 튜플을 정의해야 한다고 가정합니다.
예를 들어, 두 개의 클래스가 있는 경우 클래스 C1의 일부 튜플이 한 파티션으로 줄어들고 클래스 C2의 일부 튜플이 다른 파티션으로 줄어들기를 바랄 수 있습니다. 그러나 이것은 가능성이 낮습니다. 예를 들어, 첫 번째 파티션은 C1의 여러 튜플과 C2의 일부를 포함할 수 있습니다. 이 양은 A에 의한 분할을 기반으로 D의 튜플을 정의하기 위한 예상 데이터 요구 사항으로 알려져 있습니다. 이는
로 제공됩니다.$$\mathrm{Info_A(D)\:=\:\frac{\mid\:D_1\:\mid}{\mid\:D\:\mid}엔트로피(D_1)\:+\:\frac{ \mid\:D_2\:\mid}{\mid\:D\:\mid}엔트로피(D_2)}$$
여기서 D1 및 D2 따라서 A ≤ 분할점 및 A> 분할점 조건을 새로 고치는 D의 튜플에 해당합니다. |디| D 등의 튜플 수입니다. 주어진 집합에 대한 엔트로피 서비스는 집합에 있는 튜플의 클래스 분포를 기반으로 계산됩니다.
예를 들어, m개의 클래스, C1, C2... Cm이 주어지면 D1의 엔트로피는
$$\mathrm{엔트로피(D_1)}\:=\:-\displaystyle\sum\limits_{i=1}^m P_i{\log_{2}(P_i)}$$
분할점을 결정하는 단계는 모든 학생 분할점에 대한 최소 데이터 요구사항이 작은 임계값 ε보다 작거나 배수가 더 높을 때를 포함하여 일부 중지 기준이 충족될 때까지 획득한 각 분할에 대해 재귀적으로 사용됩니다. 임계값, max_interval보다