속성 선택 측정이란 무엇입니까?

<시간/>

속성 선택 측정은 클래스 레이블이 지정된 교육 튜플의 지정된 데이터 파티션 D를 단일 클래스로 "최적"으로 분리하는 분할 테스트를 선택하기 위한 경험적 방법입니다.

분할 기준의 결과에 따라 D를 더 작은 파티션으로 분할할 수 있다면 이상적으로 모든 파티션은 순수할 수 있습니다(즉, 주어진 파티션에 속하는 일부 튜플은 동일한 클래스에 속할 수 있음).

개념적으로 "최상의" 분할 기준은 그러한 방법의 가장 대략적인 결과입니다. 속성 선택 측정은 주어진 노드에서 튜플이 분할되는 방법을 결정하기 때문에 분할 규칙이라고 합니다.

속성 선택 측정은 주어진 훈련 튜플을 정의하는 모든 속성에 대한 순위를 지원합니다. 측정값에 가장 적합한 방법을 가진 속성이 주어진 튜플에 대한 분할 속성으로 선택됩니다.

분할 속성이 상수 값이거나 이에 따라 이진 트리로 제한되는 경우 분할 지점 또는 분할 하위 집합도 분할 기준의 요소로 결정되어야 합니다.

파티션 D에 대해 생성된 트리 노드는 분할 기준으로 레이블이 지정되고 기준의 각 결과에 대해 분기가 증가하고 튜플은 그에 따라 격리됩니다. 정보 이득, 이득 비율 및 지니 지수를 포함하여 세 가지 유명한 속성 선택 측정이 있습니다.

정보 획득 − 정보 이득은 클래스에 대한 최대 데이터를 렌더링하는 최상의 기능/속성을 결정하는 데 사용됩니다. 루트 노드에서 시작하여 리프 노드까지 엔트로피 수준을 낮추는 것을 목표로 하며 엔트로피 방식을 따릅니다.

노드 N이 파티션 D의 튜플을 정의하거나 유지하게 하십시오. 정보 이득이 가장 큰 속성이 노드 N의 분할 속성으로 선택됩니다. 이 속성은 결과 세분화에서 튜플을 정의하는 데 필요한 데이터를 최소화하고 최소 임의성 또는 " 이 세분에서 "불순".

이득 비율 − 정보 이득 측정은 여러 결과가 있는 테스트에 편향되어 있습니다. 값이 많은 속성을 선택할 수 있습니다. 예를 들어, 제품 ID를 포함하여 고유 식별자로 사용하는 속성을 고려하십시오.

제품 ID에 대한 분할은 각각 하나의 튜플만 포함하는 엄청난 수의 파티션을 생성할 수 있습니다. 각 파티션이 인증되기 때문에 이 파티션을 기반으로 데이터 세트 D를 정의하는 데 필요한 데이터는 Info_{product_ID}가 됩니다. (D) =0.

지니 지수 − 지니 지수는 CART에서 사용할 수 있습니다. Gini 인덱스는 데이터 파티션 또는 학습 튜플 모음인 D의 불순물을 다음과 같이 계산합니다.

$$\mathrm{지니(D)=1-\displaystyle\sum\limits_{i=1}^m p_i^2}$$

여기서 p_i D의 튜플이 클래스 C_i에 속할 확률입니다. |C_i로 계산됩니다. ,_D |/|D|.