원래 속성의 좋은 하위 집합을 어떻게 찾을 수 있습니까?

<시간/>

속성 하위 집합 선택은 관련이 없거나 중복되는 속성(또는 차원)을 제거하여 데이터 세트 크기를 줄입니다. 속성 하위 집합 선택의 목적은 데이터 클래스의 후속 확률 분포가 모든 속성을 사용하여 얻은 원래 분포에 가능한 한 근접하도록 속성의 최소 집합을 발견하는 것입니다.

n개의 속성에 대해 2n개의 가능한 하위 집합이 있습니다. 속성의 최적 하위 집합에 대한 철저한 검색은 특히 n과 데이터 클래스 수가 증가함에 따라 매우 비용이 많이 들 수 있습니다. 따라서 감소된 검색 공간을 탐색하는 발견적 접근 방식은 일반적으로 속성 하위 집합 선택에 사용됩니다.

이러한 접근 방식은 속성 공간을 검색하는 동안 계속해서 당시에 좋은 선택이 된 뷰를 만든다는 점에서 탐욕스러운 경우가 많습니다. 그들의 방법은 이것이 세계적으로 최적의 솔루션으로 이어질 것이라는 희망을 가지고 지역적으로 최적의 선택을 개발하는 것입니다. 이러한 탐욕스러운 기술은 실제로 효율적이며 최적의 솔루션을 계산하는 데 근접할 수 있습니다.

"최고" 및 "최악" 속성은 일반적으로 속성이 서로 분리되어 있다고 간주하는 통계적 유의성 테스트를 사용하여 결정됩니다. 분류를 위한 결정 트리를 구성하는 데 사용되는 정보 획득 측정을 포함하여 몇 가지 다른 속성 평가 측정을 사용할 수 있습니다.

속성 부분집합 선택의 기본적인 발견적 방법은 다음과 같은 기술을 포함합니다 -

단계적 앞으로 선택 - 프로세스는 감소된 집합으로 속성의 null 집합으로 시작합니다. 초기 속성 중 가장 좋은 것이 결정되어 감소된 집합에 삽입됩니다. 모든 후속 반복 또는 단계에서 나머지 초기 속성이 세트에 삽입됩니다.

단계적 역진 제거 − 프로세스는 전체 속성 세트로 시작됩니다. 각 단계에서 세트에 남아 있는 최악의 속성을 제거합니다.

전달 선택과 역방향 제거의 조합 − 단계별 전진 선택과 후진 제거 기술을 혼합하여 각 단계에서 프로세스가 최상의 속성을 선택하고 나머지 속성 중에서 최악을 제거할 수 있습니다.

의사결정 트리 유도 - ID3, C4.5 및 CART를 포함한 의사결정 트리 알고리즘은 처음에 분류용으로 설계되었습니다. 의사 결정 트리 유도는 각 내부(리프가 아닌) 노드가 속성에 대한 테스트를 나타내고, 각 분기가 테스트의 결과에 해당하고, 각 외부(리프) 노드가 클래스 예측을 나타내는 순서도와 같은 구조를 구성합니다. 각 노드에서 알고리즘은 "최상의" 속성을 선택하여 정보를 단일 클래스로 분할합니다.

속성 부분집합 선택을 위해 결정 트리 유도가 활용될 때, 트리는 주어진 정보로부터 구축됩니다. 트리에서 발생하지 않는 모든 속성은 관련이 없는 것으로 간주됩니다. 트리에서 발생하는 속성 그룹은 속성의 감소된 하위 집합을 형성합니다.