속성 하위 집합 선택의 기본 방법은 무엇입니까?

<시간/>

속성 하위 집합 선택은 관련이 없거나 중복되는 속성(또는 차원)을 제거하여 데이터 세트 크기를 줄입니다. 속성 하위 집합 선택은 데이터 클래스의 결과 확률 분포가 모든 속성을 사용하여 액세스하는 원래 분포에 적용 가능한 만큼 가깝도록 속성의 최소 집합을 발견하는 것을 목표로 합니다. 감소된 속성 집합에 대한 데이터 마이닝은 추가 이점이 있습니다. 발견된 패턴에서 발생하는 여러 속성을 줄이고 이해하기 쉬운 패턴을 생성하도록 제공합니다.

n 속성의 경우 2ⁿ 이 있습니다. 가능한 하위 집합. 속성의 최적 하위 집합에 대한 철저한 검색은 특히 n 및 여러 데이터 클래스가 증가함에 따라 비용이 많이 들 수 있습니다. 따라서 감소된 검색 공간을 탐색하는 발견적 방법은 속성 하위 집합 선택에 자주 사용됩니다.

이러한 방법은 일반적으로 속성 공간을 검색하는 동안 당시에 더 나은 선택으로 보이는 것을 생성한다는 점에서 탐욕스럽습니다. 그들의 전략은 이것이 전 세계적으로 최적의 솔루션으로 이어질 것이라는 희망을 가지고 지역적으로 최적의 선택을 하는 것입니다. 이러한 탐욕적인 접근 방식은 실제로 효율적이며 최적의 솔루션을 추정하는 데 근접할 수 있습니다.

최상의 속성과 최악의 속성은 일반적으로 속성이 서로 분리되어 있다고 간주하는 통계적 유의성 테스트를 사용하여 결정됩니다. 분류를 위한 의사 결정 트리를 구축하는 데 사용되는 정보 획득 측정을 포함하여 일부 다른 속성 평가 측정을 사용할 수 있습니다.

다음과 같은 속성 하위 집합 선택 방법이 있습니다. -

단계적 앞으로 선택 − 프로세스는 감소된 집합으로 null 속성 집합으로 시작합니다. 원래 속성 중 가장 좋은 것이 결정되어 축소 집합에 추가됩니다. 이후의 모든 반복 또는 단계에서 나머지 원래 속성 중 가장 좋은 것이 집합에 삽입됩니다.
단계적 역진 제거 − 절차는 전체 속성 집합으로 시작됩니다. 각 단계에서 집합에 남아 있는 최악의 속성을 제거합니다.
정방향 선택과 역방향 제거의 조합 − 단계별 전진 선택과 후진 제거 방법을 연결하여 각 단계에서 절차가 가장 좋은 속성을 선택하고 나머지 속성 중에서 가장 나쁜 것을 제거할 수 있습니다.
의사결정 트리 유도 − ID3, C4.5 및 CART를 포함한 의사결정 트리 알고리즘은 원래 분류용으로 설계되었습니다. 의사 결정 트리 유도는 각 내부(리프가 아닌) 노드가 속성에 대한 테스트를 나타내고, 각 분기가 테스트의 결과에 해당하고, 각 외부(리프) 노드가 클래스 예측을 나타내는 순서도와 같은 구조를 구성합니다. 각 노드에서 알고리즘은 데이터를 개별 클래스로 분할하기 위해 "최상의" 속성을 선택합니다.