Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

의사결정 트리 유도의 특징은 무엇입니까?

<시간/>

의사결정나무 유도의 다양한 특징은 다음과 같다 -

의사 결정 트리 유도는 분류 모델을 구성하는 비모수적 방법입니다. 즉, 클래스와 다른 속성이 만족하는 확률 분포의 유형에 대한 몇 가지 사전 가정이 필요하지 않습니다.

최적의 결정 트리를 찾는 것은 NP-완전 문제입니다. 많은 의사 결정 트리 알고리즘은 발견적 기반 접근 방식을 사용하여 방대한 가설 공간에서 검색을 안내합니다.

계산적으로 저렴한 결정 트리를 구성하기 위해 개발된 다양한 기술이 있으므로 훈련 세트 크기가 매우 큰 경우에도 모델을 빠르게 구성할 수 있습니다. 게다가, 의사결정 트리가 개발되었기 때문에 테스트 데이터를 정의하는 것이 완전히 빠르며 최악의 경우 복잡도는 O(w)입니다. 여기서 w는 트리의 최대 깊이입니다.

결정 트리, 특히 더 작은 크기의 트리는 연관적으로 실행하기 쉽습니다. 트리의 효율성은 여러 데이터 세트에 대한 여러 분류 방법과도 비슷합니다.

의사결정 트리는 이산값 함수 학습을 위한 표현적인 설명을 지원합니다. 그러나 그들은 부울 문제의 특정 방법으로 잘 일반화되지 않습니다. 인스턴스는 값이 True인 홀수(짝수) 부울 속성이 있을 때 값이 0(1)인 패리티 함수입니다.

중복 속성의 존재는 의사결정 트리의 효율성에 영향을 미치지 않습니다. 데이터의 다른 속성과 강력하게 상관 관계가 있는 속성은 중복됩니다. 다른 속성이 선택되었기 때문에 두 개의 중복 속성을 분할에 사용할 수 없습니다.

그러나 데이터 세트에 여러 개의 관련 없는 속성, 즉 분류 서비스에 도움이 되지 않는 속성이 포함된 경우 여러 개의 관련 없는 속성이 트리 성장 과정에서 우발적으로 선택되어 필요한 것보다 더 큰 의사결정 트리가 생성될 수 있습니다. 기능 선택 기술은 전처리 중에 관련 없는 속성을 제거하여 의사결정 트리의 정확도를 높이는 데 도움이 될 수 있습니다.

여러 의사 결정 트리 알고리즘이 하향식, 재귀 분할 방법을 사용하기 때문에 여러 데이터가 트리 아래로 이동할 수 있으므로 더 작아집니다. 리프 노드에서 여러 데이터는 노드의 클래스 설명에 대해 통계적으로 중요한 결정을 내리기에는 너무 작을 수 있습니다. 이를 데이터 단편화 문제라고 합니다. 한 가지 가능한 솔루션은 여러 데이터가 특정 임계값 아래로 떨어질 때 더 많은 분할을 허용하지 않는 것입니다.

하위 트리는 의사 결정 트리에서 여러 번 반복될 수 있습니다. 이것은 의사결정 트리를 필요 이상으로 어렵게 만들고 실행하기 더 복잡할 수 있습니다. 모든 내부 노드에서 단일 속성 테스트 조건에 의존하는 의사결정 트리 실행에서 다양한 상황이 증가할 수 있습니다.

일부 의사결정 트리 알고리즘에는 분할 정복 분할 방식이 필요합니다. 유사한 테스트 조건을 속성 공간의 여러 부분에 사용할 수 있으므로 하위 트리 복제 문제가 발생합니다.