결정 트리 유도는 클래스 레이블이 지정된 학습 튜플에서 결정 트리를 학습하는 것입니다. 의사 결정 트리는 모든 내부 노드(리프가 아닌 노드)가 속성에 대한 테스트를 나타내고, 각 분기가 테스트 결과를 정의하고, 각 리프 노드(또는 터미널 노드)가 클래스에 영향을 미치는 순차적 다이어그램과 같은 트리 구조입니다. 상표. 트리에서 가장 높은 노드가 루트 노드입니다.
그것은 개념 구매 컴퓨터를 정의합니다. 즉, AllElectronics의 사용자가 컴퓨터를 구매할 가능성이 있는지 예측합니다. 내부 노드는 직사각형으로 표시되고 리프 노드는 타원으로 표시됩니다. 다양한 결정 트리 알고리즘이 바이너리 트리(모든 내부 노드가 정확히 두 개의 다른 노드로 분기되는 위치)만 생성하는 반면 다른 알고리즘은 비-바이너리 트리를 생성할 수 있습니다.
관련 클래스 레이블이 익명인 튜플 X가 주어지면 튜플의 속성 값이 의사 결정 트리에 대해 확인됩니다. 루트에서 리프 노드까지 방향을 추적하여 해당 튜플에 대한 클래스 예측에 영향을 줍니다. 결정 트리는 분류 규칙으로 변경할 수 있습니다.
의사결정나무 분류기의 개발은 일부 도메인 지식이나 매개변수 설정이 필요하지 않으므로 탐색적 지식 발견에 적합합니다.
의사결정나무는 큰 차원의 데이터를 관리할 수 있습니다. 획득한 지식에 대한 트리 형태의 설명은 직관적이며 일반적으로 인간이 이해하기 쉽습니다. 의사 결정 트리 유도의 학습 및 분류 단계는 쉽고 빠릅니다.
일반적으로 결정 트리 분류기는 효율성이 좋습니다. 그러나 성공적인 사용은 현재 데이터를 기반으로 할 수 있습니다. 의사 결정 트리 유도 알고리즘은 의학, 제조 및 생산, 화폐 분석, 천문학, 분자 생물학을 비롯한 여러 응용 분야에서 분류에 사용되었습니다. 의사 결정 트리는 여러 상업 규칙 유도 시스템을 기반으로 합니다.
트리 구성 중에 속성 선택 측정은 튜플을 다른 클래스로 가장 잘 분할하는 속성을 선택하는 데 사용됩니다. 의사 결정 트리를 구성할 때 일부 분기는 훈련 레코드의 노이즈 또는 이상값을 반영할 수 있습니다. 나무 가지 치기는 보이지 않는 데이터에 대한 분류 정확도를 향상시키기 위해 이러한 가지를 인식하고 제거하려고 합니다.
ID3, C4.5 및 CART는 의사결정 트리가 하향식 재귀 분할 정복 방식으로 구축되는 탐욕(즉, 역추적 없음) 방식을 승인합니다. 의사 결정 트리 유도를 위한 여러 알고리즘은 튜플 및 관련 클래스 레이블의 훈련 컬렉션으로 시작하는 하향식 방법을 따릅니다. 트리가 구성될 때 훈련 컬렉션은 재귀적으로 더 작은 하위 집합으로 나뉩니다.