CART 정리 알고리즘이란 무엇입니까?

<시간/>

CART는 1984년 Leo Breiman, Jerome Friedman, Richard Olshen 및 Charles Stone에 의해 처음 생성된 유명한 의사 결정 트리 알고리즘입니다. CART는 분류 및 회귀 트리를 나타냅니다. CART 알고리즘은 이진 트리를 개선하고 순도를 향상시키는 새로운 분할을 찾을 수 있음을 고려하여 분할을 계속합니다.

더 간단한 하위 트리가 있으며 각각은 모델 복잡성과 훈련 그룹 오분류 비율 간에 서로 다른 균형을 정의합니다. CART 알고리즘은 이러한 하위 트리 그룹을 후보 모델로 인식합니다. 이러한 후보 서브트리는 검증 그룹에 사용되며 검증 세트 오분류율이 최소인 트리가 마지막 모델로 선택됩니다.

CART 알고리즘은 반복적인 가지치기(pruning) 과정을 통해 후보 서브트리를 인식한다. 목표는 리프당 가장 적은 예측력을 지원하는 분기를 먼저 가지치기하는 것입니다. 조정된 오류율이라는 개념을 기반으로 이러한 가장 불리한 분기인 CART를 인식할 수 있습니다.

이것은 트리의 여러 잎에 따라 달라지는 인상적인 복잡성 패널티로 훈련 세트에서 각 노드의 오분류 비용을 개선하는 척도입니다. 조정된 오류율은 약한 가지(오분류율이 페널티를 극복하기에 적합하지 않은 것)를 식별하고 가지치기를 위해 표시할 수 있습니다.

다음 작업은 후보 하위 트리 풀에서 새 레코드에서 가장 잘 작동하는 하위 트리를 선택하는 것입니다. 각 후보 하위 트리는 유효성 검사 세트의 데이터를 정의할 수 있습니다. 완료 오류율이 가장 낮은 이 작업을 구현하는 트리가 승자로 정의됩니다. 승리한 하위 트리는 오버트레이닝의 영향을 제거하기 위해 적절하게 정리되었지만 귀중한 데이터를 잃을 정도로 높지는 않습니다.

이 가지치기 알고리즘은 각 분류의 확률을 고려하지 않고 오분류 비율에 의존하기 때문에 모든 잎이 해당 분류를 생성하는 공통 부모와 동일한 분류를 생성하는 일부 하위 트리를 복원합니다.

목표는 데이터의 작은 비율(예:상위 1% 또는 10%)을 선택하는 것입니다. 이 가지치기 알고리즘은 트리의 구현을 손상시킬 수 있습니다. 제거된 잎 중 일부는 대상 클래스의 매우 높은 영역을 포함하기 때문입니다. . SAS Enterprise Miner를 비롯한 다양한 도구가 있어 사용자가 이러한 방법에 대해 최적의 트리를 프루닝할 수 있습니다.

검증 세트에서 데이터를 정의하는 작업에 사용될 때의 완전한 오류율을 기반으로 우승 하위 트리가 선택되었습니다. 선택한 하위 트리가 여러 데이터 세트에 사용될 때 계속해서 최상의 구현 하위 트리가 될 것이라고 기대할 수 있으며, 선택하도록 생성한 오류율은 그 강도를 약간 과장할 수 있습니다.