C5 가지치기 알고리즘이란 무엇입니까?

<시간/>

C5는 호주 연구원인 J. Ross Quinlan이 몇 년 동안 개발하고 개선해 온 의사 결정 트리 알고리즘의 최신 버전입니다. 1986년에 설립된 이전 버전인 ID3는 머신 러닝 분야에서 영향력을 행사했으며 그 후속 버전은 여러 상용 데이터 마이닝 서비스에 사용됩니다.

C5만큼 증가하는 트리는 CART에 의해 개선된 것과 동일합니다. CART와 마찬가지로 C5 알고리즘은 먼저 과적합 트리를 개선한 다음 다시 정리하여 보다 동적인 모델을 만듭니다. 가지치기 방법은 복잡하지만 C5는 후보 하위 트리 중에서 선택하기 위해 유효성 검사 집합을 사용하지 않습니다.

나무를 늘리는 데 사용되는 유사한 데이터는 나무를 가지치기하는 방법을 결정하는 데도 사용됩니다. 이는 이전에 대학 연구원들이 훈련 세트에 사용할 실제 기록의 상당량을 손에 넣는 복잡한 시간을 가졌던 학계의 알고리즘 기반을 반영할 수 있습니다. 따라서 그들은 열악한 데이터 세트에서 마지막 몇 방울의 데이터를 유추하는 데 많은 시간과 노력을 들였습니다. 이는 비즈니스 세계의 데이터 마이너가 보지 않는 문제입니다.

C5는 각 노드의 오류율을 결정하고 실제 오류율이 훨씬 더 나쁘다고 간주하여 트리를 프루닝합니다. N개의 레코드가 노드에 나타나고 그 중 E가 잘못 정의된 경우 해당 노드의 오류율은 E/N입니다.

C5는 리프에서 볼 수 있는 최악의 오류 비용 추정치를 나타내기 위해 통계적 샘플링과 유추해야 합니다. 유추는 각 시도가 두 가지 실행 가능한 결과 중 하나를 가질 수 있는 일련의 시도 결과를 정의하는 것으로 잎사귀에 있는 정보를 생각함으로써 작동합니다.

C5는 훈련 레코드에서 관찰된 오류 수가 이 범위의 하한선이라고 간주하고 상한선을 대체하여 잎의 예측된 오류 비용인 보이지 않는 레코드의 E/N을 얻습니다. 노드가 낮을수록 오류 비용이 커집니다. 노드의 다중 오류에 대한 상한 추정치가 자식 오류에 대한 추정치보다 작으면 자식이 제거됩니다.

모델의 주요 목표는 이전에 보지 못한 데이터에 대해 일관된 예측을 생성하는 것입니다. 해당 목표를 달성할 수 없는 일부 규칙은 모델에서 제거되어야 합니다. 일부 데이터 마이닝 도구를 사용하면 고객이 수동으로 의사결정 트리를 정리할 수 있습니다.

이것은 유용한 기능이지만 자동 동적 기반 가지치기를 옵션으로 지원하는 데이터 마이닝 소프트웨어를 볼 수 있습니다. 이러한 응용 프로그램은 "검증 세트 결과의 분포가 훈련 그룹 결과의 분포와 다른 보기

보다 분할 거부에 대한 주관적인 요소가 덜 필요했습니다.