Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

랜덤 포레스트란 무엇입니까?

<시간/>

랜덤 포레스트는 의사 결정 트리 분류기를 위해 특별히 설계된 앙상블 접근 방식의 클래스입니다. 여러 의사 결정 트리에서 수행한 예측을 통합합니다. 여기서 각 트리는 별도의 임의 벡터 세트의 값을 기반으로 생성됩니다.

랜덤 벡터는 AdaBoost에서 사용되는 적응적 방법과 달리 일정한 확률 분포에서 생성됩니다. 여기서 분류하기 어려운 대상 인스턴스까지 확률 분포가 다양합니다.

Bagging 요구 결정 트리는 초기 훈련 세트에서 복원과 함께 N개의 샘플을 무작위로 선택하여 모델 구축 절차에 무작위성이 삽입되는 임의의 숲의 확실한 경우입니다. Bagging은 또한 전체 모델 구축 단계에서 부트스트랩된 샘플을 만들기 위해 유사한 균일 확률 분포가 필요합니다.

각 의사 결정 트리에는 일정한 확률 분포에서 생성된 랜덤 벡터가 필요합니다. 랜덤 벡터는 여러 가지 방법으로 나무 성장 절차에 통합될 수 있습니다. 첫 번째 방법은 의사 결정 트리의 각 노드에서 나눌 F 입력 특성을 무작위로 선택하는 것입니다.

결과적으로 접근 가능한 모든 기능을 검토하기 보다는 이러한 선택된 기능에서 노드 분할 결정이 결정됩니다. 나무는 일부 가지 치기 없이 완전히 자랍니다. 이것은 나오는 트리에 존재하는 편향을 줄이는 데 도움이 될 수 있습니다.

트리가 구축되었기 때문에 예측은 다수결 설계를 사용하여 연결됩니다. 이 접근 방식을 Forest-R1이라고 하며, 여기서 RI는 임의 입력 선택을 정의합니다. 무작위성을 향상시킬 수 있고, 배깅을 사용하여 Forest-RI에 대한 부트스트랩 샘플을 생성할 수 있습니다.

랜덤 포레스트의 내구성과 상관 관계는 F의 크기를 기반으로 할 수 있습니다. F가 적절하게 작으면 나무 영향이 덜 상관 관계가 됩니다. 즉, 트리 분류기의 강도는 기능 수가 많을수록 향상에 영향을 미칩니다. F.

여러 개의 원래 기능 d가 너무 작으면 결정 트리를 구성하기 위해 별도의 임의 기능 세트를 선택하는 것이 복잡합니다. 특징 공간을 늘리는 한 가지 방법은 입력 특징의 선형 집합을 만드는 것입니다. 특히, 각 노드에서 입력된 feature 중 L을 무작위로 선택하여 새로운 feature를 생성합니다.

입력 특성은 [-1, 1] 범위의 균일 분포에서 생성된 계수를 사용하여 선형으로 연결됩니다. 모든 노드에서 이러한 무작위로 결합된 새로운 기능의 F가 만들어지고 그 중 가장 좋은 것이 최종적으로 노드를 분할하기 위해 선택됩니다. 이 접근 방식을 Forest-RC라고 합니다.