앙상블 분류기를 구성하는 방법은 무엇입니까?

<시간/>

개념은 초기 데이터에서 여러 분류기를 만든 다음 알 수 없는 예를 설명할 때 예측을 집계하는 것입니다. 분류기의 앙상블은 다음과 같은 여러 방법으로 구성할 수 있습니다. -

훈련 세트 조작 − 이 방법에서는 일부 샘플링 분포에 따라 초기 데이터를 다시 샘플링하여 여러 훈련 세트를 생성합니다. 샘플링 분포는 훈련을 위해 인스턴스가 선택될 가능성을 결정하며 한 시도에서 다른 시도로 변경될 수 있습니다. 분류기는 특정 학습 알고리즘을 사용하여 각 훈련 세트에서 구성됩니다. 배깅과 부스팅은 훈련 세트를 조작하는 앙상블 방법의 예입니다.

입력 기능을 조작하여 − 이 방법에서는 입력 특성의 하위 집합을 선택하여 모든 훈련 세트를 구성합니다. 하위 집합은 무작위로 선택하거나 도메인 전문가의 추천에 따라 선택할 수 있습니다. 몇몇 연구에서는 이 방법이 매우 중복되는 기능을 포함하는 데이터 세트에 매우 잘 작동한다는 표시를 보여줍니다. 랜덤 포레스트는 입력 기능을 조작하고 기본 분류기로 결정 트리를 필요로 하는 앙상블 기술입니다.

클래스 레이블 조작 - 이 방법은 여러 개의 클래스가 충분히 클 때 사용할 수 있습니다. 학습 데이터는 클래스 레이블을 A0 및 A1과 같은 두 개의 분리된 하위 집합으로 무작위로 세분화하여 이진 클래스 문제로 변경됩니다.

클래스 레이블이 하위 집합 A0에 적용되는 학습 인스턴스는 클래스 0에 정의되고 하위 집합 A1에 적용되는 학습 인스턴스는 클래스 1에 정의됩니다. 레이블이 다시 지정된 인스턴스는 기본 분류기를 학습하는 데 사용됩니다. 반복, 클래스 재레이블링 및 모델 구축 단계를 여러 번 반복하여 기본 분류기의 앙상블을 획득합니다.

테스트 인스턴스가 표시되면 각 기본 분류자 Ci는 해당 클래스 레이블을 예측할 수 있습니다. 테스트 인스턴스가 클래스 0으로 예측되면 A0에 적용되는 모든 클래스가 투표를 받습니다.

학습 알고리즘을 조작하여 − 동일한 학습 데이터에 대해 알고리즘을 여러 번 사용하면 여러 모델이 생성될 수 있는 방법으로 여러 학습 알고리즘을 조작할 수 있습니다. 예를 들어, 인공 신경망은 네트워크 토폴로지나 뉴런 간의 연결의 원래 가중치를 수정하여 여러 모델을 만들 수 있습니다. 마찬가지로, 트리 성장 과정에 무작위성을 주입하여 결정 트리의 앙상블을 조립할 수 있습니다.

처음 세 가지 방법은 일부 분류기와 관련된 일반 기술인 반면, 네 번째 방법은 사용된 분류기 유형을 기반으로 합니다. 기본 분류기 메서드는 순차적으로(한 번에 하나씩) 또는 병렬로(모두 한 번에) 만들 수 있습니다.

첫 번째 프로세스는 초기 데이터 D에서 훈련 세트를 생성하는 것입니다. 사용된 앙상블 접근 방식의 유형을 기반으로 하며, 훈련 세트는 D와 정확하거나 약간 변환됩니다. 훈련 세트의 크기는 다음과 동일하게 유지됩니다. 초기 데이터이지만 인스턴스의 분포가 동일할 수 없습니다. 즉, 일부 인스턴스는 훈련 세트에서 여러 번 발생할 수 있지만 다른 인스턴스는 한 번도 발생할 수 없습니다.