편향-분산 분해란 무엇입니까?

<시간/>

여러 가설을 결합하는 효과는 편향-분산 분해라는 이론적 장치를 통해 확인할 수 있습니다. 유사한 크기의 개별 훈련 세트가 무한히 있고 이를 사용하여 무한한 수의 분류기를 생성할 수 있다고 가정합니다.

테스트 인스턴스는 모든 분류기에 의해 처리되며 개별 답변은 일괄 투표로 결정됩니다. 이 상황에서는 완벽한 학습 설계가 없기 때문에 오류가 나타납니다. 오류율은 머신 러닝 접근 방식이 당면한 문제를 얼마나 잘 연결하는지에 따라 결정되며, 아마도 학습할 수 없는 노이즈의 영향도 기록에 있습니다.

개별적으로 선택된 무한한 수의 테스트 예제에 대해 연결된 분류기의 오류를 평균화하여 예상 오류율을 계산했다고 가정합니다. 특정 학습 알고리즘에 대한 오류율은 학습 문제에 대한 편향으로 알려져 있으며 학습 방법이 문제를 얼마나 잘 연결하는지 계산합니다.

무한한 수의 훈련 그룹을 고려하여도 삭제할 수 없는 학습 알고리즘의 "지속적인" 오류를 계산합니다. 실제 상황에서는 정확하게 계산할 수 없습니다. 대략적으로만 계산할 수 있습니다.

학습된 모델의 두 번째 오류 원인은 사용된 특정 훈련 세트에서 비롯되며, 이는 반드시 유한해야 하므로 실제 인스턴스 모집단을 완전히 대표하지는 않습니다.

주어진 크기의 모든 가능한 훈련 그룹과 가능한 모든 테스트 세트에 대한 이 오류 요소의 예상 값은 해당 문제에 대한 학습 방법의 분산으로 알려져 있습니다. 분류기의 완전한 예상 오차는 편향과 분산의 합계로 만들어집니다. 이것이 편향-분산 분해입니다.

편향-분산 분해는 제곱 오차에 따른 수학적 예측의 맥락에서 학습되었으며, 이를 구현하는 데 널리 허용되는 방법이 있습니다. 그러나 분류에 대한 상황은 명확하지 않으며 다양한 경쟁 분해가 제안되었습니다.

배깅은 주어진 훈련 세트를 사용하여 이전에 정의된 단계를 시뮬레이션하여 학습 접근 방식의 불안정성을 무효화하려고 시도합니다. 매번 새로운 별도의 훈련 데이터 세트를 샘플링하는 대신 초기 훈련 데이터는 일부 인스턴스를 제거하고 다른 인스턴스를 복사하여 변경됩니다. 인스턴스는 복원과 함께 초기 데이터 세트에서 무작위로 샘플링되어 동일한 크기의 새 데이터 세트를 만듭니다. 이 샘플링 프로세스는 불가피하게 일부 인스턴스를 복사하고 다른 인스턴스를 제거합니다.

리샘플링에 의해 생성된 데이터셋은 서로 다르지만 하나의 데이터셋에 설정되어 있기 때문에 독립적이지 않다. 그러나 배깅은 초기 훈련 데이터의 개별 모델 구성보다 훨씬 더 잘 구현하는 결합된 모델을 만들고 본질적으로 더 나쁜 것은 아닙니다.