샘플링은 클래스 불균형 문제를 처리하는 데 널리 사용되는 방법입니다. 샘플링의 개념은 훈련 세트에서 희귀 클래스가 잘 정의되도록 예제의 분포를 변경하는 것입니다. 언더샘플링, 오버샘플링 및 두 접근 방식의 하이브리드와 같은 다양한 샘플링 기술이 있습니다. 예를 들어 100개의 긍정적인 예와 1,000개의 부정적인 예가 포함된 데이터 세트를 생각해 보십시오.
언더샘플링 방법에서는 100개의 부정적인 예의 무작위 샘플을 선택하여 모든 긍정적인 예와 함께 앞서 훈련 세트를 형성합니다. 이 방법의 한 가지 문제는 유용한 부정적인 예 중 일부를 학습용으로 선택할 수 없으므로 최적의 모델보다 낮은 결과를 초래한다는 것입니다.
이를 극복하기 위한 방법은 언더샘플링을 여러 번 구현하고 앙상블 Iearning 접근법과 동일한 다중 분류기를 유도하는 것이다. 샘플링 프로세스에서 제거해야 하는 부정적인 예(예:결정 경계에서 멀리 떨어진 사례)에 대해 정보에 입각한 선택을 생성하는 집중적 언더샘플링 방법을 사용할 수 있습니다.
오버샘플링은 훈련 세트가 동일한 수의 긍정적인 예와 부정적인 예를 가질 때까지 긍정적인 예를 반영합니다. 의사결정 트리를 포함하는 분류기를 사용하여 의사결정 경계의 개발에 대한 오버샘플링의 영향. 긍정적인 사례와 부정적인 사례를 독립적으로 만들기 위해 새로운 결정 경계의 형성을 검증하는 적절한 사례가 없기 때문에 긍정적인 사례는 잘못 분류되었습니다.
그러나 노이즈 정보의 경우 여러 노이즈 예제가 여러 번 복제될 수 있으므로 오버샘플링은 모델 과적합을 생성할 수 있습니다. 오버샘플링은 일부 새 데이터를 훈련 세트에 삽입하지 않습니다. 긍정적인 예제의 복제는 학습 알고리즘이 일부 훈련 예제(즉, 작은 분리)를 포함하는 영역을 정의하는 모델의 특정 부분을 잘라내는 것을 방지합니다. 긍정적인 예는 모델 구축을 위한 계산 시간 향상에도 영향을 미칩니다.
하이브리드 방식은 균일한 클래스 분포를 구현하기 위해 다수 클래스를 언더샘플링하고 희귀 클래스를 오버샘플링하는 세트가 필요합니다. 언더샘플링은 무작위 또는 집중 서브샘플링을 사용하여 구현할 수 있습니다. 오버샘플링은 현재 긍정적인 예를 복제하거나 현재 긍정적인 예의 주변에 새로운 긍정적인 예를 생성하여 수행할 수 있습니다.