수하물
배깅은 부트스트랩 집계라고도 합니다. 잡음이 많은 데이터 세트 내에서 분산을 줄이기 위해 일반적으로 사용되는 앙상블 학습 방법입니다. 배깅에서는 단일 데이터 포인트가 두 번 이상 선택될 수 있음을 의미하는 교체로 훈련 세트의 데이터 샘플이 무작위로 선택됩니다.
여러 데이터 샘플이 생성된 후 이러한 약한 모델은 별도로 학습되며 작업 회귀 또는 분류 요소에 따라 달라집니다. 예를 들어, 이러한 예측의 평균은 더 효율적인 추정치를 산출합니다.
Random Forest는 배깅에 대한 확장입니다. 레코드의 임의 하위 집합을 예측하려면 한 단계 더 필요합니다. 또한 모든 기능을 사용하여 트리를 개발하는 대신 임의의 기능 선택을 생성합니다. 여러 개의 임의 트리를 가질 수 있는 경우 이를 임의의 숲이라고 합니다.
Bagging은 또한 금융 시장의 딥 러닝 모델과 함께 활용되어 사기 탐지, 신용 위험 계산, 옵션 가격 책정 문제와 같은 중요한 기능을 자동화합니다.
이 연구는 여러 기계 학습 기술 간의 배깅을 활용하여 대출 불이행 위험을 만든 방법을 보여줍니다. 이 연구는 은행 및 금융 기관 내에서 신용 카드 사기를 방지하여 위험을 최소화하는 데 배깅이 어떻게 지원되는지 이해합니다.
부스팅
부스팅은 예측 변수 집합을 생성하는 또 다른 앙상블 프로세스입니다. 다른 말로 하자면 연속적인 트리, 일반적으로 임의의 샘플을 맞출 수 있으며 모든 단계에서 이전 트리의 순 오차를 푸는 것이 목표입니다.
부스팅은 일반적으로 지도 학습 기법에서 편향과 분산을 줄이는 데 사용됩니다. 약한 학습자(기본 학습자)를 강한 학습자로 변경하는 알고리즘 패밀리를 정의합니다. 약한 학습자는 실제 분류와 약간만 맞는 분류자이고, 강한 학습자는 실제 분류와 상관관계가 좋은 분류자이다.
배깅과 부스팅의 비교를 살펴보겠습니다.
배깅 | 부스팅 |
---|---|
편향이 아닌 분산을 줄이는 것이 목표입니다. | 편향이 아니라 편차를 줄이는 것이 목표입니다. |
각 모델은 독립적으로 구축됩니다. | 새 모델은 이전에 개발된 모델의 구현에 영향을 받습니다. |
유사한 유형에 속하는 예측을 연결하는 가장 간단한 방법입니다. | 여러 유형에 속하는 예측을 연결하는 방법입니다. |
Bagging은 과적합 문제를 해결하려고 합니다. | 부스팅은 편향을 줄이려고 합니다. |
여러 훈련 데이터 하위 집합이 전체 훈련 데이터 세트에서 대체하여 무작위로 추출됩니다. | 각각의 새로운 하위 집합에는 이전 모델에서 잘못 분류된 구성 요소가 포함됩니다. |
배깅은 과적합 문제를 해결할 수 있습니다. | 부스팅은 과적합 문제를 증폭시킬 수 있습니다. |