Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

배깅과 부스팅의 차이점은 무엇입니까?

<시간/>

수하물

배깅은 부트스트랩 집계라고도 합니다. 잡음이 많은 데이터 세트 내에서 분산을 줄이기 위해 일반적으로 사용되는 앙상블 학습 방법입니다. 배깅에서는 단일 데이터 포인트가 두 번 이상 선택될 수 있음을 의미하는 교체로 훈련 세트의 데이터 샘플이 무작위로 선택됩니다.

여러 데이터 샘플이 생성된 후 이러한 약한 모델은 별도로 학습되며 작업 회귀 또는 분류 요소에 따라 달라집니다. 예를 들어, 이러한 예측의 평균은 더 효율적인 추정치를 산출합니다.

Random Forest는 배깅에 대한 확장입니다. 레코드의 임의 하위 집합을 예측하려면 한 단계 더 필요합니다. 또한 모든 기능을 사용하여 트리를 개발하는 대신 임의의 기능 선택을 생성합니다. 여러 개의 임의 트리를 가질 수 있는 경우 이를 임의의 숲이라고 합니다.

Bagging은 또한 금융 시장의 딥 러닝 모델과 함께 활용되어 사기 탐지, 신용 위험 계산, 옵션 가격 책정 문제와 같은 중요한 기능을 자동화합니다.

이 연구는 여러 기계 학습 기술 간의 배깅을 활용하여 대출 불이행 위험을 만든 방법을 보여줍니다. 이 연구는 은행 및 금융 기관 내에서 신용 카드 사기를 방지하여 위험을 최소화하는 데 배깅이 어떻게 지원되는지 이해합니다.

부스팅

부스팅은 예측 변수 집합을 생성하는 또 다른 앙상블 프로세스입니다. 다른 말로 하자면 연속적인 트리, 일반적으로 임의의 샘플을 맞출 수 있으며 모든 단계에서 이전 트리의 순 오차를 푸는 것이 목표입니다.

부스팅은 일반적으로 지도 학습 기법에서 편향과 분산을 줄이는 데 사용됩니다. 약한 학습자(기본 학습자)를 강한 학습자로 변경하는 알고리즘 패밀리를 정의합니다. 약한 학습자는 실제 분류와 약간만 맞는 분류자이고, 강한 학습자는 실제 분류와 상관관계가 좋은 분류자이다.

배깅과 부스팅의 비교를 살펴보겠습니다.

배깅 부스팅
편향이 아닌 분산을 줄이는 것이 목표입니다. 편향이 아니라 편차를 줄이는 것이 목표입니다.
각 모델은 독립적으로 구축됩니다. 새 모델은 이전에 개발된 모델의 구현에 영향을 받습니다.
유사한 유형에 속하는 예측을 연결하는 가장 간단한 방법입니다. 여러 유형에 속하는 예측을 연결하는 방법입니다.
Bagging은 과적합 문제를 해결하려고 합니다. 부스팅은 편향을 줄이려고 합니다.
여러 훈련 데이터 하위 집합이 전체 훈련 데이터 세트에서 대체하여 무작위로 추출됩니다. 각각의 새로운 하위 집합에는 이전 모델에서 잘못 분류된 구성 요소가 포함됩니다.
배깅은 과적합 문제를 해결할 수 있습니다. 부스팅은 과적합 문제를 증폭시킬 수 있습니다.