Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝의 추정 방법은 무엇입니까?


10겹 교차 검증은 특정 데이터 세트에 대한 학습 체계의 오류율을 측정하는 표준 방법입니다. 신뢰할 수 있는 결과를 위해 10배의 10배 교차 검증을 수행합니다. Leave-One-Out 교차 검증과 부트스트랩의 두 가지 방법이 있습니다.

Leave-One-Out 교차 검증

Leave-one-out 교차 검증은 공개적으로 n-겹 교차 검증이며, 여기서 n은 데이터 세트의 여러 인스턴스입니다. 각 인스턴스는 차례로 생략되고 학습 계획은 나머지 모든 인스턴스에 대해 학습됩니다. 나머지 인스턴스의 정확성에 따라 계산됩니다. 따라서 성공 또는 실패가 1 또는 0입니다. 데이터 세트의 각 그룹에 대해 하나씩 모든 n개의 판단 결과가 평균화되고 해당 평균이 마지막 오류 추정치를 정의합니다.

이 과정은 두 가지 이유로 흥미로운 과정입니다. 첫째, 각 경우에 가장 많은 양의 레코드를 훈련에 사용할 수 있으므로 분류기가 진품일 가능성이 높아집니다.

둘째, 절차가 결정적입니다. 무작위 샘플링이 포함되지 않습니다. 10번을 반복해도 소용이 없습니다. 매번 동일한 결과가 얻어집니다. 전체 학습 단계를 n번 실행해야 하고 일반적으로 높은 데이터 세트에서는 불가능하기 때문에 이에 대해 높은 계산 비용이 설정됩니다.

부트스트랩

우리가 설명하는 두 번째 추정 방법인 부트스트랩은 대체 샘플링의 통계적 절차를 기반으로 합니다. 이전에는 데이터 세트에서 샘플을 가져와 학습 또는 테스트 세트를 구성할 때마다 교체 없이 추출되었습니다.

대부분의 학습 체계는 동일한 인스턴스를 두 번 사용할 수 있으며 훈련 세트에 두 번 존재하면 학습 결과에 차이를 만듭니다. 부트스트랩의 아이디어는 데이터 세트를 교체하여 샘플링하여 훈련 세트를 형성하는 것입니다. 우리는 0.632 부트스트랩이라는 신비한(그러나 곧 명백해질 이유가 있음) 특정 변종에 대해 설명할 것입니다.

이를 위해 n 인스턴스의 데이터 세트를 복원과 함께 n번 샘플링하여 n 인스턴스의 다른 데이터 세트를 제공합니다. 이 두 번째 데이터 세트의 일부 요소는 (거의 확실히) 반복될 것이기 때문에 원래 데이터 세트에 선택되지 않은 일부 인스턴스가 있어야 합니다. 이 인스턴스를 테스트 인스턴스로 사용할 것입니다.

훈련 세트에 대한 학습 시스템을 훈련하고 테스트 세트에 대한 오류를 계산하여 얻은 수치는 훈련 세트의 크기가 n이지만 그럼에도 불구하고 인스턴스의 63%만 포함하기 때문에 실제 오류율에 대한 비관적인 추정치가 될 것입니다. 예를 들어 90%가 10배 교차 검증에 사용되는 것과 비교하면 그리 큰 문제는 아닙니다.