분류기의 성능을 평가하는 방법은 무엇입니까?

<시간/>

훈련 중 모델의 일반화 오류를 추정하는 방법에는 여러 가지가 있습니다. 추정된 오류는 모델 선택을 수행하는 학습 알고리즘을 지원합니다. 즉, 과적합의 영향을 받지 않는 올바른 복잡성의 모델을 발견하는 것입니다.

모델이 구성되었기 때문에 테스트 세트에서 이전에 보지 못한 데이터의 클래스 레이블을 예측하는 데 사용할 수 있습니다. 테스트 세트에 대한 모델의 성능을 측정하는 것이 종종 유용합니다. 왜냐하면 그러한 측정은 일반화 오류의 편향되지 않은 추정치를 제공하기 때문입니다. 테스트 세트에서 평가된 정확도 또는 오류율은 동일한 도메인에서 여러 분류기의 연관 성능을 비교하는 데 사용할 수 있습니다.

분류기의 성능을 평가하는 데 일반적으로 사용되는 다양한 방법은 다음과 같습니다. -

홀드아웃 방식 − 홀드아웃 방법에서 레이블이 지정된 인스턴스가 있는 초기 레코드는 그에 따라 훈련 세트와 테스트 세트로 알려진 두 개의 분리된 세트로 분할됩니다. 분류 모델은 훈련 세트에서 유도되고 그 구현은 테스트 세트에서 계산됩니다.

분류기의 효율성은 테스트 세트에서 유도된 모델의 효율성에 따라 계산할 수 있습니다. 홀드아웃 방법은 잘 알려진 여러 가지 단점이 있습니다. 첫째, 여러 데이터가 테스트를 위해 보류되기 때문에 레이블이 지정된 일부 인스턴스에 교육을 위해 액세스할 수 있습니다.

결과적으로 유도된 모델은 레이블이 지정된 일부 예제가 훈련에 사용될 때만큼 최상일 수 없습니다. 둘째, 모델은 훈련 및 테스트 세트의 구조에 크게 의존할 수 있습니다.

반면에 훈련 세트가 너무 크면 더 작은 테스트 세트에서 계산된 추정 정확도가 Iess 신뢰할 수 있습니다. 따라서 추정치는 넓은 신뢰 구간을 갖습니다. 마지막으로 훈련 세트와 테스트 세트는 더 이상 분리되어 있지 않습니다.

랜덤 서브샘플링 - 홀드아웃 방법은 분류기의 구현 계산을 향상시키기 위해 여러 번 반복될 수 있습니다. 이 방법을 랜덤 서브샘플링이라고 합니다.

acc_i하자 i^번째 동안의 모델 정확도 반복. 전체 정확도는 acc_sub에 의해 제공됩니다. =$\mathrm{\displaystyle\sum\limits_{i=1}^k}$acc_i /k

무작위 서브샘플링은 학습에 적용할 수 있는 만큼 많은 데이터를 사용하지 않기 때문에 홀드아웃 접근 방식과 관련된 몇 가지 문제가 발생합니다. 또한 각 데이터가 테스트 및 교육에 사용되는 횟수를 제어할 수 없습니다. 따라서 일부 데이터는 다른 데이터보다 훈련에 더 많이 사용될 수 있습니다.

교차 검증 −:무작위 서브샘플링의 대안은 교차 검증입니다. 이 방법에서 각 데이터는 훈련을 위해 여러 번 사용되고 테스트를 위해 정확히 한 번 사용됩니다. 레코드를 두 개의 동일한 크기의 하위 집합으로 분할할 수 있음을 고려하십시오. 첫째, 훈련용 하위 집합 중 하나를 선택하고 테스트용 하위 집합 중 하나를 선택할 수 있습니다. 하위 집합의 역할을 변경하여 이전 훈련 집합이 테스트 집합이 되도록 할 수 있습니다. 이 방법을 이중 교차 검증이라고 합니다.