Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

ROC란 무엇입니까?

<시간/>

ROC는 수신기 작동 특성 곡선을 나타냅니다. 분류기의 참 긍정 비율과 거짓 긍정 비율 사이의 균형을 보여주는 그래픽 방법입니다. ROC 곡선에서 참양성률(TPR)은 g축 앞에 표시되고 거짓양성률(FPR)은 r축에 표시됩니다. 곡선 앞의 각 점은 분류자가 설득한 모델 중 하나와 상관 관계가 있습니다.

잘 알려진 해석이 있는 ROC 곡선을 따라 몇 가지 임계점이 있습니다. −

(TPR:O, FPR:0) − 모델은 모든 인스턴스가 네거티브 클래스가 될 것으로 예측합니다.

(TPR:l, FPR:I) − 모델은 모든 인스턴스가 포지티브 클래스가 될 것으로 예측합니다.

(TPR:l, FPR:O) - 이상적인 모델입니다.

최상의 분류 모델은 가능한 한 왼쪽 상단에 가깝게 배치해야 하며 무작위 추측을 생성하는 모델은 (TPR:0,FPR:0) 및 (TPR:I,FPR:1). 무작위 추측은 레코드가 속성 집합에 관계없이 고정 확률 p를 갖는 포지티브 클래스로 정의됨을 정의합니다.

ROC 곡선을 그릴 수 있고 분류기는 양성 클래스로 정의될 가능성이 가장 높은 데이터에서 가능성이 가장 낮은 데이터까지 예측의 순위를 지정하는 데 사용할 수 있는 연속 값 출력을 생성할 수 있어야 합니다. 이러한 출력은 베이지안 분류기에 의해 생성된 사후 확률 또는 인공 신경망에 의해 개발된 숫자 값 출력과 상관될 수 있습니다. 다음 프로세스를 사용하여 ROC 곡선을 생성할 수 있습니다. -

테스트 데이터를 출력 값이 증가하는 계열로 정렬하여 연속값 출력을 포지티브 클래스에 대해 나타내는 것으로 간주합니다.

가장 낮은 순위의 테스트 데이터(즉, 출력 값이 가장 낮은 데이터)를 선택할 수 있습니다. 선택된 데이터와 그 다음에 순위가 지정된 데이터를 긍정적인 클래스에 할당할 수 있습니다. 이 방법은 모든 테스트 데이터를 양성 클래스로 정의하는 것과 유사합니다. 모든 긍정 인스턴스가 올바르게 정의되고 부정 인스턴스가 잘못 분류되기 때문에 TPR:FPR:I.

정렬된 목록에서 다음 테스트 데이터를 선택할 수 있습니다. 선택한 데이터와 그 다음에 순위가 지정된 데이터를 긍정적으로 정의하고 그 아래에 순위가 지정된 데이터를 부정적으로 정의합니다. 이전에 선택한 데이터의 실제 클래스 레이블을 결정하여 TP 및 FP 카운트를 새로 고칠 수 있습니다.

이전에 선택한 데이터가 포지티브 클래스인 경우 TP 카운트는 감소하고 FP 카운트는 이전과 유사하게 유지됩니다. 이전에 선택한 데이터가 네거티브 클래스인 경우 FP 카운트가 감소하고 TP 카운트는 이전과 유사하게 유지됩니다.

3단계를 반복하고 가장 큰 순위의 테스트 데이터가 선택될 때까지 그에 따라 TP 및 FP 카운트를 새로 고칩니다.

분류기의 FPR과 반대로 TPR을 표시할 수 있습니다.