Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

판별 분석의 성능은 어떻습니까?

<시간/>

판별 분석 접근 방식은 분류 점수에 나타나는 두 가지 주요 가정에 의존합니다. 첫째, 일부 클래스의 예측 변수 측정이 다변량 정규 분포에서 나타나는 것으로 간주합니다. 이 가설이 합리적으로 조립되면 판별 분석은 로지스틱 회귀를 포함한 다른 분류 방법보다 동적인 도구입니다.

데이터가 다변량 정규식이면 판별 분석이 로지스틱 회귀보다 30% 더 효과적이며 동일한 결과에 도달하기 위해 30% 적은 레코드가 필요하다는 것이 표시됩니다. 이 방법은 예측 변수가 비정규 변수가 될 수 있고 심지어 더미 변수가 될 수 있다는 점에서 정규성을 벗어나는 데 상대적으로 강한 것으로 나타났습니다.

이것은 가장 작은 클래스가 적절하게 큰 경우(약 20개 이상의 레코드) 사실입니다. 이 접근 방식은 개별 예측 변수의 단변량 영역과 다변량 영역 모두에서 이상값에 민감하다고 합니다. 극단적인 방법을 찾고 제거할 수 있는지 여부를 결정하려면 탐색적 분석을 사용해야 합니다.

판별 분석에 따른 두 번째 가정은 클래스 내의 다중 예측자 간의 상관 구조가 클래스 간에 동일하다는 것입니다. 이는 각 클래스에 대해 개별적으로 예측 변수 간의 상관 행렬을 계산하고 행렬을 비교하여 확인할 수 있습니다.

상관 관계가 클래스 간에 상당히 대조되는 경우 분류기는 레코드를 가장 높은 변동성을 가진 클래스로 정의하는 데 영향을 미칩니다. 상관 구조가 본질적으로 다르고 데이터 세트가 높을 때 대안은 2차 판별 분석이 필요한 것입니다.

적당한 접근 방식은 정규성 및 상관 관계에 관한 일부 탐색적 분석을 청구하고 모델을 훈련 및 계산한 다음 분류 정확도와 원래 탐색에서 학습한 내용을 기반으로 다시 돌아가서 이상값을 검사해야 하는지 또는 예측 변수를 선택해야 하는지 여부를 탐색하는 것입니다. 변수를 재검토했습니다.

성능 계산을 위해 검증 그룹을 활용하는 것과 같은 주장은 여전히 ​​유효합니다. 예를 들어 승용 잔디 깎는 기계 제품군 1, 13 및 17은 잘못 분류됩니다. 이는 모델이 이러한 레코드에 대해 12.5%의 오류율을 산출함을 의미합니다.

이 비율은 편향된 측정값입니다. 분류 함수를 피팅하고 오류를 계산하는 데 동일한 데이터를 사용할 수 있기 때문에 낙관적입니다. 따라서 여러 모델과 마찬가지로 분류 함수 계산에 포함되지 않은 데이터가 포함된 유효성 검사 집합에 대한 성능을 확인할 수 있습니다.

판별분석으로부터 정오분류표를 얻을 수 있고, 그 분류점수로부터 계산되는 정확한 분류점수나 경향(수업등록확률)이 필요할 수 있다. 두 경우 모두 가장 큰 점수 또는 확률에 따라 각 레코드의 클래스 할당이 결정됩니다. 이러한 분류를 이러한 데이터의 실제 클래스 구성원과 비교할 수 있습니다. 이것은 혼동 행렬을 생성합니다.