최근접 이웃 분류기의 특징은 무엇입니까?

<시간/>

Nearest Neighbor 규칙은 훈련 인스턴스를 가져오는 할당에 대한 사전 가정 없이 종종 고성능을 생성합니다. 여기에는 긍정적인 경우와 부정적인 경우의 훈련 세트가 포함됩니다. 편리한 훈련 사례까지의 거리를 계산하여 새 샘플을 정의합니다. 그 지점의 부호가 샘플의 분류를 결정합니다.

k-NN 분류기는 k개의 가장 가까운 점을 취하고 다수의 부호를 생성하여 이 개념을 향상시킵니다. 동점(일반적으로 1, 3 또는 5)을 나누기 위해 k 작고 홀수를 선택하는 경우가 많습니다. k 값이 클수록 훈련 데이터 세트 내 잡음 포인트의 영향을 줄이는 데 도움이 되며 k 선택은 교차 검증을 통해 구현됩니다.

Nearest-Neighbor에는 다음과 같은 몇 가지 특성이 있습니다. -

최근접 이웃 분류는 인스턴스 기반 학습이라고 하는 보다 일반적인 접근 방식의 요소입니다. 데이터에서 파생된 추상화(또는 모델)를 지원하지 않고도 예측을 생성하려면 특정 훈련 인스턴스가 필요합니다.

인스턴스 기반 학습 알고리즘은 인스턴스 간의 유사성이나 거리를 판단하기 위한 근접성 측정과 다른 인스턴스와의 근접성에 따라 테스트 인스턴스의 예측된 클래스를 복원하는 분류 기능이 필요했습니다.

가장 가까운 이웃 분류기를 포함한 게으른 학습자는 모델 구축이 필요하지 않습니다. 그러나 테스트 예제와 훈련 예제 사이에 개별적으로 근접도 값을 계산해야 하기 때문에 테스트 예제를 정의하는 것은 상당히 저렴할 수 있습니다. 대조적으로, 열성적인 학습자는 모델 구축을 위해 많은 컴퓨팅 리소스를 사용합니다. 모델이 구성되었기 때문에 테스트 예제를 정의하는 것은 완전히 빠릅니다.

Nearest-neighbor 분류기는 로컬 데이터에 따라 예측을 생성하는 반면, 의사 결정 트리 및 규칙 기반 분류기는 전체 입력 공간에 맞는 전역 모델을 찾으려고 합니다. 분류 결정이 로컬에서 생성되기 때문에 가장 가까운 이웃 분류기는 노이즈의 영향을 받습니다.

Nearest-neighbor 분류기는 임의의 모양의 결정 경계를 만들 수 있습니다. 이러한 경계는 직선형 결정 경계를 강제로 적용하는 의사 결정 트리 및 규칙 기반 분류기와 구별되는 보다 동적인 모델 표현을 지원합니다.

Nearest-neighbor 분류기는 적절한 근접 측정 및 데이터 사전 처리 단계를 수행하지 않는 한 잘못된 예측을 할 수 있습니다. 예를 들어 키(미터로 측정) 및 체중(파운드로 측정)과 같은 속성을 기반으로 사람 집합을 정의해야 한다고 가정해 보겠습니다.

높이 속성은 1.5m에서 1.85m 범위의 낮은 가변성을 갖는 반면 무게 속성은 90파운드에서 250파운드로 변경될 수 있습니다. 속성의 규모가 애플리케이션에 적용되지 않는 경우 근접 측정은 다음에 의해 지배될 수 있습니다. 사람의 무게 차이.