상당한 조사를 받은 분류 접근 방식은 지원 벡터 기계(SVM)입니다. 이 접근 방식은 통계적 학습 이론에 뿌리를 두고 있으며 필기 숫자 식별에서 텍스트 분류에 이르기까지 여러 실제 적용에서 유망한 경험적 결과를 보여주었습니다.
SVM은 또한 고차원 데이터로 작동하며 차원 문제의 저주를 방지합니다. 이 접근 방식의 두 번째 요소는 지원 벡터라고 하는 훈련 인스턴스의 하위 집합을 사용하여 결정 경계를 정의한다는 것입니다.
SVM은 선형으로 분리 가능한 데이터에서 이러한 유형의 초평면을 명시적으로 볼 수 있도록 준비할 수 있습니다. SVM 방법론이 비선형적으로 분리 가능한 데이터로 계속될 수 있는 방법을 표시함으로써 달성할 수 있습니다. 데이터 세트는 선형으로 분리 가능합니다. 즉, 초평면의 한 면에 있는 모든 사각형과 다른 면에 있는 모든 원을 포함하는 초평면을 발견할 수 있습니다.
분류기는 테스트 인스턴스에서 얼마나 잘 구현할 것으로 예상되는지에 따라 결정 경계를 설명하기 위해 이러한 초평면 중 하나를 선택해야 합니다. 두 결정 경계인 B1과 B2를 고려하십시오. 두 결정 경계는 잘못된 분류 오류를 실행하지 않고 훈련 인스턴스를 특정 클래스로 분리할 수 있습니다. 각 결정 경계 Bi는 이에 따라 bi1 및 bi2로 표시된 한 쌍의 초평면과 관련됩니다.
Bi1은 가장 가까운 정사각형과 통신할 때까지 결정 경계에서 멀어지는 평행 초평면을 변경하여 획득하는 반면, bi2는 가장 가까운 원과 통신할 때까지 초평면을 변경하여 획득합니다. 이 두 초평면 사이의 거리를 분류기의 여백이라고 합니다.
마진이 높은 결정 경계는 마진이 낮은 결정 경계보다 일반화 오류가 더 큰 영향을 미칩니다. 마진이 작으면 결정 경계에 대한 약간의 섭동이 분류에 필수적인 영향을 미칠 수 있습니다.
선형 분류기의 마진을 일반화 오류와 관련시키는 적절한 설명은 구조적 위험 최소화(SRM)라고 하는 통계적 학습 원리에 의해 제공됩니다. 이 원칙은 훈련 오류(Re), 훈련 예제의 수(N), 용량(h)이라고 하는 모델 복잡성 측면에서 분류기(R)의 일반화 오류에 대한 상한을 지원합니다. 보다 범주적으로 1 - n의 확률로 분류기의 일반화 오류는 최악일 수 있습니다.
$$\mathrm{R\leq\:R_e\:+\varphi(\frac{h}{N},\frac{1og(n)}{N})}$$
여기서 φ는 용량 h의 단조 증가 함수입니다. 앞의 부등식은 MDL(최소 기술 길이) 원칙을 시뮬레이션하기 때문에 독자에게 친숙할 수 있습니다. SRM은 일반화 오류를 훈련 오류와 모델 복잡성 간의 균형으로 정의하는 또 다른 접근 방식입니다.