상당한 조사를 받은 분류 접근 방식은 지원 벡터 기계(SVM)입니다. 이 접근 방식은 통계적 학습 이론에 뿌리를 두고 있으며 필기 숫자 식별에서 텍스트 분류에 이르기까지 여러 실제 적용에서 유망한 경험적 결과를 보여주었습니다.
SVM은 또한 고차원 데이터로 작동하며 차원 문제의 저주를 방지합니다. 이 접근 방식의 두 번째 요소는 지원 벡터라고 하는 훈련 인스턴스의 하위 집합을 사용하여 결정 경계를 정의한다는 것입니다.
SVM은 선형으로 분리 가능한 데이터에서 이러한 유형의 초평면을 명시적으로 볼 수 있도록 준비할 수 있습니다. SVM 방법론이 비선형적으로 분리 가능한 데이터로 계속될 수 있는 방법을 표시함으로써 달성할 수 있습니다. 데이터 세트는 선형으로 분리 가능합니다. 즉, 초평면의 한 면에 있는 모든 사각형과 다른 면에 있는 모든 원을 포함하는 초평면을 발견할 수 있습니다.
선형 모델의 용량은 마진과 반비례합니다. 마진이 작은 모델은 마진이 높은 모델과 달리 동적이며 일부 훈련 세트에 적합할 수 있기 때문에 용량이 더 큽니다. SRM 원리에 따라 용량이 증가함에 따라 일반화 오차 한계가 증가할 수 있습니다. 따라서 최악의 일반화 오류를 줄이기 위해 결정 경계의 마진을 최대화하는 선형 분류기를 만드는 것이 바람직합니다.
선형 SVM은 최대 마진 분류기라고 하는 가장 높은 마진을 가진 초평면을 확인하는 분류기입니다. SVM이 이러한 경계를 학습하는 방법을 학습할 수 있으며 선형 분류기의 결정 경계 및 마진에 대한 예비 분석으로 시작할 수 있습니다.
SVM에는 다음과 같은 다양한 특성이 있습니다. -
SVM 학습 문제는 목적 함수의 전역 최소값을 발견하기 위해 효과적인 알고리즘에 액세스할 수 있는 볼록 최적화 문제로 구성될 수 있습니다. 규칙 기반 분류기 및 탐욕 기반 접근 방식을 사용하여 가설 영역을 검색하는 인공 신경망을 포함하여 다양한 분류 방법이 있습니다. 이러한 방법은 국부적으로 최적의 솔루션을 찾는 데에만 영향을 미칩니다.
SVM은 결정 경계의 마진을 확대하여 용량 제어를 구현합니다. 사용자는 사용할 커널 함수의 유형과 각 슬랙 변수를 제공하기 위한 비용 함수 C를 비롯한 여러 매개변수를 제공해야 합니다.
SVM은 데이터에 표시되는 각 범주별 속성 값에 대한 더미 변수를 학습하여 범주별 기록에 사용할 수 있습니다. 예를 들어, 결혼 여부가 미혼, 기혼, 이혼의 세 가지 값을 가지고 있다면 각 속성 값에 대해 이진 변수를 학습할 수 있습니다.