자동 문서 분류는 어떻게 수행합니까?

<시간/>

자동 문서 분류는 엄청난 수의 온라인 파일이 존재하기 때문에 필수적인 텍스트 마이닝 서비스입니다. 문서 검색 및 연속 분석을 지원하기 위해 이러한 레코드를 클래스로 자동 구성할 수 있는 것이 무한하지만 중요합니다.

문서 분류는 자동화된 주제 태그 지정(예:문서에 레이블 지정), 주제 디렉토리 구성, 문서 작성 스타일 식별 및 문서 세트와 관련된 하이퍼링크의 목표 정의에 사용되었습니다.

일반적인 절차는 다음과 같습니다. - 먼저 미리 분류된 파일 그룹을 학습 세트로 사용합니다. 훈련 세트는 분류 체계를 변경하기 위해 분석됩니다. 이러한 분류 체계는 테스트 오하세를 통해 개선되어야 합니다. 이렇게 파생된 분류 체계는 여러 온라인 파일을 분류하는 데 사용할 수 있습니다.

이 단계는 관계형 레코드의 분류와 동일하게 발생합니다. 모든 튜플이 속성-값 쌍 그룹으로 설명되는 것처럼 관계형 데이터는 잘 구조화되어 있습니다.

예를 들어, 튜플 {sunny, warm, dry, not windy, play tennis}, 속성 weather outlook에 해당하는 값 "sunny", 속성 온도에 해당하는 "warm" 등

분류 분석은 사람이 테니스를 칠 것인지 여부를 결정하는 데 가장 높은 판별력을 가진 속성-값 쌍 그룹을 결정합니다. 즉, 문서 데이터베이스는 속성-값 쌍에 따라 구조화되지 않습니다.

문서 세트와 연결된 키워드 세트는 속성이나 차원의 고정 세트로 구성되지 않습니다. 문서에 있는 각각의 고유한 키워드, 용어 또는 기능을 차원으로 보면 문서 세트에 수천 개의 차원이 있을 수 있습니다. 따라서 의사결정 트리 분석을 포함하여 일반적으로 관계형 데이터 중심의 분류 방법을 사용하며 문서 데이터베이스의 분류에는 효율적이지 않습니다.

벡터 공간 모델에 따라 두 파일은 동일한 파일 벡터를 공유하는 경우 동일합니다. 이 모델은 유사한 문서에 동일한 클래스 레이블이 할당될 것으로 예상되는 직관에 기반하여 k-최근접 이웃 분류기의 구성을 유도합니다.

각각 해당하는 클래스 레이블과 연결된 모든 교육 문서를 간단히 색인화할 수 있습니다. 테스트 문서가 제출되면 IR 시스템에 대한 쿼리로 처리하고 쿼리와 가장 유사한 k 문서를 훈련 세트에서 검색할 수 있습니다. 여기서 k는 조정 가능한 상수입니다.

테스트 파일의 클래스 레이블은 k개의 최근접 이웃의 클래스 레이블 분포에 따라 결정될 수 있습니다. 이러한 클래스 레이블 분포는 원시 개수 대신 가중치 개수를 기반으로 하거나 유효성 검사를 위해 레이블이 지정된 문서의 일부를 따로 설정하는 것과 같이 세분화할 수도 있습니다.