Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

문서 클러스터링 분석이란 무엇입니까?

<시간/>

문서 클러스터링은 감독되지 않은 방식으로 파일을 구성하는 중요한 기술입니다. 문서를 용어 벡터로 나타낼 때 클러스터링 방법을 적용할 수 있습니다. 문서 공간은 수백에서 수천에 이르기까지 지속적으로 큰 차원을 가지고 있습니다.

차원의 저주로 인해 문서 공간의 의미 구조가 명확해지는 저차원 하위 ​​공간으로 문서를 먼저 투영하는 것이 합리적입니다. 저차원 의미 영역에서는 기존의 클러스터링 알고리즘을 사용할 수 있습니다.

문서 클러스터링 분석에는 여러 가지 방법이 있습니다. -

스펙트럼 클러스터링 − 스펙트럼 클러스터링 방법은 먼저 원본 데이터에 스펙트럼 임베딩(차원 축소)을 수행한 다음 축소된 문서 공간에 기존 클러스터링 알고리즘(예:k-means)을 적용합니다.

스펙트럼 클러스터링에서 작동할 수 있어 고도의 비선형 데이터를 처리할 수 있음을 보여줍니다(데이터 공간은 모든 로컬 영역에서 높은 곡률을 가짐). 미분 기하학에 대한 강력한 링크를 통해 파일 공간의 다양한 아키텍처를 찾을 수 있습니다.

이러한 스펙트럼 클러스터링 알고리즘의 한계는 "훈련" 데이터에만 표시되는 비선형 임베딩(차원 축소)을 사용할 수 있습니다. 임베딩을 이해하려면 일부 데이터 포인트를 사용해야 합니다. 데이터 세트가 방대할 때 그러한 임베딩을 이해하는 것은 계산 비용이 많이 듭니다. 이것은 높은 데이터 세트에 대한 스펙트럼 클러스터링 소프트웨어를 제한합니다.

혼합 모델 − 혼합 모델 클러스터링 방법은 종종 다항 성분 모델을 포함하는 혼합 모델로 텍스트 데이터를 모델링합니다. 클러스터링에는 다음과 같은 두 단계가 포함됩니다. -

텍스트 데이터 및 추가 사전 지식을 기반으로 모델 매개변수를 추정할 수 있습니다.

추정된 모델 매개변수를 기반으로 클러스터를 추론할 수 있습니다. 혼합 모델을 어떻게 정의하느냐에 따라 단어와 문서를 동시에 클러스터링할 수 있습니다.

PLSA(Probabilistic Latent Semantic Analysis) 및 LDA(Latent Dirichlet Allocation)는 이러한 접근 방식의 두 가지 예입니다. 클러스터링 방법의 이점은 파일의 비교 분석을 지원하도록 클러스터를 설계할 수 있다는 것입니다.

LSI(Latent Semantic Indexing) 및 LPI(Locality Preserving Indexing) 방법은 선형 차원 축소 방법입니다. LSI 및 LPI에서 변환 벡터(임베딩 기능)를 달성하는 데 사용됩니다. 이러한 임베딩 기능은 어디에서나 나타납니다. 따라서 데이터의 요소를 사용하여 임베딩 기능을 이해하고 일부 데이터를 저차원 공간에 임베딩할 수 있습니다.

LSI의 목적은 전역 재구성 오류를 최소화한다는 의미에서 원본 문서 공간에 대한 최상의 부분 공간 근사값을 찾는 것입니다. 즉, LSI는 문서 표현에 있어 가장 차별적인 특징보다는 가장 대표적인 특징을 찾아내고자 합니다. 따라서 LSI는 클러스터링의 궁극적인 목표인 의미가 다른 문서를 구별하는 데 최적이 아닐 수 있습니다.