모델 기반 클러스터링이란 무엇입니까?

<시간/>

모델 기반 클러스터링은 데이터 클러스터링에 대한 통계적 접근 방식입니다. 관찰된(다변량) 데이터는 구성 요소 모델의 유한 조합에서 생성된 것으로 간주됩니다. 각 구성 요소 모델은 일반적으로 모수적 다변수 분포인 확률 분포입니다.

예를 들어, 다변량 가우스 혼합 모델에서 각 성분은 다변량 가우스 분포입니다. 특정 관찰을 생성하는 구성 요소는 관찰이 속한 클러스터를 결정합니다.

모델 기반 클러스터링은 주어진 데이터와 일부 수학적 모델 간의 적합성을 향상시키려는 시도이며 데이터가 기본 확률 분포의 조합에 의해 생성된다는 가정을 기반으로 합니다.

모델 기반 클러스터링에는 다음과 같은 유형이 있습니다. -

통계적 접근 − 기대치 최대화는 인기 있는 반복 정제 알고리즘입니다. k-평균의 확장 -

기본 아이디어는 다음과 같습니다 -

알고리즘

기대 단계 − 각 데이터 포인트 X_i를 할당할 수 있습니다. 클러스터 C_i 다음 확률로

$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{P(C_k)P(X_i\ arrowvert\:C_k)}{P(X_i)}}$$

최대화 단계 − 모델 매개변수의 추정에 사용할 수 있습니다.

$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) }{X_{j}P(X_i)\in\:C_j}}$$

머신 러닝 접근 방식 − 머신 러닝은 방대한 데이터 처리를 위한 복잡한 알고리즘을 만들고 사용자에게 결과를 지원하는 접근 방식입니다. 경험을 통해 이해하고 예측할 수 있는 복잡한 프로그램을 사용합니다.

알고리즘은 훈련 정보를 자주 입력하여 자체적으로 개선됩니다. 머신 러닝의 주요 목표는 데이터를 학습하고 인간이 이해하고 사용할 수 있는 데이터로부터 모델을 구축하는 것입니다.

분류 트리 형태의 계층적 클러스터링을 생성하는 점진적 개념 학습의 유명한 접근 방식입니다. 각 노드는 개념을 정의하고 해당 개념의 확률적 표현을 포함합니다.

제한사항

신경망 접근 방식 − 신경망 접근 방식은 클러스터의 프로토타입 역할을 하는 예로 각 클러스터를 나타냅니다. 새로운 객체는 어떤 거리 측정에 따라 가장 유사한 예시를 가진 클러스터에 배포됩니다.