모델 기반 클러스터링은 데이터 클러스터링에 대한 통계적 접근 방식입니다. 관찰된(다변량) 데이터는 구성 요소 모델의 유한 조합에서 생성된 것으로 간주됩니다. 각 구성 요소 모델은 일반적으로 모수적 다변수 분포인 확률 분포입니다.
예를 들어, 다변량 가우스 혼합 모델에서 각 성분은 다변량 가우스 분포입니다. 특정 관찰을 생성하는 구성 요소는 관찰이 속한 클러스터를 결정합니다.
모델 기반 클러스터링은 주어진 데이터와 일부 수학적 모델 간의 적합성을 향상시키려는 시도이며 데이터가 기본 확률 분포의 조합에 의해 생성된다는 가정을 기반으로 합니다.
모델 기반 클러스터링에는 다음과 같은 유형이 있습니다. -
통계적 접근 − 기대치 최대화는 인기 있는 반복 정제 알고리즘입니다. k-평균의 확장 -
-
가중치(확률 분포)에 따라 각 개체를 클러스터에 할당할 수 있습니다.
-
새로운 평균은 무게 측정을 기반으로 계산됩니다.
기본 아이디어는 다음과 같습니다 -
-
매개변수 벡터의 초기 추정값으로 시작할 수 있습니다.
-
매개변수 벡터에 의해 만들어진 혼합물 밀도에 대해 반복적으로 설계를 재채점하는 데 사용할 수 있습니다.
-
재기록된 패턴을 사용하여 매개변수 추정치를 업데이트합니다.
-
특정 구성 요소의 점수별로 배치된 경우 동일한 클러스터에 속하는 패턴을 지정하는 데 사용할 수 있습니다.
알고리즘
-
처음에는 k 클러스터 센터를 무작위로 할당합니다.
-
다음과 같이 두 단계를 기반으로 클러스터를 반복적으로 정제할 수 있습니다. -
기대 단계 − 각 데이터 포인트 Xi를 할당할 수 있습니다. 클러스터 Ci 다음 확률로
$$\mathrm{P(X_{i}\in\:C_{k})\:=\:P(C_k\arrowvert\:X_i)\:=\:\frac{P(C_k)P(X_i\ arrowvert\:C_k)}{P(X_i)}}$$
최대화 단계 − 모델 매개변수의 추정에 사용할 수 있습니다.
$$\mathrm{m_k\:=\:\frac{1}{N}\displaystyle\sum\limits_{i=1}^N \frac{X_{i}P(X_i\:\in\:C_k) }{X_{j}P(X_i)\in\:C_j}}$$
머신 러닝 접근 방식 − 머신 러닝은 방대한 데이터 처리를 위한 복잡한 알고리즘을 만들고 사용자에게 결과를 지원하는 접근 방식입니다. 경험을 통해 이해하고 예측할 수 있는 복잡한 프로그램을 사용합니다.
알고리즘은 훈련 정보를 자주 입력하여 자체적으로 개선됩니다. 머신 러닝의 주요 목표는 데이터를 학습하고 인간이 이해하고 사용할 수 있는 데이터로부터 모델을 구축하는 것입니다.
분류 트리 형태의 계층적 클러스터링을 생성하는 점진적 개념 학습의 유명한 접근 방식입니다. 각 노드는 개념을 정의하고 해당 개념의 확률적 표현을 포함합니다.
제한사항
-
속성이 서로 독립적이라는 가정은 상관관계가 존재할 수 있기 때문에 종종 너무 강력합니다.
-
대규모 데이터베이스 데이터, 치우친 트리 및 값비싼 확률 분포를 클러스터링하는 데 적합하지 않습니다.
신경망 접근 방식 − 신경망 접근 방식은 클러스터의 프로토타입 역할을 하는 예로 각 클러스터를 나타냅니다. 새로운 객체는 어떤 거리 측정에 따라 가장 유사한 예시를 가진 클러스터에 배포됩니다.