K-평균
K-평균 클러스터링은 분할 알고리즘입니다. K-means는 데이터 세트의 각 데이터를 형성된 새 클러스터 중 하나로만 재생성합니다. 데이터 또는 데이터 포인트는 거리 또는 유사도 측정을 사용하여 인접 클러스터에 할당됩니다.
k-means에서 객체는 가장 가까운 중심에 생성됩니다. 연결할 수 없는 제약 조건을 정의할 수 있으며 k-means의 중심 할당 프로세스를 가장 가까운 적용 가능한 중심 할당으로 수정합니다.
개체가 순서대로 중심에 생성될 때 각 단계에서 할당을 제공할 수 있으며 지금까지 일부 연결 불가 제약 조건이 해체되지 않았습니다. 개체는 가장 가까운 중심에 생성되므로 할당은 연결할 수 없는 제약 조건을 따릅니다.
DBSCAN
DBSCAN은 노이즈가 있는 응용 프로그램의 밀도 기반 공간 클러스터링을 나타냅니다. 밀도 기반 클러스터링 알고리즘입니다. 이 알고리즘은 밀도가 충분히 높은 영역을 클러스터로 개선하고 노이즈가 있는 공간 데이터베이스에서 임의 구조의 클러스터를 검색합니다. 클러스터를 밀도 연결 포인트의 최대 집합으로 정의합니다.
밀도 기반 클러스터는 밀도 도달 가능성과 관련하여 최대인 밀도 연결 개체 집합입니다. 일부 클러스터에 포함되지 않은 각 개체는 노이즈로 간주됩니다.
DBSCAN은 데이터베이스의 모든 포인트의 ε-neighborhood를 확인하여 클러스터를 확인합니다. 포인트 p의 ε-neighborhood가 MinPts 이상을 포함하면 p를 핵심 요소로 하는 새로운 클러스터가 생성됩니다. DBSCAN은 몇 가지 밀도 도달 가능한 클러스터의 병합을 포함할 수 있는 이러한 필수 요소에서 정밀한 밀도 도달 가능한 개체를 반복적으로 조합합니다. 이 프로세스는 클러스터에 새로운 포인트를 추가할 수 없는 경우를 제거합니다.
K-Means와 DBSCAN을 비교해보자.
K-평균 | DBSCAN |
---|---|
K-평균은 일반적으로 모든 개체를 클러스터링합니다. | DBSCAN은 노이즈로 정의된 개체를 버립니다. |
K-means는 클러스터의 프로토타입 기반 개념이 필요합니다. | DBSCAN은 밀도 기반 개념이 필요합니다. |
K-평균은 비구형 클러스터 및 여러 크기의 클러스터에 어려움이 있습니다. | DBSCAN은 다양한 크기와 구조의 클러스터를 처리하는 데 사용되며 노이즈나 이상값의 영향을 크게 받지 않습니다. |
K-평균은 평균 또는 중앙값을 포함하여 명확한 중심이 있는 데이터에 사용할 수 있습니다. | DBSCAN은 밀도의 전통적인 유클리드 개념에 의존하는 밀도의 정의가 데이터에 대해 중요할 필요가 있었습니다. |
K-평균은 파일 데이터를 포함하여 희소한 고차원 데이터에 사용할 수 있습니다. | DBSCAN은 일반적으로 밀도에 대한 전통적인 유클리드 정의가 고차원 데이터에 대해 잘 작동하지 않기 때문에 이러한 정보에 대해 제대로 구현하지 못합니다. |
기본 K-means 알고리즘은 모든 클러스터가 여러 평균을 갖지만 공분산 행렬이 동일한 구형 가우스 분포에서 비롯된 것으로 간주하는 통계적 클러스터링 접근 방식(혼합 모델)과 유사합니다. | DIISCAN은 레코드 배포에 대해 가정하지 않습니다. |