물리적 또는 추상적인 개체 집합을 동일한 개체의 클래스로 결합하는 프로세스를 클러스터링이라고 합니다. 클러스터는 동일한 클러스터 내에서 서로 동일하고 다른 클러스터의 개체와 다른 데이터 개체 집합입니다. 데이터 개체의 클러스터는 여러 응용 프로그램에서 집합적으로 하나의 그룹으로 간주될 수 있습니다. 클러스터 분석은 필수적인 인간 활동입니다.
클러스터링은 이상값 식별을 지원합니다. 동일한 값이 클러스터로 구성되며 클러스터 외부에 있는 값을 이상값이라고 합니다. 클러스터링 기술은 데이터 튜플을 객체로 간주합니다. 그들은 개체를 그룹 또는 클러스터로 분할하여 클러스터 내의 개체가 서로 "유사"하고 다른 클러스터의 개체와 "비유사"하도록 합니다. 일반적으로 거리 함수를 기반으로 물체가 공간에서 얼마나 "가까운" 것으로 정의됩니다.
그래프 기반 클러스터링에는 다음과 같은 다양한 접근 방식이 있습니다. -
근접 그래프를 희소화하여 가장 가까운 이웃과 객체의 링크만 유지합니다. 이 희소화는 노이즈 및 이상값을 관리하는 데 유용합니다. 또한 희소 그래프용으로 생성된 매우 효과적인 그래프 분할 알고리즘을 사용할 수 있습니다.
그것은 그들이 보내는 여러 최근접 이웃을 기반으로 두 개체 간의 유사성 측정을 나타낼 수 있습니다. 물체와 그 가장 가까운 이웃이 일반적으로 같은 클래스에 속한다는 관찰에 의존하는 이 방법은 높은 차원과 변화하는 밀도의 클러스터 문제를 극복하는 데 유용합니다.
핵심 객체를 나타내고 주변에 클러스터를 개발할 수 있습니다. 그래프 기반 클러스터링에서는 근접 그래프 또는 성긴 근접 그래프를 기반으로 하는 밀도 기반 개념을 도입하는 것이 필수적입니다. DBSCAN과 마찬가지로, 핵심 객체 주위에 클러스터를 개발하면 다양한 모양과 크기의 클러스터를 발견할 수 있는 클러스터링 접근 방식으로 이어집니다.
근접 그래프의 데이터를 사용하여 두 클러스터를 결합해야 하는지 여부에 대한 보다 정교한 계산을 지원할 수 있습니다. 특히 두 클러스터는 결과 클러스터가 처음 두 클러스터와 동일한 특성을 가질 경우에만 결합됩니다.
단일 연결 클러스터링 알고리즘과 동일한 MST 및 Opossum과 같이 클러스터링 방법이 이 접근 방식을 기반으로 하는 두 가지 기술 인스턴스를 지원하는 근접 그래프의 희소화에 대해 논의하는 것으로 시작할 수 있습니다.
클러스터를 결합해야 하는지 결정하기 위해 자기 유사성 개념이 필요한 계층적 클러스터링 알고리즘입니다. 새로운 유사성 척도인 SNN(Shared Nearest Neighbor) 유사도를 정의하고 이러한 유사성이 필요한 Jarvis-Patrick 클러스터링 알고리즘을 학습합니다.