Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

PROCLUS는 무엇입니까?

<시간/>

PROCLUS는 Projected Clustering의 약자입니다. 일반적인 차원 축소 부분 공간 클러스터링 기술입니다. 즉, 개별 차원 공간에서 시작하는 것이 아니라 고차원 속성 영역에서 클러스터의 원래 근사치를 찾는 것으로 시작합니다.

각 차원은 각 클러스터에 대한 가중치를 생성하고 새로 고쳐진 가중치는 다음 반복에서 클러스터를 다시 생성하는 데 사용됩니다. 이것은 편리한 차원의 모든 부분 공간에서 조밀한 영역을 탐색하게 하고 더 낮은 차원의 투영된 차원에서 엄청난 수의 중첩 클러스터가 생성되는 것을 방지합니다.

PROCLUS는 CLARANS에서 사용된 것과 유사하지만 계획된 클러스터링으로 관리하도록 일반화된 등반 단계를 통해 최고의 메도이드 그룹을 발견합니다. 적절한 차원의 그룹에 대한 맨해튼 거리인 맨해튼 세그먼트 거리로 알려진 거리 측정을 채택합니다.

PROCLUS 알고리즘에는 초기화, 반복 및 클러스터 세분화의 세 가지 프로세스가 포함됩니다. 초기화 과정에서 각 클러스터가 선택된 집합에서 최소 하나의 객체에 의해 정의되도록 제공하기 위해 서로 멀리 떨어져 있는 원본 medoid의 집합을 선택하는 greedy 알고리즘이 필요합니다.

생성해야 하는 여러 클러스터에 비례하는 데이터 포인트의 무작위 샘플을 선택한 다음 욕심 많은 알고리즘을 사용하여 다음 프로세스를 위해 더 작은 최종 하위 집합을 수신할 수 있습니다.

반복 프로세스는 (메도이드의) 이 감소된 세트에서 k 메도이드의 무작위 세트를 선택하고 클러스터링이 증가하면 무작위로 선택된 새로운 메도이드로 "불량" 메도이드를 복원합니다.

각 medoid에 대해 수학적 기대치에 비해 평균 거리가 작은 차원 그룹이 선택됩니다. medoids와 관련된 차원의 총 수는 k×l이어야 하며, 여기서 l은 클러스터 하위 영역의 평균 차원을 선택하는 입력 매개변수입니다.

미세 조정 프로세스는 발견된 클러스터에 따라 각 medoid에 대한 새 차원을 계산하고, medoid에 포인트를 재할당하고, 이상값을 삭제합니다. PROCLUS는 이 방법이 고차원 클러스터를 발견하는 데 효과적이고 확장 가능함을 보여줍니다.

많은 중첩 클러스터를 출력하는 CLIQUE와 달리 PROCLUS는 포인트의 중첩되지 않은 파티션을 찾습니다. 발견된 클러스터는 고차원 데이터를 더 잘 이해하고 다른 하위 시퀀스 분석을 지원합니다.

CLIQUE는 고밀도 클러스터가 해당 부분 공간에서 계속되도록 가장 큰 차원의 부분 공간을 반드시 발견합니다. 입력 개체의 순서에 응답하지 않으며 일부 표준 데이터 배포를 가장하지 않습니다. 입력의 크기에 따라 선형적으로 확장되며 데이터의 다차원이 향상됨에 따라 최고의 확장성을 갖습니다.