준지도 클러스터링은 도메인 지식을 사용하여 레이블이 지정되지 않은 데이터를 분할하는 방법입니다. 일반적으로 인스턴스 간의 쌍별 제약 조건 또는 레이블이 지정된 인스턴스의 추가 집합으로 표현됩니다.
감독되지 않은 클러스터링의 품질은 예를 들어 쌍별 제약(예:유사하거나 다른 클러스터에 속하는 것으로 레이블이 지정된 객체 쌍)의 형태로 감독의 일부 약한 구조를 사용하여 본질적으로 향상될 수 있습니다. 사용자 피드백 또는 지침 제약 조건에 의존하는 이러한 클러스터링 절차를 반지도 클러스터링이라고 합니다.
다음과 같은 두 가지 클래스로 나눌 수 있는 반 지도 클러스터링을 위한 몇 가지 방법이 있습니다. -
제약 조건 기반 반 지도 클러스터링 − 보다 적절한 데이터 분할을 향한 알고리즘을 지원하기 위해 사용자 제공 레이블 또는 제약 조건을 기반으로 사용할 수 있습니다. 여기에는 제약 조건에 따라 목적 함수를 수정하거나 레이블이 지정된 개체에 따라 클러스터링 프로세스를 초기화 및 제약하는 작업이 포함됩니다.
거리 기반 준지도 클러스터링 − 지도 데이터의 레이블 또는 제약 조건을 충족하도록 훈련된 적응형 거리 측정을 사용하는 데 사용할 수 있습니다. EM(Expectation-Maximization)을 사용하여 훈련된 문자열 편집 거리 및 최단 거리 알고리즘에 의해 변경된 유클리드 거리를 포함하여 여러 적응 거리 측정이 활용되었습니다.
CLTree(decisionTREE 기반 CLustering)로 알려진 흥미로운 클러스터링 방법. 감독되지 않은 클러스터링을 감독된 분류 개념과 통합합니다. 제약 조건 기반 반 지도 클러스터링의 인스턴스입니다. 클러스터링할 점들의 집합을 하나의 클래스에 속하는 것으로 간주하여 클러스터링 작업을 분류 작업으로 변경하고 "Y"로 레이블이 지정되고, 상대적으로 균일하게 분포된 "존재하지 않는 점" 집합을 다중 클래스 레이블 ""로 삽입합니다. N.”
데이터 영역을 데이터(조밀한) 영역과 빈(희소한) 영역으로 분할하는 문제는 분류 문제로 변경할 수 있습니다. 이러한 점은 "Y" 점의 집합으로 간주할 수 있습니다. "o" 포인트로 정의되는 균일하게 분포된 "N" 포인트 컬렉션의 추가를 보여줍니다.
따라서 원래의 클러스터링 문제는 "Y"와 "N"점을 구별하는 설계를 수행하는 분류 문제로 변경됩니다. 결정 트리 유도 방법은 2차원 공간을 분할하는 데 사용할 수 있습니다. "Y" 지점에서만 두 개의 클러스터가 인식됩니다.
원본 데이터에 많은 수의 "N" 포인트를 삽입하는 데 사용할 수 있으며 계산에 불필요한 오버헤드가 발생할 수 있습니다. 더욱이 추가된 일부 포인트는 기하급수적으로 많은 포인트가 필요할 수 있으므로 매우 고차원 공간에 실제로 균일하게 분포될 가능성은 낮습니다.