제약 기반 클러스터링은 사용자가 명시한 선호도 또는 제약 조건을 충족하는 클러스터를 찾습니다. 제약 조건의 특성을 기반으로 하므로 제약 조건 기반 클러스터링이 다른 접근 방식 대신 채택할 수 있습니다. 다음과 같은 여러 범주의 제약 조건이 있습니다. -
-
개별 개체에 대한 제약 조건 − 클러스터링할 객체에 대한 제약 조건을 정의할 수 있습니다. 예를 들어 부동산 응용 프로그램에서는 백만 달러 이상의 가치가 있는 고급 맨션만 공간적으로 클러스터링할 수 있습니다. 이 제약 조건은 클러스터링할 개체 컬렉션을 제한합니다. 전처리(예:SQL 쿼리를 사용하여 선택 구현)로 간단히 관리할 수 있으며, 그 후에 문제는 제한되지 않은 클러스터링의 예로 감소합니다.
-
클러스터링 매개변수 선택에 대한 제약 − 사용자는 클러스터링 파라미터별로 원하는 영역을 설정할 수 있습니다. 클러스터링 매개변수는 일반적으로 주어진 클러스터링 알고리즘에 매우 고유합니다. 매개변수의 예에는 k-평균 알고리즘에서 원하는 클러스터 수인 k가 포함됩니다. 또는 DBSCAN 알고리즘에서 ε(반지름) 및 MinPts(최소 점 수).
이러한 사용자 지정 매개변수는 클러스터링 결과를 강력하게 보유할 수 있지만 일반적으로 알고리즘 자체에 국한됩니다. 따라서 이들의 미세 조정 및 처리는 일반적으로 제약 조건 기반 클러스터링의 한 형태로 취급되지 않습니다.
-
거리 또는 유사성 함수에 대한 제약 − 클러스터링할 객체의 명확한 속성에 대해 여러 거리 또는 유사성 함수를 정의하거나 제한된 객체 쌍에 대해 서로 다른 거리 측정을 정의할 수 있습니다. 예를 들어 스포츠맨을 클러스터링할 때 키, 체중, 연령 및 기술 수준에 대해 여러 가중치 체계를 사용할 수 있습니다.
-
개별 클러스터의 속성에 대한 사용자 지정 제약 − 사용자는 클러스터링 프로세스를 강력하게 유지할 수 있는 결과 클러스터의 원하는 기능을 지정할 수 있습니다.
도시의 kservice 스테이션 위치를 결정하려는 패키지 배송 회사를 고려하십시오. 회사는 사용자의 이름, 위치, 고객이 회사의 서비스를 사용하기 시작한 시간, 월 평균 가격을 등록하는 사용자 데이터베이스를 보유하고 있습니다. 고객 위치를 기반으로 계산된 거리 함수를 사용하여 이 위치 선택 문제를 제약 없는 클러스터링의 인스턴스로 공식화할 수 있습니다.
더 현명한 방법은 고객을 고가치 고객(자주, 정기적인 서비스가 필요한)과 일반 고객(가끔 서비스가 필요한)의 두 부류로 나누는 것입니다. 비용을 절감하고 좋은 서비스를 지원할 수 있으며 관리자는 다음과 같은 제약 조건을 추가합니다.
-
각 스테이션은 최소 100명의 고가치 고객에게 서비스를 제공해야 합니다.
-
각 스테이션은 최소 5,000명의 일반 고객에게 서비스를 제공해야 합니다. 제약 기반 클러스터링은 클러스터링 절차 중에 이러한 제약 조건을 고려합니다.
-
-
'부분적' 감독을 기반으로 하는 반 감독 클러스터링 - 감독되지 않은 클러스터링의 품질은 약한 감독 형태를 사용하여 본질적으로 향상될 수 있습니다. 이것은 pairwise 제약의 형태일 수 있습니다(즉, 동일하거나 다른 클러스터가 소유한 것으로 레이블이 지정된 객체 쌍). 이러한 제한된 클러스터링 프로세스를 준지도 클러스터링이라고 합니다.