개념적 클러스터링은 레이블이 지정되지 않은 객체 세트가 주어지면 객체에 대한 분류 설계를 만드는 기계 학습의 클러스터링 형태입니다. 일반적으로 유사한 객체의 그룹을 식별하는 기존의 클러스터링과 달리 개념적 클러스터링은 각 그룹이 개념 또는 클래스를 정의하는 각 그룹에 대한 특성 정의를 발견함으로써 한 단계 더 나아갑니다.
따라서 개념적 클러스터링은 2단계 프로세스입니다. 클러스터링이 먼저 구현되고 그 다음 특성화가 구현됩니다. 따라서 클러스터링 품질은 단일 개체만을 위한 서비스가 아닙니다. 개념적 클러스터링의 대부분의 기술은 개념 또는 클러스터를 결정할 때 확률 측정을 사용하는 통계적 방법을 채택합니다.
확률적 설명은 일반적으로 각 파생된 개념을 정의하는 데 사용됩니다. COBWEB은 증분 개념 클러스터링의 유명하고 간단한 방법입니다. 입력 개체는 범주형 속성-값 쌍으로 정의됩니다. COBWEB은 분류 트리의 형태로 계층적 클러스터링을 만듭니다.
분류 트리는 의사결정 트리와 다릅니다. 분류 트리의 각 노드는 개념을 정의하고 노드 아래 분류된 개체를 요약하는 개념에 대한 확률적 설명을 포함합니다. 확률적 설명은 $P(A_{i}=v_{ij}|C_{k})$ 형식의 개념 확률과 조건부 확률을 포함합니다. $는 속성-값 쌍입니다(i th 속성은 j 번째 를 취합니다. 가능한 값) 및 Ck 개념 수업입니다.
COBWEB은 카테고리 유틸리티로 알려진 발견적 평가 측정을 사용하여 트리 구성을 안내합니다. 카테고리 유틸리티(CU)는 다음과 같이 정의됩니다.
$$\frac{\sum_{k=1}^{n}P(C_{k})\left [\sum_{i}\sum_{j}P(A_{i}=v_{ij}|C_{ k})^{2}-\sum_{i}\sum_{j}P(A_{i}=v_{ij})^{2}\right ]}{n}$$
여기서 n은 파티션을 형성하는 노드, 개념 또는 "카테고리"의 수입니다. {C1 ,C2 ,..., Cn }, 트리의 주어진 수준에서. 다시 말해서 범주 효용은 주어진 파티션에서 완벽하게 추측할 수 있는 속성 값의 예상 수 증가입니다(여기서 이 예상 수는 $P(C_{k})\sum_{i}\sum_{j 용어에 해당합니다. }P(A_{i}=v_{ij}|C_{k})^{2}$ 이러한 지식 없이 예상되는 올바른 추측 수 이상($\sum_{i}\sum_{j} 용어에 해당) P(A_{i}=v_{ij})^{2}$ . 파생을 표시할 공간이 없지만 범주 유틸리티는 클래스 내 유사성과 클래스 간 비유사성을 보상합니다. 여기서 -
클래스 내 유사성 − 확률 $P(A_{i}=v_{ij}|C_{k})$입니다. 이 값이 높을수록 이 속성-값 쌍을 공유하는 클래스 구성원의 비율이 높아지고 클래스 구성원 쌍이 더 예측 가능합니다.
클래스 간 비유사성 − 확률 $P(C_{k}|A_{i}=v_{ij})$입니다. 이 값이 높을수록 이 속성-값 쌍을 공유하는 대조 클래스의 개체 수가 적고 클래스의 쌍이 더 예측적입니다.
COBWEB은 적절한 경로를 따라 트리를 내려가고, 도중에 카운트를 새로 고치고, 객체를 정의할 "최상의 호스트" 또는 노드를 검색합니다. 이 결정은 각 노드에서 개체를 임시로 찾고 결과 파티션의 범주유틸성을 평가하는 데 달려 있습니다. 가장 높은 categoryutility를 발생시키는 배치는 개체에 대한 최상의 호스트여야 합니다.