Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

COWEB의 작동 원리는 무엇입니까?


COBWEB은 개체를 분류 트리에 점진적으로 포함합니다. COBWEB은 할당 경로를 따라 트리를 내려가고 개체를 정의할 "최상의 호스트" 또는 노드를 검색하여 메서드를 따라 카운트를 새로 고칩니다.

이 결정은 일시적으로 각 노드에서 개체를 찾고 결과 분할의 범주 유틸리티를 계산하는 데 달려 있습니다. 가장 높은 요소 효용을 가져오는 배치는 개체에 대한 최상의 호스트여야 합니다.

COBWEB은 또한 개체에 대해 새 노드가 만들어지면 발생할 수 있는 파티션의 범주 유틸리티를 계산합니다. 개체가 현재 클래스에 있거나 가장 큰 범주 유틸리티 값을 가진 파티션을 기반으로 새 클래스가 생성됩니다. COBWEB에는 파티션의 여러 클래스를 자동으로 조정할 수 있는 기능이 있습니다. 이러한 입력 매개변수를 제공하기 위해 사용자에게 의존할 필요는 없습니다.

COBWEB에는 입력 순서에 덜 민감한 두 개의 연산자가 있습니다. 이것들은 결합과 분할입니다. 개체가 통합되면 두 개의 최상의 호스트가 단일 클래스로 결합되는 것으로 처리됩니다.

또한 COBWEB은 좋은 호스트의 자녀를 현재 범주로 나누는 것을 고려합니다. 이러한 결정은 범주 유틸리티에 따라 다릅니다. 결합 및 분할 연산자를 사용하면 COBWEB에서 양방향 검색을 구현할 수 있습니다. 예를 들어 병합은 이전 분할을 취소할 수 있습니다.

COWEB의 한계

COWEB의 한계는 다음과 같습니다 -

독립적인 속성에 대한 확률 분포가 통계적으로 서로 분리되어 있다는 가정에 따라 다릅니다. 속성 간의 상관 관계가 종종 존재하기 때문에 이 가정이 항상 올바른 것은 아닙니다.

또한 클러스터의 확률 분포 설명으로 인해 클러스터를 새로 고치고 저장하는 데 비용이 많이 듭니다. 시간과 공간 복잡성이 여러 속성뿐만 아니라 각 속성에 대한 여러 값에 따라 달라지기 때문에 속성에 많은 수의 값이 있는 경우 특히 그렇습니다.

또한 분류 트리는 왜곡된 입력 레코드에 대해 높이 균형이 맞지 않아 시간 및 공간 복잡성이 크게 감소할 수 있습니다.

CLASSIT는 연속(또는 실제 값) 정보의 증분 클러스터링을 위한 COBWEB의 확장입니다. 각 노드의 각 단일 속성에 대한 연속 정규 분포(즉, 평균 및 표준 편차)를 저장하고 COBWEB에서와 같이 이산 속성에 대한 합이 아닌 연속 속성에 대한 요소인 수정된 범주 유틸리티 측정이 필요합니다.