Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

그리드 기반 방법이란 무엇입니까?

<시간/>

그리드 기반 클러스터링 방법은 다중 해상도 그리드 데이터 구조를 사용합니다. 그것은 개체 영역을 클러스터링을 위한 모든 작업이 구현되는 그리드 구조를 형성하는 유한한 수의 셀로 양자화합니다. 이 방법의 이점은 빠른 처리 시간으로, 일반적으로 데이터 개체의 수와 무관하며 여전히 양자화된 공간의 각 차원에 있는 여러 셀에만 의존합니다.

그리드 기반 접근 방식의 예로는 그리드 셀에 저장된 통계 데이터를 탐색하는 STING, 웨이블릿 변환 접근 방식을 사용하여 개체를 클러스터링하는 WaveCluster, 고차원 데이터 공간에서 클러스터링을 위한 그리드 및 밀도 기반 접근 방식을 정의하는 CLIQUE가 있습니다. .

STING은 공간 영역을 직사각형 셀로 분할하는 그리드 기반 다중 해상도 클러스터링 방법입니다. 일반적으로 여러 수준의 해상도에 해당하는 이러한 직사각형 셀의 여러 수준이 있으며 이러한 셀은 계층적 메커니즘을 형성하며 높은 수준의 각 셀은 분리되어 다음 낮은 수준의 여러 셀을 형성합니다. 각 그리드 셀의 속성에 대한 통계 데이터(평균, 최대값, 최소값 포함)를 미리 계산하여 저장합니다.

상위 수준 셀의 통계 매개변수는 하위 수준 셀의 매개변수에서 간단히 계산할 수 있습니다. 이러한 매개변수에는 다음이 포함됩니다. 속성 독립 매개변수 개수 및 속성 종속 매개변수 평균, stdev(표준 편차), 최소(최소), 최대(최대). 일반, 균일, 지수 또는 없음을 포함하여 셀의 속성 값이 따르는 분포 유형(분포가 익명인 경우)

레코드가 데이터베이스에 로드되면 매개변수 count, mean, stdev, min 및 최하위 셀의 최대값이 레코드에서 직접 계산됩니다. 분포의 값은 사전에 분포 유형을 알고 있거나 χ 2 를 포함한 가설 검정을 통해 얻은 경우 사용자가 할당할 수 있습니다. 테스트.

계산할 수 있는 상위 수준 셀의 분포 종류는 임계값 필터링 절차와 함께 해당 하위 수준 셀의 대부분의 분포 유형에 따라 다릅니다. 하위 셀의 분포가 일치하지 않고 임계값 테스트를 거부하는 경우 상위 셀의 분포 유형이 없음으로 설정됩니다.

통계 매개변수는 다음과 같은 하향식 그리드 기반 접근 방식에서 사용할 수 있습니다. 먼저 계층 구조 내의 계층이 쿼리 응답 절차를 시작할 위치를 결정합니다. 이 층은 일반적으로 적은 수의 세포를 포함합니다. 현재 레이어의 모든 셀에 대해 주어진 쿼리에 대한 셀의 관련성을 반영하는 신뢰 구간(또는 예상 확률 범위)을 계산할 수 있습니다.