그리드 기반 클러스터링 알고리즘이란 무엇입니까?

<시간/>

그리드는 낮은 차원에서 최소 데이터 집합을 구성하는 효과적인 방법입니다. 개념은 각 속성의 적용 가능한 값을 여러 개의 연속 간격으로 나누어 그리드 셀 세트를 만드는 것입니다. 각 개체는 해당 속성 간격이 개체의 값을 포함하는 그리드 셀로 축소됩니다.

레코드를 통해 한 번에 그리드 셀에 개체를 만들 수 있으며 셀의 포인트 수를 포함하여 각 셀에 대한 데이터도 동시에 수집할 수 있습니다.

그리드를 사용하여 클러스터링을 구현하는 방법은 여러 가지가 있지만 대부분의 방법은 밀도를 기반으로 합니다. 그리드 기반 클러스터링 알고리즘은 다음과 같습니다 -

그리드 셀 집합을 나타냅니다.
적절한 셀에 개체를 만들고 각 셀의 밀도를 계산합니다.
정의된 임계값 r 미만의 밀도를 갖는 세포를 제거합니다.
밀집된 셀의 연속 세트에서 클러스터를 형성합니다.

그리드 셀 정의 − 이것은 프로세스의 기본 단계이지만 각 속성의 가능한 값을 여러 개의 연속 간격으로 나누는 여러 방법이 있기 때문에 가장 명확하지 않습니다. 연속 속성의 경우 한 가지 방법은 값을 동일한 너비 간격으로 나누는 것입니다. 이 방법을 각 속성에 적용하면 결과적으로 생성되는 그리드 셀은 모두 비슷한 부피를 가지며 셀의 밀도는 셀의 여러 점으로 쉽게 정의됩니다.

그리드 셀의 밀도 − 그리드 셀의 밀도는 여러 점을 영역의 부피로 나눈 값으로 정의할 수 있습니다. 다시 말해서 밀도는 해당 영역의 차원에 관계없이 영역 양당 점의 수입니다.

조밀한 그리드 셀에서 클러스터 형성 - 인접한 조밀한 셀 집합에서 클러스터를 형성하는 것은 비교적 쉽습니다. 인접 셀로 정의할 수 있는 것을 정의해야 하는 등의 문제가 있습니다. 클러스터링 방법에는 약간 더 세련된 알고리즘을 생성하여 해결할 수 있는 몇 가지 단점이 있습니다. 예를 들어 클러스터 경계에 부분적으로 null 셀이 있을 가능성이 있습니다.

밀도보다 높은 데이터를 사용하여 기본 그리드 기반 클러스터링을 개선하는 데 적용할 수 있습니다. 어떤 경우에는 레코드에 공간 및 비공간 속성이 모두 있습니다. 다시 말해서, 다양한 속성이 시간이나 공간에서 객체의 영역을 정의하는 반면 다른 속성은 객체의 다른 요소를 정의합니다.

인스턴스는 면적과 가격 또는 바닥 공간(평방피트)을 포함하여 여러 특성을 모두 갖는 주택입니다. 공간적(또는 시간적) 자기상관으로 인해 특정 셀의 개체는 다른 속성에 대해 동일한 값을 갖습니다.