다중 관계형 클러스터링이란 무엇입니까?

<시간/>

다중 관계형 클러스터링은 데이터 개체를 여러 관계의 데이터를 사용하여 유사성에 따라 클러스터 그룹으로 분할하는 단계입니다. CrossClus는 사용자 지침이 있는 교차 관계형 클러스터링을 나타냅니다. 물리적 조인을 방지하기 위해 클러스터링 및 튜플 ID 전파에서 사용자 지침을 사용하는 방법을 분석하는 다중 관계형 클러스터링 알고리즘입니다.

다중 관계 클러스터링의 주요 문제는 다중 관계에 여러 속성이 있으며 일반적으로 그 중 작은 영역만이 명확한 클러스터링 작업과 관련이 있다는 것입니다.

학생을 클러스터링할 수 있으며 속성은 학생이 수강한 과정, 학생 간행물, 고문 및 학생 연구 팀 등을 포함하여 정보의 여러 요소를 포함합니다.

사용자는 일반적으로 특정 데이터 요소를 사용하여 학생을 클러스터링하는 데 관심이 있습니다(예:연구 영역별로 학생을 클러스터링). 사용자는 필요한 애플리케이션과 데이터 의미를 더 잘 이해할 수 있습니다. 따라서 간단한 쿼리 형태의 사용자 안내는 고차원 다관계형 클러스터링의 효율성과 품질을 향상시키는 데 사용할 수 있습니다.

CrossClus는 대상 관계와 사용자의 클러스터링 목표를 정의하는 하나 이상의 관련 속성을 포함하는 사용자 쿼리를 수락합니다. 다중 관계 클러스터링 프로세스에서 CrossClus는 여러 관계에서 관련 속성을 검색해야 했습니다.

CrossClus는 검색 단계에서 두 가지 주요 과제를 해결해야 합니다. 먼저 대상 관계 R_t , 일반적으로 여러 조인 경로를 통해 각 비대상 관계인 R과 조인할 수 있으며 R의 각 속성은 다중 관계형 속성으로 사용할 수 있습니다.

이 넓은 검색 공간에서 모든 유형의 철저한 검색을 구현하는 것은 액세스할 수 없습니다. 둘째, 많은 속성 중 일부는 사용자 쿼리와 관련이 있고 일부는 관련이 없습니다(예:학생의 급우의 개인 데이터).

CrossClus는 검색 단계를 제한해야 합니다. 관계형 스키마를 그래프로 취급할 수 있으며 연관은 노드이고 조인은 에지입니다. 사용자 정의 속성에서 검색을 시작한 다음 현재 속성 근처에서 유익한 속성을 반복적으로 검색하는 휴리스틱 방법을 채택합니다. 이 방법에서는 검색 범위를 연결된 관계로 점차 확장하지만 임의의 방향으로 멀리 가지 않습니다.

CrossClus는 속성 클러스터가 튜플을 대상으로 하는 방법을 봅니다. 관련 속성은 사용자 정의 속성과의 관계에 따라 선택됩니다. 두 속성이 튜플을 매우 개별적으로 클러스터링하는 경우 유사성이 낮고 연관될 가능성이 거의 없습니다. 동일한 방식으로 튜플을 클러스터링하는 경우 관련성이 있는 것으로 간주되어야 합니다.