데이터 큐브 계산을 위한 기술은 무엇입니까?

<시간/>

다음은 다음과 같은 데이터 큐브의 효율적인 계산을 위한 일반적인 최적화 기술입니다. -

정렬, 해싱 및 그룹화 − 관련 튜플을 재정렬하고 클러스터링하려면 차원 속성에 정렬, 해싱 및 그룹화 작업을 사용해야 합니다. 큐브 계산에서 집계는 유사한 차원 값 집합을 공유하는 튜플에서 구현됩니다. 따라서 이러한 집계의 평가를 지원하기 위해 이러한 데이터에 액세스하고 그룹화하기 위해 정렬, 해싱 및 그룹화 서비스를 분석하는 것이 필수적입니다.

지점별, 요일별, 품목별 총매출액을 계산할 수 있습니다. 튜플이나 셀을 분기별로, 따라서 일별로 정렬한 다음 항목 이름별로 그룹화하는 것이 더 효과적일 수 있습니다. 방대한 데이터 세트에서 이러한 작업의 효과적인 성능은 데이터베이스 연구 커뮤니티에서 널리 고려되었습니다.

이러한 성능은 데이터 큐브 계산에 계속될 수 있습니다. 이 방법은 또한 공유 정렬(즉, 정렬 기반 기술이 사용될 때 서로 다른 직육면체 간에 정렬 비용 공유)을 구현하거나 공유 파티션을 구현(즉, 해시 기반 알고리즘이 사용될 때 서로 다른 직육면체 간에 분할 비용을 공유함)을 구현하기 위해 계속될 수 있습니다. 활용).

중간 결과의 동시 집계 및 캐싱 − 큐브 계산에서는 기본 팩트 테이블이 아닌 이전에 계산된 하위 수준 집계에서 상위 수준 집계를 계산하는 것이 효과적입니다. 또한 캐시된 중간 계산 결과의 동시 집계로 인해 고가의 디스크 입출력(I/O) 작업이 감소할 수 있습니다.

예를 들어, 지점별 매출을 계산할 수 있습니다. 예를 들어 지점별 및 요일별 매출을 포함하여 하위 수준의 직육면체 계산에서 변경된 중간 결과를 사용할 수 있습니다. 이 방법은 분할 스캔을 구현하기 위해 계속될 수 있습니다(즉, 디스크 읽기를 분할 상환하기 위해 동시에 여러 입방체로 계산).

자식 직육면체가 여러 개인 경우 가장 작은 자부터 집계 − 자식 직육면체가 여러 개 있는 경우 이전에 계산된 가장 작은 자식 직육면체에서 원하는 부모(즉, 보다 일반화된) 직육면체를 계산하는 것이 일반적으로 더 효과적입니다.

Apriori 가지치기 방법을 탐색하여 빙산 큐브를 효율적으로 계산할 수 있음 - 데이터 큐브의 맥락에서 Apriori 속성은 다음과 같이 정의됩니다. 주어진 셀이 최소 지원을 충족하지 않으면 셀의 하위 항목(즉, 보다 구체적인 셀)이 최소 지원을 충족하지 않습니다. 이 속성은 빙산 큐브의 계산을 크게 줄이는 데 사용할 수 있습니다.

빙산 큐브에 대한 설명에는 빙산 조건이 포함되며, 이는 구체화할 셀에 대한 제약 조건입니다. 일반적인 빙산 조건은 세포가 최소 개수 또는 합계를 포함하는 최소 지지 임계값을 충족해야 한다는 것입니다. 이 용어에서 Apriori 속성을 사용하여 셀의 자손에 대한 검사를 단축할 수 있습니다.