데이터 마이닝에서 측정값은 어떻게 계산됩니까?

<시간/>

측정은 분배, 대수 및 전체론을 포함한 세 가지 요소로 구성될 수 있습니다. 사용되는 집계 함수의 유형에 따라 다릅니다.

분배 − 집계 함수는 다음과 같이 전달 방식으로 계산할 수 있는 경우 분배적입니다. 데이터가 n개의 집합으로 독립적이라고 가정합니다. 각 파티션에 서비스를 사용할 수 있으므로 n개의 집계 값이 생성됩니다.

함수를 사용하여 n개의 집계 값으로 변경한 결과가 전체 데이터 집합에 대해 함수를 사용하여 파생된 결과(파티셔닝 없이)와 동일하면 함수를 분산 방식으로 평가할 수 있습니다.

예를 들어, count()는 먼저 큐브를 하위 큐브 그룹으로 분할하고 모든 하위 큐브에 대해 count()를 계산한 다음 각 하위 큐브에 대해 획득한 카운트를 합산하여 데이터 큐브에 대해 계산할 수 있습니다. 따라서 count()는 분산 집계 서비스입니다.

분배 집계 서비스를 사용하여 얻은 측정값은 분배적입니다. 분배 측정은 분배 방식으로 계산할 수 있기 때문에 효과적으로 계산할 수 있습니다.

대수 − 각 인수가 분산 집계 서비스를 사용하여 얻은 M개의 인수(여기서 M은 양의 정수)가 있는 대수 서비스로 집계 함수를 계산할 수 있는 경우 집계 함수는 대수입니다.

예를 들어, avg()(평균)는 sum()/count()로 계산할 수 있습니다. 여기서 sum()과 count()는 모두 분산 집계 서비스입니다. 유사하게, min N() 및 max N()(주어진 세트에서 그에 따라 N개의 최소값 및 N개의 최대값을 발견함) 및 표준 편차()가 대수적 집계 서비스임을 표시할 수 있습니다. 측정값은 대수 집계 서비스를 사용하여 얻은 경우 대수입니다.

전체적 − 하위 집합을 정의하는 데 필요한 저장소 크기에 고정된 경계가 없는 경우 집합 함수는 전체론적입니다. 계산을 설명하는 M 인수(여기서 M은 상수)가 있는 대수 함수가 계속되지 않는 경우

중앙값(), 모드() 및 순위()와 같은 전체론적 함수의 예. 측정값은 전체적 집계 함수를 사용하여 획득한 경우 전체론적입니다.

대부분의 대형 데이터 큐브 응용 프로그램에는 분배 및 대수 측정의 효과적인 계산이 필요했습니다. 이를 위한 몇 가지 효율적인 방법이 있습니다. 대조적으로, 전체론적 측정을 효율적으로 계산하는 것은 복잡합니다. 일부 전체론적 측정값의 계산을 근사화하는 효율적인 접근 방식이 여전히 존재합니다.

예를 들어, 정확한 median()을 계산하는 대신 거대한 데이터 세트에 대한 대략적인 중간 값을 계산하는 데 사용할 수 있습니다. 어떤 경우에는 이러한 방법이 전체론적 측정의 효과적인 계산의 어려움을 극복하기에 충분합니다.