대규모 데이터베이스에서 통계적 측정이란 무엇입니까?

<시간/>

관계형 데이터베이스 시스템은 count(), sum(), avg(), max() 및 min()과 같은 5가지 기본 제공 집계 함수를 지원합니다. 이러한 집계 함수는 다차원 정보의 기술적 마이닝에서 기본 측정값으로 사용할 수 있습니다. 중심 경향 측정과 데이터 분산 측정과 같은 두 가지 기술적인 통계 측정이 있으며 고차원 데이터베이스에서 효과적으로 사용할 수 있습니다.

중심 경향 측정 − 평균, 중앙값, 모드 및 중간 범위와 같은 중심 경향의 측정값.

평균 - 산술 평균은 단순히 모든 값을 함께 삽입하고 값의 수로 분할하여 평가됩니다. 모든 단일 값의 데이터를 사용합니다. x₁ , x₂ ,... x_n 급여와 같은 N 값 또는 관측값의 집합입니다. 이 값 집합의 평균은

$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$

이는 관계형 데이터베이스 시스템에서 지원하는 조합된 집계 함수인 평균(avg())에 해당합니다. 여러 데이터 큐브에서 합계와 개수는 사전 계산에 저장됩니다. 따라서 평균의 유도는 간단합니다.

$\mathrm{average\:=\:\frac{sum}{count}}$

중앙값 − 값의 분포에 따라 중앙값을 계산하는 두 가지 방법이 있습니다.

x₁인 경우 , x₂ , .... x_n 내림차순으로 정렬되고 n은 홀수입니다. 따라서 중앙값은

$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$

예:1, 4, 6, 7, 12, 14, 18

중앙값 =7

n이 짝수일 때. 그러면 중앙값은

$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}값\:+\:\left(\frac{n}{2}\:+\:1\ 오른쪽)^{th} 값}{2}}$$

예:1, 4, 6, 7, 8, 12, 14, 16.

$$\mathrm{중앙값\:=\:\frac{7+8}{2}\:=\:7.5}$$

중앙값은 분배 측정도 대수적 측정도 아니며 전체론적 측정입니다. 단순히 거대한 데이터베이스에서 정확한 중앙값을 평가하는 것이 아니라 대략적인 중앙값을 효과적으로 계산할 수 있습니다.

모드 − 값 집합에서 가장 일반적인 값입니다. 분포는 단봉(unimodal), 양봉(bimodal) 또는 다봉(multimodal)일 수 있습니다. 데이터가 범주형(명목 척도로 측정)이면 모드만 계산할 수 있습니다. 모드는 서수 및 상위 데이터로도 계산할 수 있지만 적합하지 않습니다.

데이터 분산 측정 - 수치 정보가 퍼지는 경향이 있는 정도를 데이터의 분산 또는 분산이라고 합니다. 데이터 분산의 가장 빈번한 측정은 범위, 사분위수 범위 및 표준 파생입니다.

범위 − 범위는 데이터 집합에서 가장 큰 값과 가장 작은 값의 차이로 표시됩니다.

$$\mathrm{범위\:=\:X_L-X_S}$$

어디에

$\mathrm{X_L\:\rightarrow\:최대값}$

$\mathrm{X_S\:\rightarrow\:가장 작은 값}$

사분위수 - 중앙값 이외의 가장 일반적인 백분위수는 사분위수입니다. Q₁로 표시된 첫 번째 사분위수 25번째 입니다. 백분위수, Q₃으로 표시되는 세 번째 사분위수 75번째 입니다. 백분위수. 중앙값을 포함하는 사분위수는 중심, 산포 및 모양을 나타내는 일부 표시를 제공하며 사분위수는 데이터의 중간 절반이 차지하는 범위를 제공하는 단순 산포 측도입니다. 이것은 사분위수 범위(IQR)로 알려져 있으며 -

로 정의됩니다.

$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$

표준 편차 − 편차 값이 분산 제곱되면 측정 단위도 제곱됩니다.