간격 척도 변수란 무엇입니까?

<시간/>

간격 척도 변수는 대략 선형 척도의 연속 데이터입니다. 무게 및 높이, 위도 및 경도 좌표(예:집 클러스터링 시), 날씨 온도와 같은 예입니다. 사용된 측정 단위는 클러스터링 분석에 영향을 미칠 수 있습니다.

예를 들어, 데이터 단위를 높이의 경우 미터에서 인치로, 또는 체중의 경우 킬로그램에서 파운드로 변경하면 여러 클러스터링 구조로 이어질 수 있습니다. 일반적으로 변수를 더 작은 단위로 정의하면 해당 변수의 범위가 더 커지므로 결과 클러스터링 아키텍처에 더 큰 영향을 미칩니다.

데이터 단위 선택에 대한 의존성을 방지할 수 있으며 데이터를 표준화해야 합니다. 측정을 표준화하면 모든 변수에 동일한 가중치를 제공하려고 합니다. 이것은 데이터에 대한 사전 지식이 없을 때 특히 유용합니다. 그러나 일부 응용 프로그램에서 사용자는 의도적으로 다른 변수보다 특정 변수 집합에 더 많은 가중치를 제공해야 할 수 있습니다. 예를 들어, 농구 선수 후보를 클러스터링할 때 가변 키에 더 많은 가중치를 제공하는 것을 선호할 수 있습니다.

데이터를 표준화할 수 있으며 한 가지 선택은 원래 데이터를 단위가 적은 변수로 수정하는 것입니다. 변수 f에 대한 측정값이 주어지면 다음과 같이 구현할 수 있습니다. -

평균 절대 편차 계산, s_f -

$$\mathrm{s_{f}\:=\:\frac{1}{n}(|x_{1f}-m_{f}|+|x_{2f}-m_{f}|+\cdot\ cdot\cdot+|x_{nf}-m_{f}|)}$$

여기서 x_1f ... x_nf f의 n 측정값이고 m_f입니다. f의 평균값, 즉 $\mathrm{m_{f}\:=\:\frac{1}{n}(|x_{1f}|+|x_{2f}|+\cdot\cdot \cdot+|x_{nf}|)}$

표준화된 측정 또는 z-점수 계산 -

$$\mathrm{z_{if}\:=\:\frac{x_{if}-m_{f}}{s_{f}}}$$

평균 절대 편차, s_f , 표준 편차 $\mathrm{\sigma_{f}}$보다 이상값에 강력합니다. 평균 절대 편차를 계산할 때 평균 $\mathrm{(|x_{1f}-m_{f}|)}$의 편차는 제곱되지 않습니다.

따라서 이상치의 영향이 감소합니다. 중앙값 절대 편차를 비롯한 강력한 분산 측정값이 있습니다. 평균 절대 편차를 사용하는 이점은 이상값의 z-점수가 너무 작게 나오지 않는다는 것입니다. 따라서 이상치는 계속 감지할 수 있습니다.

표준화는 특정 응용 프로그램에서 도움이 될 수도 있고 도움이 되지 않을 수도 있습니다. 따라서 표준화를 구현할지 여부와 방법에 대한 선택은 사용자에게 맡겨야 합니다. 표준화 후 또는 특정 응용 프로그램에서 표준화하지 않은 경우 간격 척도 변수로 정의된 객체 간의 유사도(또는 유사도)는 일반적으로 각 객체 그룹 간의 거리를 기반으로 계산됩니다.

유명한 거리 측정은 다음과 같이 표현되는 유클리드 거리입니다.

$$\mathrm{d(i, j)=\sqrt{(X_{i1}-X_{j1}})^2+{(X_{i2}-X_{j2}})^2+...+ {(X_{in}-X_{jn}})^2}$$

여기서 나는 =(x_i1 , x_i2 , ... x_in ) 및 j =(x_j1 , x_j2 , ... x_jn ) 두 개의 n차원 데이터 개체입니다. 잘 알려진 또 다른 측정항목은 맨해튼(또는 도시 블록) 거리로,

$$\mathrm{d(i, j)=|X_{i1}-X_{j1}|+ |(X_{i2}-X_{j2}|+...+|(X_{in}-X_{ jn}|}$$

유클리드 거리와 맨해튼 거리는 다음과 같은 거리 함수의 수치적 요구 사항을 충족합니다. -

d(i, j) ≥ 0:거리는 음수가 아닌 숫자입니다.
d(i, i) =0:물체까지의 거리는 0입니다.
d(i, j) =d(j, i):거리는 대칭 함수입니다.
d(i, j) ≤ d(i, h)+d(h, j):공간에서 객체 i에서 객체 j로 직접 이동하는 것은 다른 객체 h(삼각 부등식) 위로 우회하는 것에 불과합니다.