Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 특성이란 무엇입니까?

<시간/>

다음은 클러스터 분석에 큰 영향을 미칠 수 있는 데이터의 몇 가지 특성이며 다음과 같습니다. -

고차원 − 고차원 데이터 세트에서는 단위 부피당 몇 개의 점인 밀도의 전통적인 유클리드 개념이 중요해집니다. 다차원이 증가할수록 부피도 점점 커지는 것으로 생각되며, 다차원과 함께 여러 점이 기하급수적으로 늘어나지 않는 한 밀도는 0이 되는 경향이 있다고 생각됩니다.

또한 고차원 영역에서 더 균일해지도록 근접 영향을 줄 수 있습니다. 이 사실을 고려하는 또 다른 방법은 두 점 사이의 근접성에 기여하는 차원(속성)이 더 많아 근접성을 보다 균일하게 만드는 경향이 있다는 것입니다.

대부분의 클러스터링 기술은 근접성 또는 밀도에 의존하기 때문에 고차원 정보에 어려움이 있을 수 있습니다. 이러한 문제를 해결하는 한 가지 방법은 차원 축소 방법을 사용하는 것입니다.

크기 − 중소 규모 데이터 세트에 대해 잘 작동하는 일부 클러스터링 알고리즘은 상위 데이터 세트를 관리할 수 없습니다.

희소성 − 희소 데이터에는 0 값이 0이 아닌 값만큼 중요하지 않은 비대칭 속성이 포함됩니다. 따라서 비대칭 속성에 적합한 유사도 측정이 일반적으로 사용됩니다.

노이즈 및 이상값 − 일반적인 점(이상치)은 클러스터링 알고리즘, 특히 프로토타입 기반 K-평균을 포함한 알고리즘의 구현을 심각하게 저하시킬 수 있습니다. 즉, 노이즈로 인해 단일 링크를 비롯한 기술이 결합되어서는 안 되는 클러스터에 합류할 수 있습니다.

일반적으로 클러스터링 알고리즘을 사용하기 전에 노이즈와 이상치를 제거하는 알고리즘을 먼저 사용한다. 또한 일부 알고리즘은 클러스터링 단계에서 노이즈 및 이상값을 정의하는 포인트를 식별한 다음 제거하거나 부정적인 영향을 제거할 수 있습니다.

속성 및 데이터 세트 유형 − 데이터 세트는 구조화, 그래프 또는 정렬을 포함한 여러 유형이 될 수 있는 반면 속성은 범주형(명목 또는 순서) 또는 양적(간격 또는 비율)일 수 있으며 이진, 이산 또는 연속적입니다.

다중 근접 및 밀도 측정은 여러 유형의 데이터에 적합합니다. 여러 상황에서 원하는 근접도 측정 또는 클러스터링 알고리즘을 사용할 수 있도록 데이터를 이산화하거나 이진화해야 할 수 있습니다.

속성이 연속 및 명목과 같이 광범위하게 여러 유형인 경우 또 다른 어려움이 나타납니다. 이 방법에서 근접성과 밀도는 더 많은 임시를 정의하고 제공하기 위해 더 복잡합니다. 마지막으로 특정 유형의 데이터를 효율적으로 관리하려면 특정 데이터 구조와 알고리즘이 필요할 수 있습니다.

규모 − 키와 체중과 같은 여러 속성을 여러 척도로 측정할 수 있습니다. 이러한 차이는 두 객체 간의 거리 또는 유사성에 강력한 영향을 미치고 결과적으로 클러스터 분석의 결과에 영향을 줄 수 있습니다. 미터로 계산되는 키와 킬로그램으로 계산되는 체중에 따라 사람들 집합을 클러스터링하는 것을 고려하십시오.