수량 감소란 무엇입니까?

<시간/>

Numerosity 감소에서는 더 작은 형태의 데이터 표현을 선택하여 데이터 볼륨을 줄입니다. 이러한 기술은 매개변수적이거나 비모수적일 수 있습니다. 매개변수 방법의 경우 모델을 사용하여 데이터를 추정하므로 로그 선형 모델과 같이 실제 데이터 대신 데이터 매개변수만 저장하면 됩니다. 비모수적 방법은 히스토그램, 클러스터링 및 샘플링을 포함하는 축소된 데이터 표현을 저장하는 데 사용됩니다.

다음과 같은 숫자 감소의 다음 기술이 있습니다 -

회귀 및 로그 선형 모델 − 이 모델은 주어진 데이터를 근사화하는 데 사용할 수 있습니다. 선형 회귀에서 데이터는 직선에 맞도록 모델링됩니다. 예를 들어, 확률 변수 y(반응 변수로 알려짐)는 방정식 y =wx+b를 사용하여 다른 확률 변수 x(예측 변수로 알려짐)의 선형 함수로 모델링할 수 있습니다. 여기서 y의 분산은 일정하다고 가정합니다.

로그 선형 모델 - 이 모델은 이산 다차원 확률 분포를 근사화하는 데 사용됩니다. n 차원의 튜플 세트(예:n 속성)가 주어지면 각 튜플을 n차원 공간의 한 점으로 간주할 수 있습니다.

로그 선형 모델은 차원 조합의 더 작은 하위 집합에 따라 이산화된 속성 집합에 대한 다차원 공간의 각 지점 확률을 측정하는 데 사용할 수 있습니다. 이를 통해 저차원 공간에서 고차원 데이터 필드를 생성할 수 있습니다.

히스토그램 − 히스토그램은 비닝을 사용하여 데이터 분포를 근사화하며 데이터 축소의 유명한 형태입니다. 속성 A에 대한 히스토그램은 A의 데이터 분포를 분리된 부분 집합 또는 버킷으로 나눕니다. 각 버킷이 개별 속성-값/빈도 쌍만 정의하는 경우 버킷을 싱글톤 버킷이라고 합니다.

클러스터링 − 클러스터링 기술은 데이터 튜플을 객체로 간주합니다. 그들은 개체를 그룹 또는 클러스터로 분할하여 클러스터 내의 개체가 서로 "유사"하고 다른 클러스터의 개체와 "비유사"하도록 합니다. 일반적으로 거리 함수를 기반으로 물체가 공간에서 얼마나 "가까운" 것으로 정의됩니다.

클러스터의 품질은 클러스터의 두 객체 사이의 최대 거리인 지름으로 정의할 수 있습니다. 중심 거리는 클러스터 품질의 대체 측정이며 클러스터 중심에서 각 클러스터 개체의 평균 거리로 표시되며 "평균 개체" 또는 클러스터 영역의 평균 지점을 나타냅니다.

샘플링 − 샘플링은 정보의 훨씬 작은 무작위 샘플(또는 하위 집합)로 정의할 수 있는 거대한 데이터 세트를 가능하게 하기 때문에 데이터 축소 접근 방식으로 사용할 수 있습니다.