데이터 정리는 누락된 값을 채우고, 잡음이 있는 데이터를 평활화하고, 이상값을 분석 및 제거하고, 데이터의 불일치를 제거하여 데이터를 정리하는 것을 정의합니다. 때때로 여러 세부 수준의 데이터가 필요한 것과 다를 수 있습니다. 예를 들어 20-30, 30-40, 40-50의 연령 범위가 필요할 수 있고 가져온 데이터에는 생년월일이 포함됩니다. 데이터를 적절한 유형으로 분할하여 데이터를 정리할 수 있습니다.
데이터 정리 유형
다음과 같은 다양한 유형의 데이터 정리가 있습니다 -
-
결측값 − 누락된 값은 적절한 값으로 채워집니다. 값을 채우는 방법은 다음과 같습니다.
-
누락된 값이 있는 여러 속성이 포함된 튜플은 무시됩니다.
-
값은 누락된 값에 대해 수동으로 채워집니다.
-
동일한 전역 상수가 값을 채울 수 있습니다.
-
속성 평균은 누락된 값을 채울 수 있습니다.
-
가장 가능성 있는 값이 누락된 값을 채울 수 있습니다.
-
-
시끄러운 데이터 − 노이즈는 측정된 변수의 무작위 오류 또는 분산입니다. 다음과 같은 노이즈를 처리하기 위한 평활화 방법이 있습니다 -
-
비닝 − 이러한 방법은 "이웃", 특히 노이즈 정보 주변 값을 참조하여 정렬 데이터 값을 매끄럽게 합니다. 정렬된 값은 여러 버킷 또는 저장소에 배포됩니다. 비닝 방법은 값의 이웃을 참조하기 때문에 로컬 평활화를 구현합니다.
-
회귀 − 회귀를 포함하여 정보를 함수에 피팅하여 데이터를 평활화할 수 있습니다. 선형 회귀에는 한 속성이 다른 속성을 예측하는 데 사용할 수 있도록 두 속성(또는 변수)에 맞는 "최적의" 선을 찾는 것이 포함됩니다. 다중 선형 회귀는 3개 이상의 속성이 포함되고 데이터가 다차원 영역에 맞는 선형 회귀의 발전입니다.
-
클러스터링 − 클러스터링은 이상값 식별을 지원합니다. 동일한 값이 클러스터로 구성되며 클러스터 외부에 있는 값을 이상값이라고 합니다.
-
컴퓨터와 사람이 함께 검사 − 컴퓨터 및 사람의 검사를 통해 이상값을 인식할 수도 있습니다. 이상치 패턴은 설명적이거나 쓰레기일 수 있습니다. 놀라운 가치를 지닌 패턴을 리스트로 출력할 수 있습니다.
-
-
일치하지 않는 데이터 − 데이터 입력 중 또는 여러 데이터베이스의 정보를 통합하여 발생하는 다양한 트랜잭션에서 불일치가 기록될 수 있습니다. 일부 중복은 상관 분석을 통해 인식할 수 있습니다. 다양한 소스의 데이터를 정확하고 적절하게 통합하면 중복을 줄이고 피할 수 있습니다.