데이터 전처리, 즉 데이터 정리, 데이터 통합, 데이터 축소 및 데이터 변환과 관련된 주요 단계는 다음과 같습니다. -
데이터 정리 − 데이터 정리 루틴은 누락된 값을 채우고, 잡음이 있는 정보를 평활화하고, 이상값을 식별 또는 제거하고, 편차를 해결하여 정보를 "정리"하도록 작동합니다. 사용자가 데이터가 더럽다는 것을 이해하면 사용된 일부 데이터 마이닝의 결과를 신뢰하지 않을 것입니다.
또한, 더티 데이터는 마이닝 단계에서 혼란을 일으켜 불안정한 출력을 초래할 수 있습니다. 일부 마이닝 루틴에는 불완전하거나 시끄러운 정보를 처리하는 단계가 있지만 항상 강력한 것은 아닙니다. 대신 모델링 중인 함수에 정보를 과적합하는 것을 방지하는 데 집중할 수 있습니다.
데이터 통합 − 데이터 통합은 서로 다른 여러 소스의 데이터를 병합하는 절차입니다. 데이터 통합을 수행하는 동안 데이터 중복성, 비일관성, 중복성 등에 대해 작업해야 합니다. 데이터 마이닝에서 데이터 통합은 몇 가지 이기종 데이터 소스의 데이터를 일관된 데이터로 병합하여 통합된 유지 및 제공을 제공하는 기록 전처리 방법입니다. 데이터의 관점.
데이터 통합은 의료 산업에서 특히 중요합니다. 여러 환자 데이터 및 클리닉의 통합 데이터는 유익한 통찰력을 얻을 수 있는 유익한 데이터의 개별 관점에 여러 시스템의 데이터를 통합함으로써 임상의가 의학적 장애 및 질병을 인식하는 데 도움이 됩니다.
데이터 감소 − 데이터 축소의 목적은 더 간결하게 정의하는 것입니다. 데이터 크기가 작을수록 복잡하고 계산 비용이 많이 드는 알고리즘을 사용하는 것이 더 간단합니다. 데이터의 축소는 여러 행(레코드) 또는 여러 열(차원)의 관점에서 이루어질 수 있습니다.
차원 축소에서 데이터 인코딩 방식은 초기 데이터의 축소된 또는 "압축된" 설명을 얻기 위해 사용됩니다. 예에는 데이터 압축 방법(예:웨이블릿 변환 및 주성분 분석), 속성 하위 집합 선택(예:관련 없는 속성 제거) 및 속성 구성(예:더 유익한 속성의 작은 집합이 초기 집합에서 변경되는 경우)이 포함됩니다.
숫자 감소에서 데이터는 회귀 또는 로그 선형 모델과 같은 매개변수 모델 또는 히스토그램, 클러스터, 샘플링 또는 데이터 집계와 같은 비모수 모델을 사용하여 더 작은 대체 설명으로 복원됩니다.
데이터 변환 - 데이터 변환에서 요약 또는 집계 작업을 실행하여 데이터가 마이닝에 적용 가능한 형태로 변환되거나 연결됩니다. 데이터 변환에는 다음이 포함됩니다. -
스무딩 − 데이터에서 노이즈를 제거하는 역할을 할 수 있습니다. 이러한 기술에는 비닝, 회귀 및 클러스터링이 포함됩니다.
집계 − 집계에서 요약 또는 집계 서비스가 데이터에 사용됩니다. 예를 들어 일일 판매 데이터를 집계하여 월간 및 연간 총 금액을 계산할 수 있습니다. 이 절차는 일반적으로 여러 세분성에서 레코드 분석을 위한 데이터 큐브를 개발하는 데 사용됩니다.