Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 웨어하우스의 도구와 유틸리티는 무엇입니까?

<시간/>

데이터 웨어하우징은 비즈니스에 의미 있는 비즈니스 통찰력을 제공하기 위해 다양한 소스에서 데이터를 수집하고 관리하는 데 주로 사용되는 기술입니다. 데이터 웨어하우스는 관리 결정을 지원하도록 특별히 설계되었습니다.

간단히 말해서 데이터 웨어하우스는 조직의 운영 데이터베이스와 별도로 유지 관리되는 데이터베이스를 의미합니다. 데이터 웨어하우스 시스템은 여러 애플리케이션 시스템의 통합을 가능하게 합니다. 분석을 위해 통합된 과거 정보의 견고한 플랫폼을 지원하여 데이터 처리를 제공합니다.

데이터 웨어하우스는 다차원 영역의 정보를 일반화하고 통합합니다. 데이터 웨어하우스 구축에는 데이터 정리, 데이터 통합, 데이터 변환이 포함되며 데이터 마이닝을 위한 필수 전처리 단계라고 할 수 있습니다. 이러한 도구와 유틸리티에는 다음 기능이 포함됩니다. -

데이터 추출

데이터 정리 − 데이터 정리는 누락된 값을 채우고, 잡음이 있는 데이터를 평활화하고, 이상값을 식별 및 제거하고, 데이터의 불일치를 제거하여 데이터를 정리하는 것을 의미합니다.

데이터 정리 유형

  • 결측값 − 누락된 값은 적절한 값으로 채워집니다. 다음은 값을 채우는 방법입니다.

  • 시끄러운 데이터 − 노이즈는 측정된 변수의 무작위 오류 또는 분산입니다. 다음은 노이즈를 처리하기 위한 평활화 기술입니다. -

    • 비닝 − 이러한 기술은 "이웃", 즉 노이즈가 있는 데이터에 대한 값을 권고하여 정렬된 데이터 값을 부드럽게 합니다. 정렬된 값은 여러 버킷 또는 저장소에 할당됩니다. 비닝 방법은 값의 이웃을 참조하기 때문에 로컬 평활화를 구현합니다.

    • 회귀 − 회귀를 포함하여 레코드를 함수에 피팅하여 데이터를 평활화할 수 있습니다. 선형 회귀는 한 속성이 다른 속성을 예측하는 데 사용할 수 있도록 두 속성(또는 변수)에 맞는 "최적의" 선을 찾는 것을 포함합니다. 다중 선형 회귀는 2개 이상의 속성이 포함되고 데이터가 다차원 표면에 맞는 선형 회귀의 연속입니다.

    • 클러스터링 − 클러스터링은 이상값을 식별하는 데 도움이 됩니다. 유사한 값은 클러스터로 구성되며 클러스터 외부에 있는 값을 이상값이라고 합니다.

데이터 변환 − 데이터 변환에서 데이터는 마이닝에 적합한 형태로 변환되거나 통합됩니다. 데이터 변환에는 다음이 포함될 수 있습니다. -

  • 스무딩 − 데이터에서 노이즈를 제거하는 역할을 할 수 있습니다. 이러한 기술에는 비닝(binning), 회귀 및 클러스터링이 포함됩니다.

  • 집계 − 집계에서 요약 또는 집계 작업이 데이터에 적용됩니다.

  • 일반화 − 일반화에서 개념 계층을 사용하여 저수준 또는 "원시"(원시) 데이터가 더 큰 수준 개념에 의해 복원됩니다.

로드 − 정렬, 요약, 통합, 보기 계산, 무결성 검사, 인덱스 및 파티션 구축

새로고침 − 데이터 소스에서 데이터 웨어하우스로 업데이트를 전파할 수 있습니다.