Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 웨어하우스의 프로세스는 무엇입니까?

<시간/>

데이터 스테이징은 다음과 같은 하위 프로세스를 포함하는 주요 프로세스입니다 -

추출 − 추출 단계는 데이터 웨어하우스 환경으로 정보를 가져오는 첫 번째 단계입니다. 추출은 원본 데이터를 읽고 학습하며 추가 작업을 위해 데이터 스테이징 영역에 필요한 요소를 복사하는 것을 정의합니다.

변형 − 데이터가 데이터 스테이징 영역으로 추출되기 때문에 다음과 같은 몇 가지 가능한 변환 프로세스가 있습니다. −

  • 맞춤법 오류를 수정하고 도메인 충돌(우편 번호와 일치하지 않는 도시 이름 포함)을 해결하고 누락된 데이터 구성 요소를 처리하고 표준 형식으로 결정하여 데이터를 정리할 수 있습니다.

  • 데이터 웨어하우스에 도움이 되지 않는 레거시 레코드에서 선택한 필드를 제거하는 데 사용할 수 있습니다.

  • 키 값에 정확히 대응하거나 레거시 시스템 코드와 동일한 텍스트를 찾는 것과 같이 키가 아닌 속성에 대해 퍼지 일치를 구현하여 데이터 소스를 결합할 수 있습니다.

  • 서로게이트 키 생성 프로세스가 차원 테이블과 팩트 테이블 간의 참조 무결성을 구현하는 레거시 정의 키에 대한 종속성을 피하기 위해 각 차원 데이터에 대한 대리 키를 생성할 수 있습니다.

  • 일반적인 쿼리의 동작을 향상시키기 위한 집계를 작성하는 데 사용할 수 있습니다.

로드 및 색인 생성 − 변환 단계가 끝나면 데이터는 로드 데이터 이미지의 디자인에 있습니다. 데이터 웨어하우스 환경에서 로드하는 것은 일반적으로 차원 테이블과 팩트 테이블을 반영하고 이러한 테이블을 각 수신자 데이터 마트의 크기 로드 기능에 반영하는 형태를 취합니다.

품질 보증 확인 − 각 데이터 마트가 로드 및 인덱싱되고 적절한 집계가 제공되면 광고 전 마지막 단계는 품질 보증 단계입니다. 품질 보증은 새로 로드된 데이터의 전체 집합에 대해 포괄적인 예외 문서를 작동하여 확인할 수 있습니다.

모든 보고 요소가 있어야 하며 모든 개수와 합계가 적절해야 합니다. 보고된 모든 값은 예상되는 동일한 값의 시간 순서에 따라 신뢰할 수 있어야 합니다. 예외 문서는 데이터 마트의 최종 사용자 문서 작성 기능으로 구성됩니다.

출시/출판 − 각 데이터 마트가 현재 로드되고 품질이 보장되면 사용자 커뮤니티에 새 레코드가 준비되었음을 알려야 합니다. 출판은 또한 측정되거나 계산된 사실에 도입된 새로운 가정과 기본 차원에서 나타난 모든 변화의 성격을 연결합니다.

쿼리 − 쿼리는 최종 사용자의 임시 쿼리, 문서 작성, 복잡한 의사 결정 지원 애플리케이션, 모델의 요청 및 정교한 데이터 마이닝과 같이 데이터 마트에서 정보를 요청하는 모든 활동을 포괄하는 광범위한 용어입니다.