Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 변환 서비스는 무엇입니까?

<시간/>

데이터 변환에서 데이터는 마이닝에 적용 가능한 형태로 변환되거나 연결됩니다. 데이터 변환에는 다음이 포함될 수 있습니다. -

  • 스무딩 − 데이터에서 노이즈를 제거하는 역할을 할 수 있습니다. 이러한 기술에는 비닝(binning), 회귀 및 클러스터링이 포함됩니다.

  • 집계 − 집계에서 요약 또는 집계 작업이 데이터에 적용됩니다.

  • 일반화 − 일반화에서 낮은 수준 또는 "기본"(원시) 데이터가 개념 계층의 필요성을 통해 더 큰 수준의 개념에 의해 복원됩니다.

다음과 같은 다양한 데이터 변환 서비스가 있습니다 -

통합 − 통합에는 대리 키 생성, 한 체계에서 다른 체계로 키 매핑, 완전한 설명에 프로그램 매핑이 포함됩니다. 이 변환 뒤에는 마스터 키 조회 테이블을 지원하는 암시적 권한이 있습니다.

천천히 변화하는 차원 유지 관리 − 변경된 값을 식별하고 대리 키를 생성하는 것은 까다로운 과정이지만 공간 왜곡 수학이 아닙니다. 데이터 스테이징 도구를 구입하면 천천히 변화하는 차원을 관리하는 알고리즘이 내장되어 있어야 합니다.

비정규화 및 재정규화 − 개별 테이블의 계층을 차원으로 비정규화하는 것은 표준 웨어하우스 변환 프로세스입니다. 일부 데이터 스테이징 도구는 이 기능을 자동으로 수행하는 스타 스키마 기능을 제공합니다. 또한 팩트 테이블 단계에서 일부 비정규화가 발생합니다.

예를 들어 재무 스키마에는 Actual, Budget 또는 Forecast 값이 있는 금액 유형인 차원이 있을 수 있습니다. 이 레코드에 포함된 세부 정보 수준에 따라 다르므로 이 열을 각 금액 유형에 대해 하나씩 3개의 달러 금액 열이 있는 단일 행으로 피벗하는 것이 좋습니다.

정리, 중복 제거, 병합/제거 − 이는 많은 데이터 웨어하우스, 특히 고객, 기업, 의사 및 환자와 같은 외부 엔터티와 관련된 데이터 웨어하우스의 경우 큰 문제입니다. 복잡한 프로세스이지만 여러 공급업체에서 이 문제를 위한 도구와 서비스를 제공합니다.

데이터 유형 변환 − 여기에는 한 데이터 유형 또는 형식을 다른 데이터 유형 또는 형식으로 변환하는 하위 수준 변환이 포함됩니다. 여기에는 IBM의 메인프레임 문자 세트 EBCDIC를 ASCII로 변환하는 것부터 날짜, 숫자 및 문자 표현을 한 데이터베이스에서 다른 데이터베이스로 변환하는 것까지 다양합니다.

계산, 파생, 할당 − 요구 사항 단계에서 인식되는 비즈니스 규칙을 사용하기 위한 변환입니다. 선택할 수 있는 도구에 문자열 조작, 날짜 및 시간 산술, 조건문, 기본 수학을 포함하여 사용 가능한 완전한 기능 세트가 있는지 확인하십시오.

집계 − 어떤 단계에서 어떤 리소스에 액세스할 수 있는지에 따라 로드 프로세스의 일부 요소에서 집계를 관리할 수 있습니다. 추출 또는 변환 프로세스의 요소로 집계를 계산할 수 있는 경우 플랫 레코드에 직접 Syncsort와 같은 도구를 사용할 수 있습니다. 이러한 유틸리티는 정렬 및 보고를 위해 개발되었으며 완전히 능숙합니다.