Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 추출이란 무엇입니까?

<시간/>

추출은 데이터 웨어하우스 환경에서 추가 도움말을 위해 소스 시스템에서 정보를 추출하는 서비스입니다. ETL 프로세스의 첫 번째 절차입니다. 추출 후에 이 데이터를 변경하고 데이터 웨어하우스에 로드할 수 있습니다. 데이터 웨어하우스의 소스 시스템은 일반적으로 트랜잭션 처리 소프트웨어입니다. 판매 분석 데이터 웨어하우스의 소스 시스템은 현재 모든 주문 활동을 데이터화하는 주문 입력 시스템이 될 수 있습니다.

데이터 추출은 명확한 디자인의 데이터 소스(예:데이터베이스)에서 관련 정보를 가져오기 위해 데이터가 고려되고 이동되는 곳입니다. 메타데이터 삽입 및 기타 데이터 통합을 포함하는 추가 데이터 처리가 완료되었습니다. 데이터 워크플로의 또 다른 절차입니다.

대부분의 데이터 추출은 구조화되지 않은 데이터 소스와 여러 데이터 구조에서 나타납니다. 이 비정형 데이터는 테이블, 인덱스 및 분석을 포함한 모든 형식이 될 수 있습니다.

웨어하우스의 데이터는 여러 소스에서 나타날 수 있으며 데이터 웨어하우스는 들어오는 레코드를 사용하기 위해 세 가지 다른 기술이 필요했습니다. 이러한 프로세스를 ETL(추출, 변환 및 로드)이라고 합니다.

데이터 추출 프로세스에는 지저분한 데이터 소스에서 정보 검색이 포함됩니다. 데이터 추출은 관계형 데이터베이스의 준비 작업으로 로드됩니다. 따라서 추출 논리가 활용되고 소프트웨어 프로그래밍 인터페이스를 사용하여 소스 시스템에 데이터를 요청합니다.

데이터 추출 도구 유형

다음과 같은 다양한 유형의 데이터 추출 도구가 있습니다 -

일괄 처리 도구 − 레거시 데이터 추출 도구는 일반적으로 업무 외 시간에 일괄적으로 이 데이터를 구축하여 많은 양의 평가 권한을 사용하는 데 따른 영향을 줄입니다. 적당히 동질적인 데이터 소스 세트가 있는 폐쇄형 온프레미스 설정의 경우 일괄 추출 솔루션이 최상의 접근 방식이 될 수 있습니다.

오픈 소스 도구 − 지원 프레임워크와 해당 분야에 대한 지식을 고려할 때 오픈 소스 도구는 예산이 제한된 소프트웨어에 가장 적합할 수 있습니다. 다양한 공급업체는 제품을 오픈 소스로 제한하거나 "가벼운" 해석을 ​​제공합니다.

클라우드 기반 도구 − 클라우드 기반 도구는 현재 세대의 추출 제품입니다. 목표는 ETL/ELT 절차의 요소로 실시간 데이터 추출에 있으며 클라우드 기반 도구는 이 분야에서 탁월하며 클라우드가 데이터 저장 및 분석을 지원해야 하는 모든 이점을 활용합니다. 이러한 도구는 또한 오늘날의 클라우드 공급업체가 계속해서 이러한 분야를 대상으로 하고 있으므로 이러한 전문 지식을 사내에서 생성할 필요가 없기 때문에 보안 및 합의 문제를 해결합니다.