Computer >> 컴퓨터 >  >> 프로그램 작성 >> 데이터 베이스

Data Lakes란 무엇이며 관심을 가져야 하는 이유

최근 몇 년 동안 Data Lakes는 기술 경계에서 데이터 과학의 주요 해변 부동산으로 이동했습니다. 왜 이런 일이 일어나고 왜 중요한가? 짧은 대답 ... 거기에 가치가 있습니다.

데이터에 가치가 있음

점점 더 회사의 데이터에 엄청난 잠재적 가치가 포함되어 있음이 분명해졌습니다. Google, Facebook 및 기타와 같은 인터넷 대기업의 대부분은 데이터에서 가치를 얻습니다. 그러나 데이터에서 가치를 얻기 위해 인터넷 거물이 될 필요는 없습니다. 산업 회사에서는 기계 고장을 예측하기 위해 데이터를 사용하고, 금융 기관에서는 위험을 더 잘 관리하기 위해, 온라인 소매업체에서는 고객 유지율을 높이기 위해, 수많은 다른 기관에서 새로운 통찰력을 발견하기 위해 데이터를 사용하고 있습니다. 비즈니스 분석 도구 또는 머신 러닝(ML) 시스템에 데이터를 제공하고 통찰력을 얻는 매우 간단한 공식처럼 보입니다. 현실은 그렇게 간단하지 않습니다. 분석 문제를 다루기 전에 하나의 필수 전제 조건을 충족해야 합니다. 실제로 통찰력이 포함된 데이터가 있어야 합니다.

이것은 또 다른 데이터 웨어하우스 솔루션이 아닌가요?

"이것이 데이터 웨어하우스가 해결하는 문제가 아닌가?"라고 생각할 수도 있습니다. 그렇지 않습니다. 데이터 웨어하우스는 정의된 일련의 비즈니스 문제를 해결하기 위해 구축되었습니다. Datawarehouse 데이터 수집은 ETL(추출, 변환, 로드) 워크플로를 사용합니다. 데이터는 소스 시스템에서 추출되어 데이터 웨어하우스의 구조로 변환된 다음 데이터 웨어하우스에 로드됩니다. 이때까지 데이터는 이미 구조화되고 필터링되었으며 정의된 비즈니스 문제 세트와 관련이 없는 데이터를 제외하도록 조작되었습니다. ETL 프로세스에서 암시적 또는 명시적으로 일부 데이터 값은 유지하고 다른 값은 버리고, 데이터를 보강하고, 데이터 항목 간의 관계를 형성하고, 다른 값은 무시했습니다. 폐기된 정보를 필요로 하는 새로운 비즈니스 문제가 발견되면 어떻게 될까요? 비즈니스 환경은 항상 변화하고 미래의 문제는 예측할 수 없습니다. ETL 프로세스가 현재 비즈니스 문제 세트에 대해 아무리 정확하더라도 엄청난 양의 미래 잠재적 가치가 데이터 웨어하우스를 채울 때 이러한 결정을 내리면 손실됩니다.

데이터 레이크 입력

가능한 한 많은 잠재적 가치를 유지하기 위해 원본 데이터를 버릴 수 없습니다. 모든 데이터를 원시 형식으로 유지하고 나중에 사용할 방법을 결정하는 것이 어떻습니까? 데이터가 강처럼 중앙 저장소로 흘러 들어가 "데이터"의 "호수"를 형성하도록 할 수 있습니다. :) 다른 방법으로 데이터를 추출하고 저장한 다음 필요에 따라 변환하고 로드합니다(종종 Extract, Load, andTransform, ELT라고 함 - ETL에서 'T'와 'L'을 조옮김).

역사적으로, 미래의 날짜에 의미 있는 구조를 추출하고 저장하는 비용은 포함할 수 있는 정보의 잠재적 가치보다 훨씬 큽니다. 그러나 저장 비용과 혼란에서 유용한 구조를 추출하는 비용이 감소하여 더 많은 사람들에게 경제적인 측면이 높아졌습니다. 더 많은 기업이 그렇게 하기 위해 노력하고 있습니다.

원시 데이터의 모든 컬렉션은 데이터 레이크, 맞습니까?

좋아, 충분히 간단해. 모든 원시 데이터를 단일 위치에 버리고 착용하면 됩니다. 맞죠? 그것과는 거리가 멀다! 데이터 수집은 고객, 회사 및 데이터를 보호하는 동시에 미래의 데이터 과학자와 분석가가 사용할 수 있도록 적절하게 수행되어야 합니다. 이를 위해서는 많은 중요한 요소를 고려해야 합니다.

  • 미래의 데이터 과학자와 분석가는 원하는 것을 어떻게 찾을 수 있을까요?원시 데이터는 색인이 생성되어야 합니다.

  • 데이터를 어떻게 효율적으로 추출할 수 있습니까? 데이터는 열 형식과 같은 효율적인 파일 형식으로 저장되어야 합니다.

  • 개인 식별 정보(PII), 보호된 건강 정보(PHI), 카드 소지자 데이터(CD) 및 기타 민감한 데이터는 어떻습니까? 데이터 난독화가 필요합니다.

  • 데이터 프라이버시(예:GDPR), 데이터 주권 및 액세스 제어를 어떻게 처리하여 또 다른 데이터 침해의 헤드라인에 오르지 않게 하시겠습니까? 적절한 권한 및 액세스 제어를 적용하려면 ID 및 액세스 관리를 구현해야 합니다.

일부 식별 키를 공유하지 않는 중복 제거 또는 일치 레코드는 어떻습니까? 123 Main St, Some Town, USA 123 Main Street, Some Town, USA와 같은 위치 ? 로버트 스미스는 어떻습니까? 및 밥 스미스 ? 상상할 수 있듯이 이들은 간단한 시나리오입니다. 실제 데이터 세트에는 훨씬 더 복잡한 상황이 존재합니다.

데이터가 데이터 레이크에 있고 적절한 인덱싱 및 제어 기능이 있으면 사용하기 전에 구조화된 형식으로 변환해야 합니다. 일반적으로 이는 읽을 때 JIT(Just-In-Time) 스키마를 적용하는 것을 의미합니다. 다양한 원시 소스 형식은 ML, 웨어하우징 또는 BI(비즈니스 인텔리전스) 시스템에서 사용할 수 있도록 알려진 구조로 투영됩니다. (저는 이 프로세스를 EtS-TL, Extract transform Store – Transform and Load라고 부르는 것을 선호합니다. 데이터가 호수에 들어갈 때 일부 무손실 데이터 변환이 수행되기 때문입니다. 그러나 명명법에 대한 논의는 다른 시간에 다룰 주제입니다.)

데이터 사용

데이터는 현재 호수에 있지만 현재 형태로는 사용할 수 없습니다. 지연되었던 데이터 변환 결정은 이제 결정되어야 합니다. 스키마가 결정되고 데이터가 추출되면 스키마별 방식으로 정리해야 합니다. 한 스키마/분석에 대해 잘못된 데이터가 다른 스키마/분석에 대해 완벽하게 유효할 수 있습니다. 예를 들어 소유자의 이름, 부동산 주소, 자산 가치, 연체, 토지 사용(예:주거, 사무실 건물 또는 산업)이 포함된 토지 소유권 데이터 세트를 고려하십시오. 및 재산세 계좌 번호. 토지 사용과 연체 사이에 상관 관계가 있는지 여부를 결정하는 데 소유자의 이름이 필요하지 않습니다. 동시에 부동산 가치와 토지 사용 간의 상관 관계를 찾는 데 연체 데이터가 필요하지 않습니다. 한 데이터 조각의 행에서 데이터 항목이 누락된 경우 다른 데이터 조각에 대해 동일한 행을 무효화하지 않습니다. Data Lakes를 사용하면 데이터 분석 옵션을 계속 열어둘 수 있지만 복잡성과 비용이 따릅니다.

이 모든 단계가 완료되면 데이터 분석 도구, BI 시스템 또는 ML 모델이 작업을 시작할 수 있는 시점에 도달합니다. 그러나 데이터 레이크를 활용하여 데이터에서 발견된 잠재적인 미래 가치를 실수로 파괴하지 않았습니다. 미래를 알 필요 없이 미래의 비즈니스 질문을 탐색할 수 있습니다.

요약

데이터 웨어하우스가 필터링되고 준비되어 사용할 준비가 된 반면 데이터 레이크는 원시 형태로 사용되지 않는 저장소입니다. 대신 데이터를 사용하기 전에 준비해야 합니다. 다른 저수지와 마찬가지로 향후 소비를 위해 사용할 수 있도록 적절하게 관리해야 합니다. 이는 유입 관리(저장 파일 형식 및 데이터 난독화), 콘텐츠 이해(인덱싱 및 중복 제거), 오용 방지(ID 및 액세스 관리), 정제 시설(데이터 추출, 스키마 적용 및 데이터 정리)을 통해 이루어집니다.

빙산의 일각

다행히 클라우드 시대에는 데이터 레이크를 구현하기 위해 자체 도구와 기술을 사용할 필요가 없습니다. 예를 들어 AWS Lake Formation은 데이터 레이크 자체와 직접 관련된 도구 및 기술 문제를 해결합니다. 그러나 여전히 어려운 질문이 많이 남아 있습니다. 이러한 도구를 올바르게 사용하는 방법을 알고 있습니까? 데이터를 허용하기 위해 적절한 네트워크 연결을 설정할 수 있는 전문 지식이 있습니까? VPN으로 충분합니까, 아니면 전용 회선(직접 연결)이 필요합니까? 회사 데이터의 금광을 클라우드에 저장하고 있습니다.무단 액세스를 방지하기 위해 적절하게 보안을 유지했습니까? 비용 효율적인 방법으로 데이터에 액세스하고 있습니까? 이전하는 것은 무료가 아님을 기억하십시오.

Rackspace에는 데이터 레이크를 빠르고 안전하며 효율적으로 시작하고 실행할 수 있도록 도와주는 클라우드 설계자와 전문 지식이 있습니다. 자세한 내용은 Rackspace Managed AWS를 방문하여 문의해 주십시오.

피드백 탭을 사용하여 의견을 남기거나 질문하십시오.