우리는 데이터가 가장 중요한 시대에 살고 있습니다. 당신이 누구이든 당신이 가지고 있는 데이터는 중요하며 그것을 저장하기 위해서는 공간이 필요합니다. 개인에서 대규모 조직에 이르기까지 모든 사람이 자신의 데이터를 안전하게 액세스할 수 있도록 하기 위해 열심히 노력하고 있습니다. 이 시나리오에서 데이터 레이크가 도움이 될까요? 그렇다면 어떻게? 블로그를 읽고 같은 내용을 이해하십시오!
피>
데이터 레이크란?
모든 정형 및 비정형 데이터를 한 곳에서 표시할 수 있는 중앙 집중식 저장소로 정의할 수 있습니다. 가장 좋은 점은 구조화하거나 분석하지 않고 그대로 저장할 수 있다는 것입니다. 이것을 플랫폼으로 생각하기 전에 이것이 플랫폼이 아니라는 점을 분명히 밝히고 싶습니다. Hadoop에서 관리되는 엄청난 양의 데이터입니다. 데이터 레이크는 데이터 관리에 도움이 될 뿐만 아니라 가치도 얻을 수 있기 때문에 많은 인기를 얻고 있습니다.
데이터에서 성공적으로 가치를 창출할 수 있는 조직이 일반적으로 동료보다 우수한 것으로 나타났습니다. 그런데 어떻게 이런 일이 일어 났습니까? 글쎄요, 조직은 번거로움 없이 새로운 성장 기회를 식별하는 데 도움이 되는 데이터 레이크에 있는 데이터에 대해 다양한 유형의 분석을 수행할 수 있었습니다. 이런 식으로 생산성을 높이고 장치를 유지 관리하며 능동적으로 의사 결정을 내리는 것은 어려운 일이 아닙니다! 일부는 이것이 데이터 웨어하우징과 정확히 같다고 주장할 수 있지만 현실은 상당히 다릅니다! 둘 다 중요하며 데이터 전문가는 하나를 선택할 수 없거나 다른 것을 완전히 버리는 것은 불가능합니다. 또한 머신 러닝, 분석 및 기타 분석 도구를 데이터 웨어하우스가 아닌 데이터 레이크에서 쉽게 구현할 수도 있습니다.
출처:aws.amazon.com
이것이 데이터 웨어하우징과 어떻게 다릅니까?
이 둘은 서로 다르지만 서로를 위해 하나를 버릴 수 있다는 의미는 아닙니다. 필요에 따라 조직에 하나 또는 둘 다 필요할 수 있습니다!
차이점에 대해 이야기하자면, 이 둘의 주요 차이점은 데이터 레이크가 데이터를 신속하게 수집하고 나중에 사람들이 데이터에 액세스하기 시작할 때 준비한다는 것입니다. 반대로 데이터 웨어하우징의 경우 데이터를 웨어하우스에 넣기 전에 신중하게 분석해야 합니다. SQL 쿼리를 통한 데이터 검색은 빠르지만 데이터를 체계적으로 정리하는 것은 쉽지 않은 일임은 부인할 수 없습니다. Data Lakes의 경우 데이터를 검색하는 데 시간이 오래 걸릴 수 있지만 데이터를 쉽게 저장할 수 있습니다.
조직은 데이터 레이크를 잘 알고 있으므로 데이터 웨어하우스에서 데이터 레이크로 진화하려고 시도하고 있습니다. 차별화 포인트에 대해 자세히 알아보려면 아래 표를 참조하세요.
출처:aws.amazon.com
또한 분석 양식에는 상세한 소스 데이터가 필요하다는 사실을 무시할 수 없으며, 그렇기 때문에 데이터 레이크는 데이터 분석의 보물이나 마찬가지입니다! 그러나 데이터 레이크가 데이터를 유용하게 만든다는 사실을 무시할 수는 없지만 데이터 저장을 위해 정의된 메커니즘이 필요합니다.
데이터 레이크에 장애물이 있습니까?
확실히 그렇습니다. 완벽한 것은 없습니다! 데이터 레이크의 경우 특정 문제가 있습니다. 그 중 일부는 다음과 같습니다.
데이터 레이크 설계
대부분의 기업이 데이터웨어 하우스를 데이터 레이크로 업그레이드함에 따라 설계가 정확하게 이루어지지 않습니다. 그 이유는 데이터 레이크가 더 단순하고 원시 데이터를 저장할 수 있는 반면 데이터 웨어하우스에는 고도로 구조화된 형식이 필요하기 때문입니다. 디자인을 즉흥적으로 개선하지 않고는 한 곳에서 다른 곳으로 이동할 수 없습니다. 그렇게 하지 않으면 그 사이에 갇히게 되기 때문입니다.
출처:in.pcmag.com
보안
공격자는 이제 다른 사람의 시스템에 침투할 수 있는 지식과 도구를 잘 갖추고 있습니다. 따라서 추가 보안 계층을 추가하지 않고 귀중한 데이터를 Data Lake에 보관하는 것은 인생에서 가장 큰 실수가 될 수 있습니다. 구조화되지 않은 데이터는 쉽게 추출할 수 있으며 보안이 없는 경우 몸값을 지불하는 데 도움이 될 수도 있습니다.
피>
기술 인력의 가용성
예, 우리는 데이터 스토리지 기술을 기하급수적으로 개선하고 있지만 필요한 기술과 사용 가능한 전문가 사이에는 여전히 격차가 있습니다. 이를 인지하고 대처할 줄 아는 사람은 극소수에 불과하지만 기업들은 이를 염두에 두지 않고 급하게 진화하고 있다.
이들은 우리가 직면하고 있는 일부 영역이며 전문가들은 Data Lakes를 대규모로 사용하기 시작할 때 더 많은 문제가 나타날 것이라고 전했습니다.
결론적으로 우리는 신흥 기술이 잠재력을 최대한 발휘하는 데 시간이 걸리며 이것에서도 마찬가지라고 말할 수 있습니다. 그러나 지금 여행을 시작한 사람들은 장기적으로 확실히 혜택을 받을 것입니다. 그러니 이 친구들을 계속 지켜봐 주세요. 새롭고 기대 이상으로 성장할 가능성이 있기 때문입니다.
어떻게 생각해? 아래 댓글란에 귀하의 견해를 언급하는 것을 잊지 마십시오!