누구나 빅 데이터를 3, 4 또는 10 V로 정의합니다. 이 V는 실제로 우리에게 빅 데이터 개념의 정의를 제공하고 있습니까, 아니면 그들이 우리에게 말하려고 하는 다른 것입니까? 이 V 기반 특성화를 사용하는 주된 이유는 이 빅 데이터와 함께 제공되는 문제를 강조하기 위해서입니다. 캡처, 청소, 큐레이션, 통합, 보관, 처리 등의 과제
이 V는 가능한 도전에 대비하기 위한 지침을 제공합니다. 다음과 같은 빅 데이터 관리를 시작할 때 발생할 수 있는 문제:
- 대량 증가
- 빠른 속도로 성장
- 큰 품종 생성
- 변동성이 큰 변화
- 큰 진실성을 유지하기 위한 프로세스 필요
- 변환 시 큰 시각화 제공
- 큰 숨겨진 가치
이 V는 조직이 무시할 수 없는 빅 데이터 및 빅 데이터 전략의 중요한 측면을 설명합니다. 빅 데이터의 다양한 속성에 기여하는 모든 V를 살펴보겠습니다.
1. 볼륨:
100테라바이트의 데이터가 매일 Facebook에 업로드됩니다. Akamai는 매일 7,500만 건의 이벤트를 분석하여 온라인 광고를 타겟팅합니다. Walmart는 매시간 100만 건의 고객 거래를 처리합니다. 생성된 모든 데이터의 90%는 지난 2년 동안 생성되었습니다.
위의 수치는 대량의 데이터가 무엇을 의미하는지 정확히 보여줍니다. 데이터를 빅 데이터로 만드는 것은 데이터의 첫 번째 특성입니다. 이 엄청난 양의 데이터는 우리가 이 데이터를 저장하는 데 어려움을 겪게 합니다.
2. 속도:
1999년 1월, 우리는 매일 매분 YouTube에 100시간 분량의 동영상을 업로드하고 2억 개 이상의 이메일을 보내고 300,000개의 트윗을 보냅니다.
볼륨 수치의 기저에는 훨씬 더 큰 추세가 있는데, 기존 데이터의 90%가 불과 지난 2년 동안 생성되었다는 것입니다. 이는 데이터가 생성, 저장, 분석 및 시각화되는 속도 또는 속도를 나타냅니다.
조직이 직면한 과제는 데이터가 실시간으로 생성되고 사용되는 엄청난 속도에 대처하는 것입니다.
3. 다양성
과거에는 생성된 모든 데이터가 구조화된 데이터였으며 열과 행에 깔끔하게 맞춰져 있었지만 그런 시대는 끝났습니다. 오늘날 생성되는 데이터의 90%는 구조화되지 않았으며 지리 공간 데이터에서 콘텐츠 및 감정을 분석할 수 있는 트윗, 사진 및 비디오와 같은 시각적 데이터에 이르기까지 모든 형태와 형식으로 제공됩니다.
다양성은 빅 데이터의 가장 큰 과제 중 하나를 설명합니다. 구조화되지 않을 수 있으며 XML에서 비디오, SMS에 이르기까지 다양한 유형의 데이터를 포함할 수 있습니다. 의미 있는 방식으로 데이터를 구성하는 것은 간단한 작업이 아닙니다. 특히 데이터 자체가 빠르게 변경되는 경우에는 더욱 그렇습니다.
4. 가변성
가변성은 종종 다양성과 혼동됩니다. 구별하기 위한 간단한 예는 다음과 같습니다. 스타벅스를 생각해 보십시오. 콜드 커피에는 다양한 맛이 있습니다. 이것은 다양성입니다. 예를 들어 당신이 매일 Cafe Mocha를 사는데 그 맛과 향이 전날과 조금 다르다고 가정해 봅시다. 가변성입니다.
빅 데이터 맥락의 가변성은 몇 가지 다른 것을 나타냅니다. 하나는 데이터의 불일치 수입니다. 의미 있는 분석이 이루어지려면 이상 및 이상값 감지 방법으로 이러한 항목을 찾아야 합니다. 또한 빅 데이터는 서로 다른 여러 데이터 유형 및 소스에서 발생하는 다양한 데이터 차원으로 인해 가변적입니다. 가변성은 빅 데이터가 데이터베이스에 로드되는 일관되지 않은 속도를 의미할 수도 있습니다.
5. 진실성
빅 데이터를 이해하는 데 중요한 것은 지저분하고 시끄러운 데이터 특성과 분석을 시작하기 전에 정확한 데이터 세트를 생성하는 데 들어가는 작업량입니다. 분석 중인 데이터가 부정확하거나 불완전하면 소용이 없습니다.
이러한 상황은 데이터 스트림이 다양한 신호 대 잡음비로 다양한 형식을 제공하는 다양한 소스에서 발생할 때 발생합니다. Big Data Analytics에 도달할 때까지 누적된 오류가 만연할 수 있습니다.
Veracity는 데이터가 정확한지 확인하는 것이므로 잘못된 데이터가 시스템에 축적되지 않도록 하는 프로세스가 필요합니다. 가장 간단한 예는 허위 이름과 부정확한 연락처 정보로 마케팅 자동화 시스템에 입력하는 연락처입니다. 데이터베이스에서 미키 마우스를 몇 번이나 보셨습니까? 전형적인 "쓰레기 넣고 쓰레기 버리기" 챌린지입니다.
6. 시각화
빅 데이터의 어려운 부분으로, 이 엄청난 양의 데이터를 쓸모 없게 만드는 데 실패합니다. 모든 빅 데이터 처리 시스템의 핵심 작업은 방대한 규모를 쉽게 이해하고 실행 가능한 것으로 변환하는 것입니다. 사람이 사용할 수 있는 가장 좋은 방법 중 하나는 그래픽 형식으로 변환하는 것입니다.
현재의 빅 데이터 시각화 도구는 인메모리 기술의 한계와 열악한 확장성, 기능 및 응답 시간으로 인해 기술적 문제에 직면해 있습니다. 기존의 그래프는 10억 개의 데이터 포인트를 플로팅해야 하는 필요성을 충족할 수 없으므로 데이터 클러스터링이나 트리 맵, 선버스트, 병렬 좌표, 원형 네트워크 다이어그램 또는 원뿔형 트리를 사용하는 것과 같은 다양한 데이터 표현 방법이 필요합니다.
7. 가치
가치가 최종 게임입니다. 빅데이터의 잠재적 가치는 엄청납니다. 많은 시간과 노력이 필요한 볼륨, 속도, 다양성, 가변성, 진실성 및 시각화를 관리한 후에는 조직이 데이터에서 가치를 얻고 있는지 확인하는 것이 중요합니다.
물론 데이터 자체는 전혀 가치가 없습니다. 그 가치는 해당 데이터에 대해 수행된 분석과 데이터가 어떻게 정보로 바뀌고 궁극적으로 지식으로 전환되는지에 있습니다.
위의 7V는 빅 데이터의 3가지 중요한 측면, 즉 정의, 특성 및 과제를 알려줍니다. 그러나 사람들이 7V의 과제에 직면하기 위해 방법을 발명하기 위해 빅 데이터에 대한 연구를 시작했을 때 그들은 다른 V를 발견했습니다. 빅 데이터에서 중요한 역할을 하지 않지만 특성 및 과제 목록을 완성합니다.
8. 유효성
정확성과 마찬가지로 유효성은 데이터가 의도된 용도에 얼마나 정확하고 정확한지를 나타냅니다. 빅 데이터의 진실성은 타당성의 문제로, 데이터가 의도된 용도에 맞게 올바르고 정확하다는 의미입니다. 명확하게 유효한 데이터는 올바른 결정을 내리기 위한 핵심입니다. 데이터 유효성 검사는 손상되지 않은 데이터 전송을 인증하는 것입니다.
9. 생존력
아래 진술에 대해 생각해 보십시오.
- 시간 또는 요일은 구매 행동에 어떤 영향을 미칩니까?
- Twitter 또는 Facebook 언급이 급증하면 구매 증가 또는 감소를 예고합니까?
- 지리적 위치, 제품 가용성, 시간, 구매 내역, 연령, 가족 규모, 신용 한도 및 차량 유형이 모두 소비자의 구매 성향을 예측하기 위해 어떻게 수렴됩니까?
우리의 첫 번째 작업은 해당 데이터의 실행 가능성을 평가하는 것입니다. 왜냐하면 효과적인 예측 모델을 구축하는 데 고려해야 할 다양한 데이터와 변수가 있기 때문에 빠르고 비용이 많이 드는 완전한 기능을 갖춘 모델 생성에 투자하기 전에 특정 변수의 관련성을 효과적으로 테스트하고 확인합니다. 즉, 우리는 추가 조치를 취하기 전에 해당 가설을 검증하고 변수의 실행 가능성을 결정하는 과정에서 다른 변수(초기 가설의 일부가 아닌 변수)가 우리가 원하거나 관찰한 결과에 의미 있는 영향을 미칩니다.
10. 변동성
데이터가 더 이상 관련이 없거나, 역사적이거나, 유용하지 않은 것으로 간주되려면 얼마나 오래되어야 합니까? 데이터를 얼마 동안 보관해야 하나요?
빅데이터의 변동성을 이야기할 때 우리는 비즈니스에서 매일 구현하는 구조화된 데이터의 보존 정책을 쉽게 떠올릴 수 있습니다. 보관 기간이 만료되면 쉽게 파기할 수 있습니다.
그러나 빅데이터는 속도와 양이 많기 때문에 변동성을 신중하게 고려해야 합니다. 이제 데이터 최신성 및 가용성에 대한 규칙을 설정하고 필요할 때 정보를 신속하게 검색할 수 있도록 해야 합니다.
11. 취약점
2015년 Ashley Madison Hack을 기억하십니까? 또는 2016년 5월 CRN이 보고한 내용을 기억하십니까?
빅 데이터는 새로운 보안 문제를 가져옵니다. 특히 이러한 특성으로 인해 빅데이터에 대한 보안 프로그램 개발에 어려움이 있습니다. 결국, 데이터 유출은 큰 유출입니다.
그러면 이 모든 것이 빅 데이터의 특성에 대해 무엇을 말해 줍니까? 방대하고 빠르게 확장되고 있지만 수백 가지 형식으로 시끄럽고 지저분하고 끊임없이 변화하며 분석 및 시각화 없이는 사실상 가치가 없습니다.
볼륨, 속도 및 다양성은 빅데이터의 핵심 매개변수일 뿐만 아니라 빅데이터의 개념을 탄생시킨 이유이기도 합니다. 일반 데이터와 빅 데이터. 그것들은 빅 데이터 자체에 내재되어 있지만 다른 V의 가변성, 진실성, 시각화 및 가치는 빅 데이터를 처리, 분석하고 혜택을 받는 사람들에게 빅 데이터가 제공하는 엄청난 복잡성을 반영하는 중요한 속성입니다.
확실히 빅 데이터는 기업 IT가 적절한 컴퓨팅 인프라와 함께 수용해야 하는 핵심 트렌드입니다. 그러나 이 모든 것을 이해할 수 있는 고성능 분석 및 데이터 과학자가 없으면 비즈니스 이점으로 전환되는 가치를 창출하지 못한 채 막대한 비용만 발생시킬 위험이 있습니다.