데이터 마이닝은 통계적, 수학적 기법을 포함한 패턴 인식 기술을 사용하여 저장소에 저장된 많은 양의 데이터를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 찾는 프로세스입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다.
데이터 마이닝은 데이터베이스 시스템, 통계, 머신 러닝, 시각화 및 데이터 과학과 같은 일련의 분야가 결합된 학제 간 분야입니다. 사용된 데이터 마이닝 접근 방식에 따라 신경망, 퍼지 및/또는 대략적인 집합 이론, 지식 표현, 귀납적 논리 프로그래밍 또는 고성능 컴퓨팅과 같은 다른 분야의 기술이 적용될 수 있습니다.
데이터 마이닝은 데이터 과학과 유사합니다. 특정 상황에서 특정 데이터 세트에 대해 목적을 가진 사람이 수행합니다. 이 단계에는 텍스트 마이닝, 웹 마이닝, 오디오 및 비디오 마이닝, 사진 데이터 마이닝, 소셜 미디어 마이닝을 비롯한 여러 유형의 서비스가 포함됩니다. 단순하거나 매우 구체적인 소프트웨어를 통해 완료됩니다.
데이터 마이닝을 아웃소싱함으로써 낮은 운영 비용으로 모든 작업을 더 빠르게 수행할 수 있습니다. 특정 회사는 새로운 기술을 사용하여 수동으로 찾을 수 없는 데이터를 저장할 수도 있습니다. 여러 플랫폼에서 사용할 수 있는 수많은 데이터가 있지만 액세스할 수 있는 지식은 매우 제한적입니다.
주요 과제는 데이터를 분석하여 문제를 해결하거나 회사 발전에 사용할 수 있는 필수 데이터를 추출하는 것입니다. 데이터를 마이닝하고 데이터에서 더 나은 판단을 찾는 데 사용할 수 있는 동적 도구와 기술이 많이 있습니다.
데이터 마이닝의 한계는 기술 관련이 아니라 주로 데이터 또는 인력 관련입니다.
-
데이터 마이닝 소프트웨어는 매우 강력한 도구이지만 자급자족할 수 있는 응용 프로그램은 아닙니다. 성공할 수 있으며 분석을 구성하고 생성된 출력을 해석할 수 있는 숙련된 기술 및 분석 전문가가 필요합니다.
-
데이터 마이닝은 패턴과 관계를 얻는 데 사용되며 사용자에게 이러한 패턴의 가치나 중요성을 알려주지 않습니다. 이러한 유형의 결정은 사용자가 해야 합니다.
-
발견된 패턴의 유효성은 실제 상황과 비교하는 방법에 따라 다릅니다. 예를 들어 대규모 개인 풀에서 잠재적 테러리스트 용의자를 식별하도록 설계된 데이터 마이닝 애플리케이션의 유효성을 평가할 수 있으며 사용자는 알려진 테러리스트에 대한 정보가 포함된 데이터를 사용하여 모델을 테스트할 수 있습니다.
-
데이터 마이닝은 행동과 변수 간의 연결을 식별할 수 있지만 반드시 인과 관계를 식별하지는 않습니다. 예를 들어, 애플리케이션은 항공편 출발 예정 직전에 항공권을 구매하는 경향과 같은 행동 패턴이 소득, 교육 수준 및 인터넷 사용과 같은 특성과 관련되어 있음을 식별할 수 있습니다.