Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝 기술이란 무엇입니까?

<시간/>

데이터 마이닝은 통계 및 수학적 기법을 포함한 패턴 인식 기술을 사용하여 저장소에 저장된 많은 양의 데이터를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 찾는 프로세스입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다.

주요 과제는 데이터를 분석하여 문제를 해결하거나 회사 발전에 사용할 수 있는 필수 데이터를 추출하는 것입니다. 데이터를 마이닝하고 데이터에서 더 나은 판단을 찾는 데 사용할 수 있는 동적 도구와 기술이 많이 있습니다.

다음과 같은 다양한 데이터 마이닝 기술이 있습니다. -

분류 − 분류는 보다 효율적인 예측 및 분석을 돕기 위해 데이터 세트에 요소를 생성하는 데이터 마이닝 기술입니다. 매우 방대한 데이터 세트를 효과적으로 분석하기 위한 몇 가지 방법이 있습니다.

분류는 데이터 마이닝에서 가장 중요한 작업 중 하나입니다. 속성에 따라 미리 정의된 클래스 레이블을 인스턴스에 할당하는 프로세스를 나타냅니다. 분류와 군집화 사이에 유사점이 있고, 같아 보이지만 다릅니다. 분류와 클러스터링의 주요 차이점은 분류에는 미리 정의된 그룹의 구성원 자격에 따라 요소의 평준화가 포함된다는 것입니다.

클러스터링 - 물리적 또는 추상적인 객체의 집합을 유사한 객체의 클래스로 결합하는 단계를 클러스터링이라고 합니다. 클러스터는 동일한 클러스터 내에서 서로 동일하고 다른 클러스터의 개체와 다른 데이터 개체 집합입니다. 데이터 개체의 클러스터는 여러 응용 프로그램에서 집합적으로 하나의 그룹으로 간주될 수 있습니다. 클러스터 분석은 필수적인 인간 활동입니다.

회귀 − 이러한 접근 방식은 변수가 숫자인 하나 이상의 예측 변수(독립) 변수에서 응답(종속) 변수의 값을 예측하는 데 사용됩니다. 선형, 다중, 가중, 다항식, 비모수 및 로버스트를 비롯한 여러 형태의 회귀가 있습니다(로버스트 기술은 오류가 정규성 조건을 충족하지 못하거나 데이터에 중요한 이상값이 포함된 경우 유용합니다).

외부 감지 − 이 유형의 데이터 마이닝 기술은 데이터 세트의 데이터 항목 관찰과 관련이 있으며, 이는 예상 패턴이나 예상 동작과 일치하지 않습니다. 이 기술은 침입, 탐지, 사기 탐지 등과 같은 다양한 영역에서 사용될 수 있습니다. 이상치 분석 또는 이상치 마이닝이라고도 합니다.

순차적 패턴 − 순차 패턴은 순차 데이터를 연산하여 순차 패턴을 찾는 데 특화된 데이터 마이닝 기법입니다. 여기에는 길이, 발생 빈도 등과 같은 여러 요소의 관점에서 시퀀스의 지분을 측정할 수 있는 시퀀스 모음에서 흥미로운 하위 시퀀스를 찾는 것이 포함됩니다.