KDD는 데이터베이스의 지식 발견을 나타냅니다. 데이터에서 지식을 발견하는 광범위한 프로세스를 정의하고 명확한 데이터 마이닝 기술의 상위 수준 응용 프로그램을 강조합니다. 인공 지능, 머신 러닝, 패턴 인식, 데이터베이스, 통계, 전문 시스템을 위한 지식 습득, 데이터 시각화 등 여러 분야의 연구자들이 관심을 갖고 있는 분야입니다.
KDD 프로세스의 주요 목적은 거대한 데이터베이스의 맥락에서 정보에서 데이터를 추출하는 것입니다. 데이터 마이닝 알고리즘을 활용하여 지식으로 간주되는 것을 인식함으로써 이를 수행합니다.
데이터베이스의 지식 발견은 거대한 데이터 저장소의 프로그래밍된 탐색적 분석 및 모델링으로 처리됩니다. KDD는 크고 어려운 데이터 세트에서 유효하고 유용하며 이해하기 쉬운 디자인을 식별하는 조직화된 프로세스입니다.
데이터 마이닝은 기록을 조사하고, 모델을 개발하고, 이전에 알려지지 않은 패턴을 발견하는 알고리즘의 추론과 같은 KDD 절차의 루트입니다. 모델은 정보에서 지식을 추출하고 정보를 분석하고 정보를 예측하는 데 사용됩니다.
데이터 마이닝은 데이터 분석 및 검색 알고리즘 적용을 포함하는 KDD 프로세스의 한 단계로, 허용 가능한 계산 효율성 제한에서 데이터에 대한 패턴(또는 모델)의 특정 열거를 만듭니다.
KDD 프로세스에는 일부 필수 선택, 사전 처리, 서브샘플링 및 변환과 함께 데이터베이스 사용이 포함됩니다. 데이터 마이닝 방법(알고리즘)을 사용하여 패턴을 열거합니다. 및 지식으로 간주되는 열거된 패턴의 하위 집합을 인식하기 위해 데이터 마이닝의 제품을 계산합니다.
지식 발견 프로세스와 관련된 단계는 다음과 같습니다 -
- 선택 − 데이터 마이닝 프로세스에 필요한 데이터는 다양한 출처에서 수집됩니다. 따라서 첫 번째 단계는 데이터 세트를 선택하거나 검색을 구현할 변수 또는 데이터 샘플의 하위 집합에 초점을 맞추는 것입니다.
- 데이터 정리 및 전처리 − 프로세스에서 사용하는 데이터에는 누락되거나 잘못된 값이 포함될 수 있으므로 기본 작업에는 노이즈 제거, 노이즈를 모델링하거나 설명하는 데 필요한 정보 수집, 누락된 데이터 필드 처리 기술 결정, 시계열 설명 등이 포함됩니다. 정보는 KDD 프로세스의 두 번째 단계에서 완료됩니다.
- 데이터 변환 − 이 단계는 작업의 목표에 따라 데이터를 나타내는 유용한 기능을 찾는 것을 포함합니다. 차원 축소 또는 변환 접근 방식을 사용하면 고려 중인 변수의 효율적인 수를 줄이거나 데이터에 대한 불변 표현을 찾을 수 있습니다.
- 데이터 마이닝 − 수행 중인 데이터 마이닝 작업을 기반으로 하며, 이 단계는 변환된 데이터에 알고리즘을 적용하고, 분류 규칙 또는 트리, 회귀 및 클러스터링을 포함하여 특정 표현 형식 또는 특정 표현 세트에서 관심 패턴을 검색합니다.
- 채굴 패턴 해석 − 이 단계에는 추출된 패턴 및 모델의 시각화 또는 추출된 모델에 제공된 데이터의 시각화도 포함될 수 있습니다.