텍스트 마이닝은 텍스트 분석이라고도 합니다. 단순 분석을 위해 비정형 텍스트를 정형 데이터로 변환하는 절차입니다. 텍스트 마이닝은 자연어 처리(NLP)를 적용하여 기계가 인간의 언어를 알고 자동으로 처리할 수 있도록 합니다.
표준 언어 텍스트에서 중요한 정보를 추출하는 절차로 정의됩니다. 문자 메시지, 기록, 이메일, 파일을 통해 생성할 수 있는 일부 데이터는 공통 언어 텍스트로 작성됩니다. 텍스트 마이닝은 일반적으로 이러한 데이터에서 유익한 통찰력이나 패턴을 끌어내는 데 사용됩니다.
데이터 마이닝에는 다음과 같은 텍스트 마이닝 영역이 있습니다. -
정보 검색 − 정보 검색은 파일 검색에 추가된 것으로 간주되며 선언된 텍스트는 통합 처리됩니다. 따라서 문서 검색 후에는 텍스트 요약 절차와 사용자에 의한 쿼리 형식의 대상이 뒤따릅니다.
정보검색 시스템은 특정 문제와 관련된 일련의 기록을 좁히는 것을 지원합니다. 텍스트 마이닝은 방대한 문서 컬렉션에 매우 복잡한 알고리즘을 사용하는 것을 포함합니다. 또한 IR은 문서의 수를 줄여 분석을 크게 향상시킬 수 있습니다.
데이터 마이닝 − 데이터 마이닝은 통계 및 수학적 기법을 포함한 패턴 인식 기술을 사용하여 리포지토리에 저장된 많은 양의 데이터를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 찾는 프로세스입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다.
데이터 마이닝에서 데이터의 숨겨진 패턴은 여러 범주에 따라 유용한 데이터 조각으로 간주됩니다. 이 데이터는 데이터 웨어하우스가 포함된 영역에서 이를 분석하여 수집하고 데이터 마이닝 알고리즘을 수행합니다. 이 데이터는 가치를 줄이고 수익을 높이는 효과적인 결정을 내리는 데 도움이 됩니다.
자연어 처리(NLP) - NLP는 인간 언어의 예술입니다. 텍스트 마이닝에서 NLP의 목적은 데이터 추출 프로세스에서 시스템을 입력으로 전달하는 것입니다.
NLP 응용 프로그램의 개발은 컴퓨터가 일반적으로 인간이 구체적이고 자유롭고 예외적으로 구조화된 프로그래밍 언어로 "말"해야 하기 때문에 어렵습니다. 인간의 말은 속어, 사회적 맥락, 지역 방언을 비롯한 여러 복잡한 변수를 기반으로 할 수 있으므로 정기적으로 정통하지 않습니다.
정보 추출(IE) − 정보 추출은 비정형 데이터에서 정형 데이터를 자동으로 추출하는 작업입니다. 일반적으로 이 활동에는 NLP를 사용하여 인간 언어 텍스트를 처리하는 작업이 포함됩니다.