텍스트 마이닝은 텍스트 분석이라고도 합니다. 단순 분석을 위해 비정형 텍스트를 정형 데이터로 변환하는 절차입니다. 텍스트 마이닝은 자연어 처리(NLP)를 적용하여 기계가 인간의 언어를 알고 자동으로 처리할 수 있도록 합니다.
표준 언어 텍스트에서 필수 정보를 추출하는 프로세스로 정의됩니다. 문자 메시지, 기록, 이메일, 파일을 통해 생성할 수 있는 일부 데이터는 공통 언어 텍스트로 작성됩니다. 텍스트 마이닝은 일반적으로 이러한 데이터에서 유용한 통찰력이나 패턴을 도출하는 데 사용됩니다.
텍스트 마이닝은 자연어 처리를 사용하여 구조화되지 않은 텍스트에서 귀중한 통찰력을 도출하는 자동 방법입니다. 데이터를 장치가 학습할 수 있는 정보로 변환할 수 있으며, 텍스트 마이닝은 감정, 주제 및 의도별로 텍스트를 정의하는 방법을 자동화합니다.
필터링과 스트리밍의 두 가지 방법이 있습니다. 필터링을 통해 원치 않는 단어나 관련 데이터를 제거할 수 있습니다. 스트리밍 단어는 관련 단어의 루트를 지원합니다. 스트리밍 방법을 사용한 후 각 단어는 루트 노드에 의해 정의됩니다.
텍스트 마이닝의 주요 목표는 사용자가 텍스트 기반 자산에서 정보를 추출하고 검색, 추출, 요약, 분류(감독) 및 클러스터링(비감독), 분할 및 연결과 같은 작업을 처리할 수 있도록 하는 것입니다.
텍스트 마이닝의 채택 후 주요 이유는 비즈니스 업계에서 더 강력한 경쟁, 다른 조직과 함께 할 부가가치 솔루션을 찾는 여러 조직입니다. 비즈니스의 완성도를 높이고 사용자 관점이 변화함에 따라 조직은 사용자 및 적의 데이터를 분석하여 경쟁력을 높일 수 있는 솔루션을 얻기 위해 막대한 투자를 받고 있습니다.
텍스트 마이닝은 텍스트 데이터를 관리하는 데 유용합니다. 텍스트 데이터는 구조화되지 않고 조작하기 어렵고 모호하므로 텍스트 마이닝은 데이터 교환에 가장 유용한 방법이 되는 반면 데이터 마이닝은 비즈니스 데이터에 사용됩니다.
경제적, 학문적, 사회적 활동을 통해 매일 방대한 양의 새로운 기록과 데이터가 생성되며 상당한 잠재적 경제적 사회적 가치가 있습니다.
이러한 잠재력을 활용하려면 텍스트 및 데이터 마이닝 및 분석을 비롯한 여러 기술이 필요합니다. 이 방법의 목적은 방대한 양의 텍스트 문서에서 데이터를 얻는 데 필요한 노력을 줄이는 것입니다.
- 구조화된 데이터 − 행과 열이 있는 테이블의 데이터베이스 SQL에 저장할 수 있는 모든 레코드에 관한 것입니다. 여기에는 관계형 키가 있으며 미리 설계된 필드에 간단히 매핑할 수 있습니다. 오늘날 이러한 데이터는 개발 과정에서 가장 많이 처리되고 정보를 처리하는 가장 간단한 방법입니다.
- 반구조화된 데이터 − 반정형 데이터는 관계형 데이터베이스에 포함되지 않지만 분석하기 쉽게 만드는 여러 조직적 기능이 있는 데이터입니다. 일부 프로세스의 경우 관계형 데이터베이스에 저장할 수 있지만(일부 유형의 반구조화된 데이터에는 매우 어려울 수 있음) 반구조는 공간, 확실성 또는 계산을 용이하게 하기 위해 존재합니다.
- 구조화되지 않은 데이터 − 비정형 데이터는 데이터의 약 80%를 설명합니다. 텍스트 및 멀티미디어 콘텐츠가 포함되어 있습니다. 여기에는 이메일 메시지, 워드 프로세싱 파일, 비디오, 사진, 오디오 파일, 프레젠테이션, 웹페이지 및 여러 유형의 비즈니스 문서가 포함됩니다.