Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

텍스트 마이닝 프로세스는 무엇입니까?

<시간/>

텍스트 마이닝은 텍스트 분석이라고도 합니다. 구조화되지 않은 텍스트를 구조화된 데이터로 변환하여 쉽게 분석하는 과정입니다. 텍스트 마이닝에는 자연어 처리(NLP)가 필요하므로 기기가 인간의 언어를 학습하고 자동으로 처리할 수 있습니다.

표준 언어 텍스트에서 필수 데이터를 추출하는 프로세스로 정의됩니다. 문자 메시지, 문서, 이메일, 파일을 통해 생성하는 일부 데이터는 공통 언어 텍스트로 작성됩니다. 텍스트 마이닝은 일반적으로 이러한 데이터에서 유익한 통찰력이나 패턴을 끌어내는 데 사용됩니다.

텍스트 마이닝은 자연어 처리를 사용하여 구조화되지 않은 텍스트에서 가치 있는 비전을 도출하는 자동 절차입니다. 데이터를 장치가 학습할 수 있는 정보로 변환할 수 있으며, 텍스트 마이닝은 감정, 주제 및 의도별로 텍스트를 분류하는 프로세스를 자동화합니다.

텍스트 마이닝 프로세스에는 다음과 같은 파일에서 데이터를 추출하는 다음 단계가 포함됩니다. -

문서 수집 − 첫 번째 단계에서는 여러 형식으로 존재하는 텍스트 문서가 수집됩니다. 문서는 pdf, word, html doc, css 등의 형식일 수 있습니다.

문서 사전 처리 − 이 과정에서 주어진 입력 문서는 중복, 불일치, 독립어, 형태소 분석 및 파일을 제거하기 위해 처리되어 다음 단계를 위해 준비되며 구현 단계는 다음과 같습니다. −

  • 토큰화 − 주어진 문서는 문자열로 처리되고 문서에서 단일 단어로 인식됩니다. 즉, 주어진 문서 문자열은 하나의 단위 또는 토큰으로 분할됩니다.

  • 중단어 제거 - 이 과정에서, a, but, and, of, 등과 같은 일정한 단어를 제거합니다.

  • 형태소 분석 − 어간은 비슷한 의미를 가진 자연스러운 단어 집합입니다. 이 접근 방식은 특정 단어의 기초를 정의합니다. 두 가지 유형의 방법이 굴절형 및 파생형 형태소 분석입니다. 형태소 분석의 유명한 알고리즘 중 하나는 문서가 사직서, 사직서, 사직서와 같은 단어와 관련된 경우 형태소 분석 방법을 사용하여 사직서로 처리하는 것과 같은 포터의 알고리즘입니다.

텍스트 변환 − 텍스트 문서는 단어(특징)와 그 모양의 집합입니다. 이러한 문서를 표현하는 방법에는 벡터 공간 모델(Vector Space Model)과 단어 가방(Bag of Words)이 있습니다.

기능 선택(속성 선택) − 이 접근 방식은 입력 문서에서 관련 없는 특성을 제거하여 낮은 데이터베이스 공간, 최소한의 검색 방법을 제공합니다.

데이터 마이닝/패턴 선택 − 이 과정에서 기존의 데이터 마이닝 프로세스와 텍스트 마이닝 프로세스가 결합됩니다. 구조화된 데이터베이스는 초기 단계에서 나온 고전적인 데이터 마이닝 기술을 용이하게 합니다.

평가 - 이 단계는 결과를 계산합니다. 이 결과 결과는 초점을 맞추거나 다음 시퀀스 세트에 사용할 수 있습니다.