텍스트 검색은 의미 있는 패턴과 새로운 통찰력을 식별하기 위해 구조화되지 않은 텍스트를 구조화된 형식으로 변환하는 프로세스입니다. Naive Bayes, SVM(Support Vector Machines) 및 기타 딥 러닝 알고리즘을 포함한 고급 분석 기술을 사용하여 조직은 구조화되지 않은 데이터 내부의 숨겨진 관계를 탐색하고 찾을 수 있습니다. 다음과 같은 두 가지 텍스트 검색 방법이 있습니다. -
문서 선택 − 문서 선택 방법에서 질의는 관련 문서를 선택하기 위한 제약 조건을 정의하는 것으로 간주됩니다. 이 범주의 일반적인 접근 방식은 문서가 일련의 키워드로 정의되고 사용자가 자동차 및 수리점, 차 또는 커피 또는 데이터베이스 시스템과 같은 키워드의 부울 표현식을 제공하지만 Oracle은 제공하지 않는 부울 검색 모델입니다. .
검색 시스템은 이러한 부울 쿼리를 사용하여 부울 표현식을 충족하는 레코드를 반환할 수 있습니다. Boolean 쿼리로 정확히 요구되는 사용자 데이터를 처방하는 것은 복잡하기 때문에 Boolean 검색 기술은 일반적으로 사용자가 문서 세트에 대해 많이 이해하고 이러한 방식으로 최상의 쿼리를 공식화할 수 있는 경우에만 잘 작동합니다.
문서 순위 − 문서 순위 지정 방법은 쿼리를 사용하여 적용 가능한 순서로 모든 레코드의 순위를 지정합니다. 일반 사용자 및 탐색 쿼리의 경우 이러한 기술이 문서 선택 방법보다 더 적합합니다. 대부분의 최신 데이터 검색 시스템은 사용자의 키워드 쿼리에 대한 응답으로 순위가 지정된 파일 목록을 제공합니다.
대수학, 논리, 확률 및 통계와 같은 수치적 기초의 거대한 스펙트럼을 기반으로 하는 몇 가지 순위 지정 방법이 있습니다. 이 모든 기술 뒤에 있는 공통적인 직관은 쿼리의 키워드를 레코드의 키워드와 연결하고 쿼리와 얼마나 잘 일치하는지에 따라 각 레코드의 점수를 매길 수 있다는 것입니다.
목표는 문서 및 전체 세트의 단어 빈도를 포함하는 정보에 따라 계산된 점수로 기록의 관련성 정도를 근사화하는 것입니다. 키워드 집합 간의 관련성 정도를 정확하게 측정하는 것은 본질적으로 어렵습니다. 예를 들어, 데이터 마이닝과 데이터 분석 사이의 거리를 수량화하는 것은 어렵습니다.
이 방법의 가장 인기 있는 접근 방식은 벡터 공간 모델입니다. 벡터 공간 모델의 기본 개념은 다음과 같습니다. 모든 키워드에 해당하는 고차원 공간에서 문서와 쿼리를 벡터로 나타낼 수 있으며 적절한 유사도 측정을 사용하여 쿼리 벡터와 레코드 벡터 간의 유사도를 평가할 수 있습니다. 그런 다음 유사성 값을 문서 순위 지정에 사용할 수 있습니다.