정보 검색(IR)은 수년 동안 데이터베이스 시스템과 함께 발전해 온 분야입니다. 구조화된 데이터의 쿼리 및 트랜잭션 처리를 대상으로 하는 데이터베이스 시스템 분야와 달리 정보 검색은 여러 텍스트 기반 문서에서 데이터의 구성 및 검색과 관련됩니다.
정보 검색 및 데이터베이스 시스템은 각각 다른 종류의 데이터를 처리하기 때문에 일부 데이터베이스 시스템 문제는 일반적으로 동시성 제어, 복구, 트랜잭션 관리 및 업데이트와 같은 정보 검색 시스템에 존재하지 않습니다. 구조화되지 않은 문서, 키워드를 기반으로 한 대략적인 검색, 관련성 개념과 같이 기존 데이터베이스 시스템에서 일반적으로 발생하지 않는 몇 가지 일반적인 정보 검색 문제가 있습니다.
풍부한 텍스트 데이터로 인해 정보 검색은 여러 응용 프로그램을 발견했습니다. 온라인 도서관 카탈로그 시스템, 온라인 기록 관리 시스템, 현재 개발된 웹 검색 엔진을 비롯한 여러 정보 검색 시스템이 있습니다.
일반적인 데이터 검색 문제는 사용자의 쿼리에 따라 문서 세트에서 관련 문서를 찾는 것입니다. 이는 관련 레코드의 예가 될 수도 있지만 정보 요구를 정의하는 일부 키워드인 경우가 많습니다.
중고차 구매를 위한 데이터 찾기를 포함하여 사용자에게 임시(즉, 단기) 데이터가 필요할 때 가장 적합합니다. 사용자가 장기간 데이터를 필요로 하는 경우(예:연구원의 관심), 검색 시스템은 또한 해당 요소가 사용자의 데이터와 관련이 있는 것으로 판단되는 경우 새로 도착한 데이터 요소를 사용자에게 "푸시"하는 주도권을 가질 수 있습니다. 필요합니다.
텍스트 검색의 품질을 평가하기 위한 두 가지 기본 측정 방법은 다음과 같습니다. -
정밀도 − 이것은 쿼리와 실제로 관련이 있는 검색된 데이터의 백분율입니다(즉, "정확한" 응답). 공식적으로 다음과 같이 표시됩니다.
$$precision=\frac{|\left\{ 관련 \right\}\cap\left\{ 가져옴 \right\}|}{|\left\{ 가져옴 \right\}|}$$
기억 − 이것은 쿼리와 관련되고 실제로 검색된 레코드의 백분율입니다. 공식적으로 다음과 같이 표시됩니다.
$$recall=\frac{|\left\{ 관련 \right\}\cap\left\{ 검색됨 \right\}|}{|\left\{ 관련 \right\}|} $$
정보 검색 시스템은 정밀도와 리콜을 절충하거나 그 반대의 경우도 종종 필요합니다. 일반적으로 사용되는 절충안 중 하나는 F-점수이며, 이는 재현율과 정밀도의 조화 평균으로 표시됩니다. -
$$F\underline{}score=\frac{recall \times precision }{(recall+precision)^{2}}$$
하모닉이란 한 소절을 다른 소절을 위해 너무 많이 희생하는 문제 시스템을 의미합니다. 정밀도, 재현율 및 F-점수는 검색된 레코드 모음의 기본 측정값입니다. 이 세 가지 측정값은 검색된 세트에 있는 문서의 내부 순위에 민감하지 않기 때문에 일반적으로 순위가 매겨진 두 파일 목록을 비교하는 데 유용하지 않습니다.