웹 검색 엔진이란 무엇입니까?

<시간/>

웹 검색 엔진은 웹에서 데이터를 검색하는 특수 컴퓨터 서버입니다. 사용자 쿼리의 검색 결과는 목록(적중이라고 함)으로 복원됩니다. 조회수에는 웹페이지, 이미지 및 다양한 유형의 파일이 포함될 수 있습니다.

다양한 검색 엔진이 공개 데이터베이스 또는 공개 디렉토리에서 사용할 수 있는 데이터를 검색하고 반환합니다. 검색 엔진은 웹 디렉토리가 사람 편집자가 지원하는 반면 검색 엔진은 알고리즘 방식으로 또는 알고리즘과 사람 입력의 조합으로 작동한다는 점에서 웹 디렉토리와 다릅니다.

웹 검색 엔진은 대규모 데이터 마이닝 응용 프로그램입니다. 검색 엔진의 모든 요소에는 크롤링(예:크롤링해야 하는 페이지 및 크롤링 빈도 결정), 인덱싱(예:인덱싱할 페이지 선택 및 인덱싱해야 하는 범위 결정)에 이르기까지 여러 데이터 마이닝 기술이 사용됩니다. 구성) 및 검색(예:페이지 순위 지정 방법, 추가해야 하는 광고, 검색 결과를 사용자 정의하거나 "컨텍스트 인식" 생성 방법 결정).

검색 엔진의 매너리즘은 데이터 마이닝에 큰 도전입니다. 첫째, 그들은 점점 더 많은 양의 데이터를 관리해야 합니다. 일반적으로 이러한 데이터는 여러 대의 기계를 사용하여 처리할 수 없습니다. 대신 검색 엔진은 대량의 정보를 공동으로 마이닝하는 수천 또는 수십만 대의 컴퓨터를 포함하는 컴퓨터 클라우드를 사용해야 합니다. 컴퓨터 클라우드 및 고도로 분산된 데이터 세트를 통해 데이터 마이닝 접근 방식을 확장하는 것은 연구를 위한 응용 프로그램입니다.

둘째, 웹 검색 엔진은 온라인 기록을 처리해야 합니다. 검색 엔진은 대규모 데이터 세트에서 오프라인으로 모델을 구축할 수 있습니다. 쿼리 주제를 기반으로 미리 정의된 요소에 대한 검색 쿼리를 생성하는 쿼리 분류기를 만들 수 있습니다. 모델이 오프라인에서 구축되든 온라인 모델의 소프트웨어는 실시간으로 사용자 쿼리를 신속하게 해결해야 합니다.

또 다른 과제는 빠르게 증가하는 데이터 스트림에서 모델을 지원하고 점진적으로 새로 고치는 것입니다. 예를 들어, 새로운 쿼리가 계속 증가하고 사전 정의된 요소와 데이터 분포가 변경될 수 있기 때문에 쿼리 분류기는 지속적으로 점진적으로 유지 관리해야 할 수 있습니다. 현재 일부 모델 학습 방법은 오프라인 및 정적이므로 이러한 방법에서 사용할 수 없습니다.

셋째, 웹 검색 엔진은 적은 수의 질문만 처리해야 합니다. 컨텍스트 인식 쿼리 명령을 지원하기 위해 검색 엔진이 필요하다고 가정합니다. 사용자가 쿼리를 제기하면 검색 엔진은 고객 프로필과 쿼리 기록을 사용하여 쿼리 컨텍스트를 유추하여 1초 미만의 짧은 시간 내에 더 맞춤화된 답변을 반환하려고 시도합니다.