Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

집중된 웹 크롤러란 무엇입니까?

<시간/>

집중 웹 크롤러는 웹의 비교적 좁은 부분을 정의하는 특정 주제 세트에 대한 페이지를 조사, 획득, 색인화 및 지원하는 하이퍼텍스트 시스템입니다. 하드웨어와 웹 리소스에 아주 적은 투자가 필요하지만 할 일이 상대적으로 적기 때문에 빠른 속도로 상당한 범위를 관리합니다.

집중 웹 크롤러는 주제 분류에 포함된 예에서 관련성을 식별하는 방법을 학습하는 분류기와 인터넷에서 주제별 유리한 지점을 인식하는 증류기에 의해 수행됩니다.

집중 웹 크롤러는 수직 검색 엔진을 사용하여 대상 주제와 관련된 웹 페이지를 크롤링합니다. 가져온 각 페이지는 미리 정의된 대상 주제로 분류됩니다. 페이지가 주제와 관련이 있을 것으로 예상되면 해당 링크가 추출되어 URL 대기열에 추가됩니다.

그렇지 않으면 이 페이지에서 크롤링 프로세스가 진행되지 않습니다. 이러한 종류의 집중 웹 크롤러는 전체 페이지 콘텐츠를 분류하기 때문에 "전체 페이지" 중심 웹 크롤러로 알려져 있습니다. 다른 말로 하면 페이지에 있는 모든 연결의 컨텍스트는 전체 페이지 콘텐츠 자체입니다.

이러한 종류의 웹 크롤러는 인덱싱을 보다 효과적으로 직접 생성하여 World Wide Web의 거대한 리포지토리에서 더 빠르고 관련성 높은 데이터 검색의 기본 요구 사항을 달성하는 데 도움을 줍니다. 여러 검색 엔진이 이 방법을 사용하여 사용자에게 보다 풍부한 경험을 제공하는 동시에 웹 콘텐츠를 생성하여 조회수를 직접 증가시키기 시작했습니다.

크롤러 관리자는 하이퍼텍스트 분석기를 따르는 시스템의 중요한 요소입니다. 구성 요소는 글로벌 웹에서 파일을 다운로드합니다. URL 저장소의 URL이 복구되어 크롤러 관리자의 버퍼에 생성됩니다.

URL 버퍼는 우선 순위 대기열입니다. URL 버퍼의 크기에 따라 다르며 크롤러 관리자는 파일을 다운로드할 크롤러에 대한 인스턴스를 동적으로 생성합니다. 효율성을 높이기 위해 크롤러 관리자는 크롤러 풀을 생성할 수 있습니다. 관리자는 또한 크롤러의 속도를 제한하고 크롤러 간의 로드 균형을 조정할 책임이 있습니다. 이것은 크롤러를 검사하여 완료됩니다.

크롤러는 다중 스레드 Java 코드로, 인터넷에서 웹 페이지를 다운로드하고 문서 저장소에 파일을 저장하는 데 적합합니다. 모든 크롤러에는 크롤링할 URL 파일에 영향을 주는 대기열이 있습니다. 크롤러가 대기열에서 URL을 복구했습니다.

다른 크롤러는 동일한 서버에 대한 요청을 공유했을 것입니다. 그렇다면 유사한 서버에 요청을 보내면 서버에 과부하가 걸립니다. 서버는 요청을 공유하고 응답을 기다리는 크롤러로부터 나타나야 하는 요청을 완료하는 데 활성 상태입니다.