다음과 같은 집중 웹 크롤러의 다양한 구성 요소가 있습니다. -
종자 감지기 − Seed 감지기의 서비스는 처음 n개의 URL을 가져와서 명확한 키워드에 대한 시드 URL을 결정하는 것입니다. 시드 페이지는 PageRank 알고리즘이나 조회수 알고리즘 또는 이와 동일한 알고리즘에 따라 식별되고 우선 순위가 할당됩니다.
크롤러 관리자 − Crawler Manager는 Hypertext Analyzer를 따르는 시스템의 필수 구성 요소입니다. 구성 요소는 글로벌 웹에서 파일을 다운로드합니다. URL 저장소의 URL이 검색되어 크롤러 관리자의 버퍼에 생성됩니다.
URL 버퍼는 우선 순위 대기열입니다. URL 버퍼의 크기에 따라 다르며 Crawler Manager는 파일을 다운로드할 크롤러에 대한 인스턴스를 동적으로 생성합니다.
효율성을 높이기 위해 크롤러 관리자는 크롤러 풀을 생성할 수 있습니다. 관리자는 또한 크롤러의 속도를 제한하고 크롤러 간의 로드 균형을 조정할 책임이 있습니다. 이것은 크롤러를 검사하여 완료됩니다.
크롤러 − 크롤러는 다중 스레드 Java 코드로 웹에서 웹 페이지를 다운로드하고 문서 저장소에 파일을 저장하는 데 적합합니다. 모든 크롤러에는 크롤링할 URL 목록에 영향을 주는 대기열이 있습니다. 크롤러가 대기열에서 URL을 검색했습니다.
다른 크롤러는 유사한 서버에 대한 요청을 공유했을 것입니다. 따라서 유사한 서버에 요청을 보내면 서버에 과부하가 걸립니다. 서버는 요청을 공유하고 응답을 기다리는 크롤러로부터 나타나야 하는 요청을 완료하는 데 활성 상태입니다.
서버가 동기화되어 생성됩니다. URL에 대한 요청이 이전에 공유되지 않은 경우 요청이 HTTP 구조로 전달됩니다. 이렇게 하면 크롤러가 일부 서버에 과부하가 걸리지 않습니다.
링크 추출기 - 링크 추출기는 문서 저장소에 있는 파일에서 연결을 파생합니다. 구성 요소는 검색된 URL에 있는 URL을 테스트합니다. 발견되지 않으면 하이퍼링크 앞뒤의 주변 텍스트, 연결이 존재하는 표제 또는 부제목이 추출됩니다.
하이퍼텍스트 분석기 − Hypertext Analyzer는 Link Extractor에서 키워드를 가져오고 Taxonomy Hierarchy를 정의하는 검색 키워드와 메소드의 관련성을 발견합니다.
HTTP 프로토콜 모듈 − HTTP 프로토콜 모듈은 URL이 대기열에서 확인된 파일에 대한 요청을 공유합니다. 문서를 수신하면 다운로드된 문서의 URL이 타임스탬프와 함께 가져온 URL에 저장되고 문서가 문서 저장소에 저장됩니다.