Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

허브 페이지를 사용하여 신뢰할 수 있는 페이지를 찾으려면 어떻게 해야 합니까?

<시간/>

허브는 기관에 대한 링크 집합을 지원하는 웹 페이지 집합입니다. 허브 페이지는 눈에 띄지 않거나 이를 가리키는 링크가 있을 수 있습니다. 그러나 일반적인 주제에 대한 주요 사이트 집합에 대한 링크는 지원합니다.

이러한 페이지는 코스 홈 페이지의 추천 참조 사이트를 포함하여 단일 홈 페이지의 권장 연결 목록이거나 상업 사이트의 전문적으로 대량 리소스 문서일 수 있습니다. 허브 페이지는 대상 주제에 대해 암시적으로 권한을 부여하는 데 필수적인 역할을 합니다.

일반적으로 좋은 허브는 여러 좋은 기관을 가리키는 페이지입니다. 좋은 권한은 여러 좋은 허브가 가리키는 페이지입니다. 허브와 기관 간의 이러한 상호 강화 관계는 신뢰할 수 있는 웹 페이지의 마이닝과 고품질 웹 아키텍처 및 리소스의 자동 검색을 지원합니다.

HITS(Hyperlink-Induced Topic Search)로 알려진 허브를 활용한 알고리즘은 다음과 같이 생성되었습니다. 첫째, HITS는 인덱스 기반 검색 엔진에서 200페이지의 시작 집합을 수집하기 위해 쿼리 용어가 필요합니다. 이 페이지는 핵심 세트를 디자인합니다.

여러 페이지가 검색 주제와 관련이 있을 수 있으므로 일부 페이지에는 대부분의 저명한 기관에 대한 링크가 포함되어야 합니다. 따라서 코어 세트는 코어 세트 페이지가 링크되는 일부 페이지와 코어 세트의 페이지에 링크되는 일부 페이지를 포함하여 1,000~5,000페이지를 포함하는 지정된 크기 컷오프까지 기본 세트로 확장될 수 있습니다. (기본 세트에 포함됨).

둘째, 가중치 전파 프로세스가 시작됩니다. 이 반복 단계는 허브 및 권한 가중치의 통계적 추정치를 결정합니다. 유사한 웹 도메인을 가진 두 페이지 사이에 링크가 있습니다(즉, URL에서 동일한 첫 번째 수준 전송). 탐색 서비스 역할을 하므로 권한을 부여하지 않습니다. 이러한 링크는 가중치 전파 분석에서 승인되지 않습니다.

Google의 PageRank 알고리즘은 동일한 원칙에 따릅니다. 웹 링크 및 텍스트 컨텍스트 데이터를 탐색함으로써 이러한 시스템이 AltaVista와 같은 용어 색인 엔진 및 Yahoo!를 비롯한 인간 존재론자가 생성한 것보다 우수한 품질의 검색 결과를 얻을 수 있다는 것이 문서화되었습니다.

링크 분석 알고리즘은 다음 두 가지 가정에 따라 다릅니다. 첫째, 링크는 사람의 지지를 보냅니다. 페이지 A에서 페이지 B로 연결되는 링크가 있고 이 두 페이지가 여러 사람에 의해 작성되었다면 링크는 페이지 A의 작성자가 페이지 B가 가치 있다고 찾은 것을 사용합니다. 따라서 페이지의 중요성은 링크된 페이지로 높일 수 있습니다. 둘째, 특정 페이지와 함께 인용된 페이지는 동일한 주제와 연관될 가능성이 높습니다.