Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

웹 마이닝에서 페이지 순위 알고리즘이란 무엇입니까?

<시간/>

PageRank는 인간의 관심에 주의하면서 객관적이고 기계적으로 웹 페이지를 평가하는 방법입니다. 웹 검색 엔진은 경험이 없는 클라이언트와 기존의 순위 서비스를 조작하는 페이지로 구성해야 합니다. 웹 페이지의 복제 가능한 특성을 계산하는 일부 평가 방법은 조작에 면역되지 않습니다.

작업은 웹의 하이퍼링크 구조를 활용하여 모든 웹 페이지의 글로벌 중요도 순위를 생성하는 것입니다. 이 순위를 PageRank라고 합니다.

웹의 메커니즘은 약 1억 5천만 개의 노드(웹 페이지)와 17억 개의 에지(하이퍼링크)가 있는 그래프에 의존합니다. 웹 페이지 A와 B가 페이지 C로 연결되면 A와 B를 C의 백링크라고 합니다. 일반적으로 링크가 높은 페이지가 더 중요합니다. 따라서 그들은 더 많은 백링크를 갖고 중요한 백링크의 양은 적습니다.

예를 들어, Yahoo의 개별 백링크가 있는 웹 페이지는 알 수 없거나 비공개 사이트의 여러 백링크가 있는 페이지보다 순위가 높아야 합니다. 백링크의 총 순위가 너무 크면 웹 페이지는 큰 순위를 갖게 됩니다.

다음은 PageRank의 단순화된 버전입니다. u, v를 웹 페이지라고 가정합니다. 그러므로 Bu를 u를 가리키는 페이지 그룹이라고 하자. 더욱이, Nv를 v로부터의 다중 링크라고 하자. c <1을 정규화에 대한 인자라고 하자. PageRank −

의 단순화된 해석인 간단한 순위 R을 설명할 수 있습니다.

$$\mathrm{R(u)\:=\:c\displaystyle\sum\limits_{u\in{Bu}}\frac{R(v)}{N_v}}$$

페이지의 순위는 순방향 연결 간에 균등하게 나누어 표시되는 페이지의 순위에도 제공됩니다. 방정식은 재귀적이지만 이 단순화된 함수에 문제가 있습니다.

두 웹 페이지가 서로를 가리키지만 다른 페이지는 가리키지 않고 다른 웹 페이지가 그 중 하나를 가리키면 반복 중에 루프가 생성됩니다. 이 루프는 순위를 수집하지만 순위를 공유하지 않습니다. 아웃에지가 없는 그래프의 루프에 의해 형성된 이 트랩을 순위 싱크라고 합니다.

페이지 순위 알고리즘은 데이터베이스의 모든 URL을 숫자로 변환하는 것으로 시작됩니다. 다음 단계는 웹 페이지를 인식하기 위해 정수 ID를 사용하여 각 하이퍼링크를 데이터베이스에 저장하는 것입니다. 부모 ID로 링크 구조를 정렬하고 댕글링 링크를 제거한 후 반복이 시작됩니다.

수렴 속도를 높이려면 최상의 초기 할당을 선택해야 합니다. 현재 시간 단계의 가중치는 메모리에 유지되고 이전 가중치는 선형 시간으로 디스크에서 액세스됩니다. 가중치가 수렴되면 댕글링 연결이 다시 삽입되고 순위가 다시 계산됩니다. 계산은 잘 수행되지만 수렴 기준을 완화하고 보다 효과적인 최적화 접근 방식을 사용하면 더 빠르게 수행할 수 있습니다.