다음과 같은 링크 마이닝의 몇 가지 작업이 있습니다 -
-
링크 기반 개체 분류 − 전통적인 분류 접근 방식에서는 객체를 정의하는 속성에 따라 객체를 분류합니다. 링크 기반 분류는 개체의 범주가 속성뿐만 아니라 링크 및 연결된 개체의 속성에 따라 달라지는 것으로 예측합니다.
웹 페이지 분류는 링크 기반 분류의 잘 알려진 사례입니다. 단어 모양(페이지에 나타나는 단어)과 앵커 텍스트(하이퍼링크 단어, 즉 링크를 클릭할 수 있을 때 클릭할 수 있는 단어)를 기반으로 웹 페이지의 분류를 예측합니다. 속성으로. 또한 분류는 페이지 간의 링크와 페이지 및 링크의 서로 다른 속성에 따라 다릅니다.
-
객체 유형 예측 − 이것은 속성과 링크, 연결된 개체의 속성에 따라 개체의 유형을 예측합니다. 서지 영역에서 출판의 장소 유형을 회의, 저널 또는 워크샵으로 예측해야 할 수 있습니다. 연결 영역에서 동일한 작업은 연결 연락처가 이메일인지, 전화 통화인지, 메일인지 예측하는 것입니다.
-
링크 유형 예측 − 포함된 개체의 속성에 따라 링크의 유형 또는 목표를 예측합니다. 예를 들어 역학 데이터가 주어지면 서로를 이해하는 두 사람이 가족인지, 직장 동료인지, 지인인지 예측할 수 있습니다.
-
링크 존재 예측 − 두 객체 사이에 연결이 존재한다는 것을 이해할 수 있고 그 유형을 예측해야 하는 링크 유형 예측과 달리 두 객체 사이에 링크가 있는지 여부를 예측할 수 있습니다. 예에는 두 웹 페이지 사이에 링크가 있는지 여부와 한 논문이 다른 논문을 인용할지 여부를 예측하는 것이 포함됩니다.
-
링크 카디널리티 추정 − 링크 카디널리티 추정에는 두 가지 형태가 있습니다. 첫째, 개체에 대한 링크 수를 예측할 수 있습니다. 이는 예를 들어 링크 수(인링크)에 따라 웹 페이지의 권위를 예측하는 데 유용합니다. 마찬가지로, 여러 아웃링크를 사용하여 허브 역할을 하는 웹 페이지를 인식할 수 있습니다. 여기서 허브는 동일한 경우의 여러 신뢰할 수 있는 페이지를 가리키는 하나 또는 웹 페이지 집합입니다.
-
객체 조정 − 객체 조정에서 기능은 속성과 링크를 기반으로 두 객체가 문자 그대로 동일한지 여부를 예측하는 것입니다. 이 기능은 정보추출, 중복제거, 객체통일, 인용연결에 공통적으로 사용되며, 기록연계 또는 신원불확실성이라고도 한다.