MBR의 요소는 무엇입니까?

<시간/>

MBR에는 다음과 같은 다양한 요소가 있습니다. -

훈련 세트 선택 − 교육 세트에는 49,652개의 뉴스 기사가 포함되었으며 이 목표를 위해 뉴스 검색 서비스가 지원했습니다. 이 이야기는 약 3개월간의 뉴스와 거의 100개에 달하는 다양한 출처에서 나타납니다.

각 이야기에는 평균 2,700개의 단어가 포함되어 있고 8개의 코드가 생성되었습니다. 훈련 세트는 특별히 생성되지 않았기 때문에 훈련 세트의 코드 빈도는 크게 달라져 일반적으로 뉴스 기사의 전체 코드 빈도를 모방했습니다.

거리 함수 선택 − 다음 단계는 거리 함수를 선택하는 단계입니다. 이 방법에서 존재하는 거리 함수는 포함된 단어를 기반으로 두 파일의 유사성을 계산하는 관련성 피드백이라는 개념에 의존합니다. 사이드바에 더 자세히 정의된 관련성 피드백은 검색을 구체화하는 방법으로 주어진 문서와 유사한 파일을 반환하기 위해 만들어졌습니다. 동일한 파일이 MBR에 사용되는 인접 파일입니다.

조합 기능 선택 − 다음 결정은 조합 함수입니다. 뉴스 기사에 분류 코드를 생성하는 것은 대부분의 분류 문제와 다릅니다. 일부 분류 문제는 단일 최상의 솔루션으로 보고 있습니다. 그러나 뉴스 기사에는 동일한 요소의 코드가 여러 개 있을 수 있습니다. MBR을 이 문제에 적용할 수 있는 능력은 유연성을 강조합니다.

결합 함수에는 가중 합산 접근 방식이 필요합니다. 최대 거리가 1이었기 때문에 가중치는 쉽게 1에서 거리를 뺀 값이었습니다. 따라서 거리가 먼 이웃에게는 가중치가 클 수 있고 먼 거리에 있는 이웃에게는 작을 수 있습니다.

이웃 수 선택 − 조사는 1과 11을 포함하여 최근접이웃의 수를 다양화합니다. 더 많은 이웃을 사용할 때 최상의 결과가 나타납니다. 그러나 이 사례 연구는 각 스토리에 여러 범주를 생성한다는 점에서 MBR의 여러 응용 프로그램과 다릅니다. 일반적인 문제는 개별 범주 또는 코드만 생성하고 최상의 결과를 얻으려면 더 적은 수의 이웃이 적절하다는 것입니다.

코딩에 대한 MBR의 효과를 계산할 수 있으며 뉴스 서비스는 편집자 위원회가 편집자 또는 MBR에 의해 200개의 기사에 할당된 일부 코드를 검토하도록 했습니다. 패널의 대다수가 동의한 일부 코드가 "올바른" 것으로 취급되었습니다.

"올바른" 코드와 인간 편집자가 처음 만든 코드를 비교하는 것은 흥미로웠습니다. (인간에 의해) 스토리에 처음 생성된 코드의 88%는 정확했지만 인간 편집자는 실수를 했습니다.