Google Ngram을 보다 효과적으로 사용하는 방법

언어 및 언어 연구는 특히 시간이 지남에 따라 단어가 사용되는 방식에 대한 데이터가 필요한 경우가 많습니다. 조사는 필수이지만 필요한 데이터를 제공할 수 있는 도구가 있는 것은 환영합니다. Google Ngram 뷰어는 Google 도서 라이브러리 전체에서 단어 동향을 빠르게 찾을 수 있는 좋은 방법입니다.

이 게시물에서는 Google Ngram을 더 효과적으로 사용하는 방법을 보여줍니다. 먼저 도구를 소개하겠습니다.

Google Ngram 소개

Google은 게시된 언어의 다국어 데이터베이스를 유지 관리합니다. 대량으로 책을 스캔함으로써 검색 대기업은 텍스트를 처리하고 단어의 빈도를 기반으로 한 통계를 제공할 수 있습니다.

Google Ngram Viewer 검색 도구를 사용하면 이 데이터를 검색할 수 있습니다. 단어의 상대적인 인기도를 비교하여 시간이 지남에 따라 언어와 문화가 어떻게 변했는지 매핑할 수 있습니다.

그러나 Google Ngram 도구는 다음에 설명하겠지만 단순히 단어 빈도를 보고하는 것 이상의 작업을 수행할 수 있습니다.

기본 검색 수행 방법

고급 "전술"에 들어가기 전에 기본 검색을 수행하는 방법을 살펴보겠습니다. Google Ngram 페이지에서 검색창에 키워드를 입력하십시오.

단어의 모든 대문자를 포함하려면 대소문자 구분 버튼을 선택하십시오. 이 검색에는 "기술" 및 "기술"이 포함됩니다.

검색 상자 아래에서 날짜 범위 및 "스무딩"과 같은 매개변수를 설정할 수도 있습니다. 후자의 값은 데이터에서 비정형 스파이크 및 딥을 제거합니다. 스무딩 값이 낮을수록 더 정확하지만 값이 높을수록 더 깊은 경향만 나타납니다.

"말뭉치" 선택 방법

말뭉치는 Ngram 뷰어가 검사할 텍스트 모음입니다. "영어"의 기본값은 캐주얼 브라우징에 허용되지만 매우 학문적일 수 있습니다.

"English Fiction"은 공통 언어를 보다 밀접하게 반영합니다. 표준 "영어" 말뭉치는 많은 기술적인 단어가 포함된 무거운 논픽션이 될 수 있습니다.

말뭉치 선택에 대한 더 깊은 의미는 이 기사의 범위를 벗어나지만 Google은 귀하에게 적합한 선택에 대한 간략한 통찰력을 제공합니다.

고급 검색 수행

추가 검색어를 사용하여 복잡한 비교를 작성할 수 있습니다. 이렇게 하려면 각 용어를 쉼표로 구분하십시오.

Ngram 뷰어는 검색어의 상대 빈도를 단일 그래프로 표시합니다. 여기에서 그래프의 선 위로 마우스를 가져가면 정확한 데이터 포인트를 볼 수 있습니다.

검색어에 별표를 와일드카드로 사용할 수도 있습니다. 예를 들어 "Bachelor of *"는 많은 학사 학위에 대한 결과를 반환합니다.

용어의 모든 어형을 찾으려면 "_INF" 수식어를 추가하세요.

단어에 품사가 많은 경우 텍스트 연산자를 사용하여 더 구체적으로 지정할 수 있습니다. Google 데이터베이스의 유효한 품사는 다음을 모두 포함합니다.

_ADJ_ :형용사 (빠르다, 크다, 똑똑하다)
_ADV_ :부사 (빨리, 나중에, 항상)
_PRON_ :대명사 (그들의, 그것, 우리)
_DET_ :한정사 또는 관사(a,,,)
_ADP_ :전치사(전치사와 후치)
_NUM_ :숫자(첫 번째, 두 번째, 다섯 번째)
_CONJ_ :접속사(and,nor, but)
_PRT_ :다른 단어 기능에 대해 거의 사용되지 않는 포괄적인 범주인 입자

이들 각각은 구문으로 결합될 수 있습니다. 예를 들어, "_ADJ_ boy"는 형용사와 "boy"에 대한 단어 쌍을 반환합니다.

하나의 검색어에 대해 특정 품사를 지정하려면 끝에 추가합니다. 예를 들어, 뒤에 밑줄이 없는 "water_VERB". 특정 단어의 품사를 모두 포함하려면 밑줄 다음에 와일드카드 연산자를 사용하세요.

기능 변수, 구성 및 종속성

기능 변수를 사용하면 기능 또는 단어 배치로 검색할 수 있습니다.

_ROOT_ 문장의 파스 트리 루트에 대한 자리 표시자입니다. 이것은 일반적으로 주요 주어 또는 동사에 의해 수정된 단어입니다.
_START_ 문장의 시작을 나타냅니다. ("_START_ 오바마 대통령"은 시작하는 문장만 반환합니다. "오바마 대통령"이라는 문구와 함께)
_END_ 문장의 끝을 나타냅니다. (“_ADP_ _END_”는 종료하는 문장을 반환합니다. 전치사에서.)

검색어를 산술 연산자와 결합하여 검색어 빈도 값으로 간단한 수학적 분석을 수행할 수 있습니다.

+ 하나의 검색어에 여러 표현식 추가
– 왼쪽 표현식에서 오른쪽 표현식을 빼서 두 검색어의 상대적 사용을 빠르게 비교할 수 있습니다.
/ 왼쪽 표현식을 오른쪽 표현식으로 나눕니다.
* 다양한 빈도의 ngram을 비교하기 위해 표현식을 곱합니다. 별표가 와일드카드 문자로 구문 분석되는 것을 방지하려면 전체 ngram을 괄호로 묶어야 합니다.
: (콜론)은 오른쪽 말뭉치 내에서 왼쪽의 ngram을 검색합니다.

마지막으로 "=>"를 사용하여 종속성을 설정하여 언어적 관계를 검색할 수 있습니다.

예를 들어, "car=>fast"는 "fast"가 문법적으로 "car"라는 단어에 종속되거나 수정된 결과를 반환합니다. 이것은 고급 검색 작업과 자유롭게 혼합할 수 있습니다.

결론

단어 경향 검색에는 많은 학문적 응용이 있습니다. 필요한 정보를 빠르게 찾는 방법은 Google의 Ngram 도구입니다. 좋은 소식은 기본 검색을 수행할 수 있다는 것입니다. 강력한 수식어를 적용하여 필요한 정보에 집중할 수 있습니다.

Google Ngram의 기능 중 어느 것도 내부에 있는 검색 엔진의 고급 꿀팁 없이는 불가능합니다. Google Ngram 도구의 기능에 깊은 인상을 받았습니까? 아래 댓글 섹션에 알려주세요!