Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

파이썬 유니코드 데이터베이스

<시간/>

unicodedata 모듈은 유니코드 문자 데이터베이스를 사용하여 모든 유니코드 문자에 액세스하는 데 사용됩니다. 이 데이터베이스에는 모든 캐릭터의 캐릭터 속성이 있습니다.

이 모듈을 사용하려면 유니코드 데이터를 가져와야 합니다. 코드의 모듈입니다.

import unicodedata

유니코드 데이터베이스 방법

unicodedata 모듈의 일부 모듈은 여기에 설명되어 있습니다.

모듈(unicodedata.lookup(이름)) -

이 방법은 이름으로 문자를 조회하는 데 사용됩니다. 이름이 유효하면 문자를 반환해야 합니다. 그렇지 않으면 KeyError가 발생합니다.

모듈(unicodedata.name(chr[, default]))-

이 메서드는 주어진 문자의 이름을 문자열로 반환하는 데 사용됩니다. 기본값이 주어지면 데이터베이스에 문자가 없을 때 기본값을 반환할 수 있습니다. 그렇지 않으면 ValueError가 발생합니다.

모듈(unicodedata.digit(chr[, 기본값])) -

이 메소드는 주어진 문자의 정수 숫자를 리턴하는 데 사용됩니다. 기본값이 주어지면 데이터베이스에 문자가 없거나 올바른 방식이 아닐 때 기본값을 반환할 수 있습니다. 그렇지 않으면 ValueError가 발생합니다.

모듈(unicodedata.category(chr)) -

이 메서드는 문자에 할당된 일반 범주를 반환하는 데 사용됩니다. 문자의 경우 'L', 대문자의 경우 'u', 여는 괄호의 경우 P(구두점 시작) 등을 반환합니다.

모듈(unicodedata.mirrored(chr))-

이 메소드는 캐릭터에 미러링된 캐릭터가 있는지 여부를 확인하는 데 사용됩니다. 일부 문자에는 '(' 및 ')' 등과 같은 미러 문자가 있습니다. 미러 문자와 일치하면 1을 반환하고 그렇지 않으면 0을 반환합니다.

예시 코드

import unicodedata as ud
print(ud.lookup('ASTERISK'))
print(ud.lookup('Latin Capital letter G'))

#The Unicode name from the characters
print(ud.name(u'x'))
print(ud.name(u'°'))

#The Unicode character to decimal and numerics
print(ud.decimal(u'6'))
print(ud.numeric(u'9'))

#The Unicode character categoty
print(ud.category(u'A'))
print(ud.category(u'9'))
print(ud.category(u'[')) #Punctuation Start

#Unicode character to check whether mirrored or not
print(ud.mirrored(u'A'))
print(ud.mirrored(u'<'))

출력

*
G
LATIN SMALL LETTER X
DEGREE SIGN
6
9.0
Lu
Nd
Ps
0
1