정규식은 검색 패턴을 정의하는 일련의 문자입니다. 이 프로그램에서는 이러한 정규식을 사용하여 유효한 이메일과 잘못된 이메일을 필터링합니다.
다른 이메일로 Pandas 시리즈를 정의하고 어떤 이메일이 유효한지 확인할 것입니다. 또한 정규식을 위해 사용되는 re라는 파이썬 라이브러리를 사용할 것입니다.
알고리즘
Step 1: Define a Pandas series of different email ids. Step 2: Define a regex for checking validity of emails. Step 3: Use the re.search() function in the re library for checking the validity of the email.
예시 코드
import pandas as pd import re series = pd.Series(['[email protected]', 'hellowolrd.com']) regex = '^[a-z0-9]+[\._]?[a-z0-9]+[@]\w+[.]\w{2,3}$' for email in series: if re.search(regex, email): print("{}: Valid Email".format(email)) else: print("{} : Invalid Email".format(email))
출력
[email protected]: Valid Email hellowolrd.com : Invalid Email
설명
정규식 변수에는 다음 기호가 있습니다.
- ^ :문자열의 시작을 위한 앵커
- [ ] :여는 대괄호와 닫는 대괄호는 단일 문자와 일치하도록 문자 클래스를 정의합니다.
- \ :이스케이프 문자
- . :점은 개행 기호를 제외한 모든 문자와 일치합니다.
- {} :여는 중괄호와 닫는 중괄호는 범위 정의에 사용됩니다.
- $ :달러 기호는 문자열 끝의 앵커입니다.