Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Pandas 시리즈에서 유효한 이메일을 필터링하기 위해 정규식(Regex)을 사용하는 방법은 무엇입니까?

<시간/>

정규식은 검색 패턴을 정의하는 일련의 문자입니다. 이 프로그램에서는 이러한 정규식을 사용하여 유효한 이메일과 잘못된 이메일을 필터링합니다.

다른 이메일로 Pandas 시리즈를 정의하고 어떤 이메일이 유효한지 확인할 것입니다. 또한 정규식을 위해 사용되는 re라는 파이썬 라이브러리를 사용할 것입니다.

알고리즘

Step 1: Define a Pandas series of different email ids.
Step 2: Define a regex for checking validity of emails.
Step 3: Use the re.search() function in the re library for checking the validity of the email.

예시 코드

import pandas as pd
import re

series = pd.Series(['[email protected]', 'hellowolrd.com'])
regex = '^[a-z0-9]+[\._]?[a-z0-9]+[@]\w+[.]\w{2,3}$'
for email in series:
   if re.search(regex, email):
      print("{}: Valid Email".format(email))
   else:
      print("{} : Invalid Email".format(email))

출력

[email protected]: Valid Email
hellowolrd.com : Invalid Email

설명

정규식 변수에는 다음 기호가 있습니다.

  • ^ :문자열의 시작을 위한 앵커
  • [ ] :여는 대괄호와 닫는 대괄호는 단일 문자와 일치하도록 문자 클래스를 정의합니다.
  • \ :이스케이프 문자
  • . :점은 개행 기호를 제외한 모든 문자와 일치합니다.
  • {} :여는 중괄호와 닫는 중괄호는 범위 정의에 사용됩니다.
  • $ :달러 기호는 문자열 끝의 앵커입니다.