소개...
구조화된 문자열에서 필수 데이터/필드를 추출하는 몇 가지 방법을 보여 드리겠습니다. 이러한 접근 방식은 입력 구조의 형식이 알려진 형식인 경우 도움이 됩니다.
그것을 하는 방법..
1. 접근 방식을 이해하기 위해 하나의 더미 형식을 만들어 보겠습니다.
Report: <> - Time: <> - Player: <> - Titles: - Country: <>
보고서:Daily_Report - 시간:2020-10-16T01:01:01.000001 - 선수:페더러 - 타이틀:20 - 국가:스위스
report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland'
2. 보고서에서 가장 먼저 눈에 띄는 것은 구분 기호가 "-"인 것입니다. 계속해서 보고서를 "-"로 구문 분석하겠습니다.
fields = report.split(' - ') name, time, player , titles, _ = fields print(f"Output \n *** The report name {name} generated on {time} has {titles} titles for {player}. ")
출력
*** The report name Report: Daily_Report generated on Time: 2020-10-10T12:30:59.000000 has Titles: 20 titles for Player: Federer.
3. 이제 필요하지 않은 Report:, Time:, Player:와 같은 일부 레이블을 볼 수 있는 것처럼 이제 출력이 예상대로 되지 않습니다.
# extract only report name formatted_name = name.split(':')[1] # extract only player formatted_player = player.split(':')[1] # extract only titles formatted_titles = int(titles.split(':')[1]) # extract only titles new_time = time.split(': ')[1] print(f"Output \n {formatted_name} , {new_time}, {formatted_player} , {formatted_titles}")
출력
Daily_Report , 2020-10-10T12:30:59.000000, Federer , 20
4. 이제 타임스탬프가 ISO 형식이므로 원하는 경우 분할하거나 그대로 둘 수 있습니다. 타임스탬프 필드를 분할하는 방법을 보여드리겠습니다.
from datetime import datetime formatted_date = datetime.fromisoformat(new_time) print(f"Output \n{formatted_date}")
출력
2020-10-10 12:30:59
-
이제 이 모든 단계를 단일 함수로 결합합니다.
def parse_function(log): """ Function : Parse the given log in the format Report: <> - Time: <> - Player: <> - Titles: - Country: <> Args : log Return : required data """ fields = log.split(' - ') name, time, player , titles, _ = fields # extract only report name formatted_name = name.split(':')[1] # extract only player formatted_player = player.split(':')[1] # extract only titles formatted_titles = int(titles.split(':')[1]) # extract only titles new_time = time.split(': ')[1] return f"{formatted_name} , {new_time}, {formatted_player} , {formatted_titles}" if __name__ == '__main__': report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland' data = parse_function(report) print(f"Output \n{data}")
출력
Daily_Report , 2020-10-10T12:30:59.000000, Federer , 20
6. parse 모듈을 사용하여 좀 더 간단하게 만들 수 있습니다. 보시다시피 형식은 템플릿을 만듭니다. 우리는 이것을 좀 더 쉽게 하기 위해 parse 모듈을 사용할 수 있습니다.
먼저 pip install parse
로 parse 모듈을 설치합니다.from parse import parse report = 'Report: Daily_Report - Time: 2020-10-10T12:30:59.000000 - Player: Federer - Titles: 20 - Country: Switzerland' # Looking at the report, create a template template = 'Report: {name} - Time: {time} - Player: {player} - Titles: {titles} - Country: {country}' # Run parse and check the results data = parse(template, report) print(f"Output \n{data}")
출력
<Result () {'name': 'Daily_Report', 'time': '2020-10-10T12:30:59.000000', 'player': 'Federer', 'titles': '20', 'country': 'Switzerland'}>
7. 간단한 하나의 라이너로 템플릿을 정의하여 로그에서 데이터를 추출할 수 있습니다. 이제 개별 값을 추출해 보겠습니다.
print(f"Output \n {data['name']} - {data['time']} - {data['player']} - {data['titles']} - {data['country']}")
출력
Daily_Report - 2020-10-10T12:30:59.000000 - Federer - 20 - Switzerland
결론:
로그 파일에서 필요한 데이터를 구문 분석하는 몇 가지 방법을 보았습니다. 템플릿을 정의하고 구문 분석 모듈을 사용하여 필요한 데이터를 추출하는 것을 선호합니다.