영국 척척석사 유학생 일기장👩🏻‍🎓

(데이터분석) 파이썬의 glob 라이브러리 사용하여 텍스트파일 읽기 본문

코딩공부/Data analysis

(데이터분석) 파이썬의 glob 라이브러리 사용하여 텍스트파일 읽기

life-of-nomad 2024. 5. 10. 11:35
728x90
반응형
이 글에서는 지난 글에서 저장한 폴더 안에 있는 영화 평론 텍스트파일을 읽어보겠습니다
파이썬의 glob라이브러리를 사용해서 각 파일을 한 줄씩 읽어들여서 파일의 제목, URL, 본문을 추출하고 Pandas DataFrame에 저장해보겠습니다.

 

 

(데이터분석) 파이썬의 requests 라이브러리 이용하여 파일 다운로드하기

requests 라이브러리로 파일 다운로드하기1) requrests 와 os 불러오기 2) 다운로드한 파일을 저장할 디렉터리 만들기os.path.exist : 파일 경로가 존재하는지 확인if not : 존재하지 않을 때만 디렉터리 만

life-of-nomad.tistory.com

 

지난 글에서 저장한 디렉터리를 먼저 보겠습니다.

각 txt 파일을 더블 클릭해서 열어보면 아래와 같습니다.

첫번째 줄은 제목, 두번째 줄은 URL, 세번째 줄은 평론 텍스트입니다.

 

1) glob 모듈 불러오기

  • pandas와 파이썬에 내장된 glob 모듈을 불러오기
  • glob : Unix 스타일의 경로명 패턴 확장을 지원하는 라이브러리
  • glob.glob : glob패턴을 사용해 임의의 길이의 문자열을 나타내는 * 등의 와일드카드 문자를 활용해 특정 패턴에 맞는 여러 개의 파일 이름을 한 번에 지정할 수 있음

2) 코드 작성하기

  • 디렉터리 내의 각 파일에 담긴 정보를 저장할 text_list라는 이름의 빈 리스트 만들기
  • for 문으로 각 파일에 대해 같은 작업 반복하기 : glob.glob
  • with open(ebert_review, encoding='utf-8') as file 로 텍스트 파일 열기 (매개변수 open, encoding 함께 사용해서 유니코드 올바르게 해독할 것)
  • title = file.readline()[:-1] : file.readline()을 통해 텍스트를 한 줄씩 추출한 다음 title 뒤에 존재하는 작은 화이트스페이스를 [:-1]을 통해 문자열의 끝 부분을 잘라냄
  • review_url = file.readline()[:-1] : 마찬가지 방법으로 두번째 줄 읽고 마지막 화이트스페이스(개행 문자) 제거
  • review_text = file.read()함수로 파일의 나머지 부분 읽기
  • title, review_url, review_text를 딕셔너리 리스트에 추가한 다음 적절한 이름 붙이기 => 모든 파일에 대해 같은 절차 반복
  • text_list 를 df라는 Pandas DaraFrame으로 변환하기

3) 앞부분만 확인해보기

728x90
반응형