반응형
250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 윈도우함수
- 영국석사
- SQL
- 판다스
- matplotlib
- 코드잇
- 경사하강법
- HTML
- 코드잇 TIL
- 코딩독학
- 선형회귀
- 로지스틱회귀
- 다항회귀
- 유학생
- 코드잇TIL
- Seaborn
- 오늘도코드잇
- 머신러닝
- 데이터분석
- sql연습문제
- 나혼자코딩
- 코딩
- 파이썬
- 런던
- numpy
- 결정트리
- for반복문
- CSS
- 코딩공부
- 행렬
Archives
- Today
- Total
영국 척척석사 유학생 일기장👩🏻🎓
(데이터분석) 파이썬의 glob 라이브러리 사용하여 텍스트파일 읽기 본문
728x90
반응형
이 글에서는 지난 글에서 저장한 폴더 안에 있는 영화 평론 텍스트파일을 읽어보겠습니다
파이썬의 glob라이브러리를 사용해서 각 파일을 한 줄씩 읽어들여서 파일의 제목, URL, 본문을 추출하고 Pandas DataFrame에 저장해보겠습니다.
지난 글에서 저장한 디렉터리를 먼저 보겠습니다.
각 txt 파일을 더블 클릭해서 열어보면 아래와 같습니다.
첫번째 줄은 제목, 두번째 줄은 URL, 세번째 줄은 평론 텍스트입니다.
1) glob 모듈 불러오기
- pandas와 파이썬에 내장된 glob 모듈을 불러오기
- glob : Unix 스타일의 경로명 패턴 확장을 지원하는 라이브러리
- glob.glob : glob패턴을 사용해 임의의 길이의 문자열을 나타내는 * 등의 와일드카드 문자를 활용해 특정 패턴에 맞는 여러 개의 파일 이름을 한 번에 지정할 수 있음
2) 코드 작성하기
- 디렉터리 내의 각 파일에 담긴 정보를 저장할 text_list라는 이름의 빈 리스트 만들기
- for 문으로 각 파일에 대해 같은 작업 반복하기 : glob.glob
- with open(ebert_review, encoding='utf-8') as file 로 텍스트 파일 열기 (매개변수 open, encoding 함께 사용해서 유니코드 올바르게 해독할 것)
- title = file.readline()[:-1] : file.readline()을 통해 텍스트를 한 줄씩 추출한 다음 title 뒤에 존재하는 작은 화이트스페이스를 [:-1]을 통해 문자열의 끝 부분을 잘라냄
- review_url = file.readline()[:-1] : 마찬가지 방법으로 두번째 줄 읽고 마지막 화이트스페이스(개행 문자) 제거
- review_text = file.read()함수로 파일의 나머지 부분 읽기
- title, review_url, review_text를 딕셔너리 리스트에 추가한 다음 적절한 이름 붙이기 => 모든 파일에 대해 같은 절차 반복
- text_list 를 df라는 Pandas DaraFrame으로 변환하기
3) 앞부분만 확인해보기
728x90
반응형
'코딩공부 > Data analysis' 카테고리의 다른 글
(데이터분석) 웹 페이지 스크래핑 연습문제 (0) | 2024.05.13 |
---|---|
(데이터분석) 파이썬 BeautifulSoup으로 웹 페이지 스크래핑하기 (0) | 2024.05.13 |
(데이터분석) 파이썬의 requests 라이브러리 이용하여 파일 다운로드하기 (0) | 2024.05.10 |
(데이터분석) 파이썬의 zipfile 이용하여 플랫파일 압축 해제하고 읽기 (0) | 2024.05.09 |
(데이터분석) Q1, Q3, 이상값 (1) | 2023.06.17 |