영국 척척석사 유학생 일기장👩🏻‍🎓

(데이터분석) 파이썬 BeautifulSoup으로 웹 페이지 스크래핑하기 본문

코딩공부/Data analysis

(데이터분석) 파이썬 BeautifulSoup으로 웹 페이지 스크래핑하기

life-of-nomad 2024. 5. 13. 10:11
728x90
반응형
웹사이트에서 데이터에 액세스하기 어려울때, 코드를 사용하는 웹 스크래핑을 통해서 데이터를 추출해보겠습니다. 웹사이트 데이터는 태그를 사용해 페이지의 구조를 지정하는 하이퍼텍스트 마크업 언어(HyperText Markup Language, HTML)로 작성됩니다. 구문 분석기를 사용하여 액세스할 수 있습니다. BeautifulSoup를 사용하면 더욱 편리합니다.

* BeautifulSoup : 파이썬 언어로 작성된 HTML 구문 분석기

1) BeautifulSoup 라이브러리 불러오기

 

2) language_of_flowers.html 을 fp라는 파일 객체로 열기

3) Beautiful 생성자에 전달하고 그 결과를 flower_soup 변수에 할당하기

 

4) flower_soup 결과 확인하기

 

 

5) prettify 메서드 사용해서 줄바꿈해서 깔끔하게 정리

 

 

6) find 메서드 사용해서 title 추출하기

 

7) 태그 빼고 내용만 확인하기

  • 앞의 결과에 대해.text를 사용한 다음
  • .strip()으로 텍스트 전후의 공백 지우기

 

8) 업로드한 사람의 사용자 이름 확인하기

  • find 함수 이용해 태그 유형 a로 설정하기
  • 태그 클래스 class = item-upload-info_uploader-name으로 지정하기
  • 출력된 결과에 .text 적용하기
  • 사용자명 hank_b 반환됨

 

9) 한 번에 여러개 항목 찾기

  • 클래스가 collection-item 인 a 태그 사이의 텍스트 반환하기
  • find_all 메서드 사용 : 찾으려는 태그를 a, 클래스를 collection-item으로 지정하기
  • 리스트 반환됨

  • 반복문을 활용해 리스트의 각 항목 출력하고 각각에 .text 적용하기

 

728x90
반응형