가이드라인
실습
JavaScript 동적 데이터 와 크롤링의 한계
requests
와 BeautifulSoup
라이브러리는 변하지 않는 웹사이트, 즉 정적인 데이터를 크롤링하는 데에 사용됩니다.
하지만 최신 웹사이트들은 사용자와의 상호작용에 따라 데이터를 동적으로 처리합니다. 사용자는 서버에 추가적인 데이터를 요청하고, 서버로부터 받은 응답값을 웹 브라우저의 JavaScript가 처리하여 화면에 이를 표시합니다.
requests
라이브러리는 정적 HTML만을 가져올 수 있고, BeautifulSoup
은 가져온 HTML을 파싱하는 데에 사용됩니다.
JavaScript가 생성하거나 변경하는 데이터는 requests
로 가져올 수 있는 HTML에 포함되어 있지 않기 때문에, 기존 방식으로는 JavaScript로 처리한 데이터를 크롤링할 수 없습니다.
동적 데이터를 크롤링하는 방법?
하지만 Selenium
를 사용하면 실제로 웹 브라우저를 실행시키고, JavaScript가 실행된 후의 DOM을 크롤링할 수 있습니다.
이후 수업에서는 동적인 데이터를 처리하는 Selenium을 사용한 동적 웹 크롤링 기법과 API를 통한 데이터 수집 방법을 다루겠습니다.
(Coming Soon!)
가이드라인
AI 튜터
배포
디자인
업로드
수업 노트
즐겨찾기
도움말