학습 자료

반복적으로 데이터를 수집하는 웹 크롤링

뉴스 기사를 주기적으로 모니터링하거나, 온라인 쇼핑몰에서 특정 제품의 가격 변동을 추적하려면 어떻게 해야 할까요?

웹 크롤링(Web Crawling)은 이러한 작업을 자동화하여 반복적으로 데이터를 수집할 때 활용하는 기술입니다.

웹 크롤링은 자동화된 스크립트를 통해 웹페이지를 방문하고, 그 페이지에서 특정 데이터를 추출하는 과정을 말합니다.

참고 : 단일 페이지의 데이터를 수집하는 것을 웹 스크래핑(Web Scraping)이라고 합니다.

엄밀히 말하면 웹 크롤링은 여러 웹 사이트를 탐색하고 데이터를 체계적으로 수집하는 과정을 뜻하며, 웹 스크래핑은 단일 페이지에서 특정 데이터를 추출하는 작업을 의미합니다.

본 수업에서 다루는 내용은 데이터를 수집하는 포괄적인 과정을 다루기 때문에, 주로 웹 크롤링이라는 용어를 사용하겠습니다.

웹 크롤링은 어떻게 동작할까요?

웹 크롤링은 웹 크롤러(Crawler) 또는 스파이더(Spider)라고 불리는 프로그램으로 웹사이트를 방문하고, 웹 페이지의 내용을 자동으로 수집하는 과정을 뜻합니다.

웹 크롤러는 다음과 같은 과정을 거쳐 동작합니다.

웹 페이지 요청 : 크롤러는 웹 페이지의 URL을 요청하여 해당 페이지의 HTML 소스를 가져옵니다.
HTML 파싱 : 파싱(Parsing)은 HTML 소스를 분석하여 웹 페이지의 구조를 이해하는 과정을 말합니다. 크롤러는 HTML 태그를 분석하고, 웹 페이지의 내용을 추출합니다.
데이터 추출 : 크롤러는 웹 페이지에서 필요한 데이터를 추출하고, 이를 저장하거나 가공하여 사용자에게 제공합니다.

웹 크롤러는 보통 한 페이지에서 시작하여 그 페이지에 포함된 링크들을 따라가며 다른 페이지들을 순차적으로 방문합니다.

이 과정에서 크롤러는 HTML 콘텐츠를 다운로드하여 저장하거나 인덱싱(Indexing, 색인화)합니다.

크롤링의 결과물은 주로 웹사이트의 구조와 내용을 반영한 데이터베이스나 파일 형태로 저장됩니다.

간단한 웹 크롤링 코드 예시

이제 간단한 웹 크롤링 코드를 통해 실제로 데이터를 수집해보겠습니다.

파이썬에서는 requests와 BeautifulSoup 라이브러리를 주로 사용하여 웹 페이지의 데이터를 가져올 수 있습니다.

참고 : 실습 코드를 컴퓨터에서 실제로 실행하려면, pip install requests beautifulsoup4 명령어로 'requests'와 'BeautifulSoup' 라이브러리를 설치해야 합니다.

간단한 웹 크롤링 예시

import requests
from bs4 import BeautifulSoup

# 1. example.com 웹 페이지의 HTML 소스 가져오기
url = 'https://example.com'
response = requests.get(url)

# 2. HTML 파싱하기
soup = BeautifulSoup(response.text, 'html.parser')

# 3. 웹사이트 내 단락(p) 태그 추출하기
titles = soup.find_all('p')

# 4. 단락(p) 태그의 텍스트 출력하기
for title in titles:
    print(title.text)

1단계 : requests.get(url)을 사용하여 지정된 URL의 웹 페이지를 요청하고, 해당 페이지의 HTML 소스를 가져옵니다.
2단계 : BeautifulSoup 객체를 통해 HTML을 파싱하고, 이를 탐색할 수 있는 구조로 만듭니다.
3단계 : soup.find_all('p')를 사용해 웹사이트 내 모든 단락(<p> 태그)을 추출하고, 이를 출력합니다.

위 코드 예시는 'example.com' 웹 페이지에서 모든 단락(<p> 태그) 텍스트를 추출하는 간단한 웹 크롤링 작업(엄밀히 말하면 웹 스크래핑)을 수행합니다.

실제로 뉴스 플랫폼에서 뉴스 기사의 제목을 추출하거나, 온라인 쇼핑몰에서 특정 제품의 가격을 추출하는 등의 웹 크롤링을 할 때에는 훨씬 더 복잡한 코드가 필요합니다.

이번 수업에서는 웹 크롤링의 기본 개념과 필요성을 이해하고, 간단한 크롤링 코드를 작성해보았습니다.

다음 수업에서는 웹 크롤링 시 고려해야 할 법적, 윤리적 사항에 대해 알아보겠습니다.

Quiz

0 / 1

아래 빈칸에 들어갈 가장 적절한 단어는 무엇일까요?

은 자동화된 스크립트를 통해 웹 페이지를 방문하고, 그 페이지에서 데이터를 추출하는 과정을 뜻합니다.

웹 스크래핑

웹 어셈블리

웹 스캐닝

웹 크롤링

코드 에디터

코드 실행

코드 생성

실행 결과