웹 크롤링과 웹 스크래핑의 차이점
웹에서 데이터를 수집할 때 크롤링(Web Crawling)`과 스크래핑(Web Scraping)은 종종 혼용되어 사용됩니다. 하지만 엄밀히 말하면, 이 2가지 용어는 서로 다른 의미를 갖습니다.
이번 수업에서는 웹 크롤링과 웹 스크래핑의 주요 차이점을 알아보겠습니다.
크롤링(Crawling)
웹 크롤링은 주로 웹 페이지의 링크 구조
를 탐색하고, 웹사이트의 다양한 페이지를 방문
하며 데이터를 포괄적으로 수집 및 저장하는 작업을 의미합니다.
예를 들어 특정 쇼핑몰의 여러 제품 정보를 수집하거나, 뉴스 사이트의 홈페이지부터 시작해 최신 뉴스 기사들을 수집하고 이를 데이터베이스에 저장하는 작업이 크롤링에 해당합니다.
크롤링은 어떻게 동작하나요?
크롤링은 웹 크롤러
(또는 스파이더)라고 불리는 데이터 수집 소프트웨어 및 봇을 활용합니다. 크롤러는 한 페이지에서 시작해 그 페이지에 연결된 모든 링크를 따라가며 데이터를 수집합니다.
크롤링은 어떻게 활용되나요?
크롤링은 구글, 네이버와 같은 검색 엔진이 웹 페이지를 인덱싱(Indexing)하는 데 사용됩니다. 인덱싱은 웹 페이지의 내용을 분석하고 체계적으로 정리하여 데이터베이스에 저장하는 과정을 의미합니다.
이를 통해 검색 엔진은 사용자에게 관련성 높은 검색 결과를 빠르게 제공할 수 있습니다.
스크래핑(Scraping)
스크래핑은 특정 웹 페이지
에서 필요한 정보를 추출하는 작업을 의미합니다.
예를 들어 쇼핑몰 내 특정 제품 상세페이지를 분석하여, 해당 제품의 가격, 제품 설명, 이미지 등을 추출하는 작업은 스크래핑에 해당합니다.
스크래핑은 어떻게 동작하나요?
주로 스크래핑은 웹 페이지의 HTML 콘텐츠를 분석하여 필요한 데이터를 선택적으로 추출합니다.
스크래핑은 어떻게 활용되나요?
연결된 링크를 따라가며 웹사이트의 전체 데이터를 수집하는 크롤링과 달리, 스크래핑은 특정 웹 페이지에서 필요한 정보만 추출합니다. 예를 들어 특정 뉴스 기사에서 제목, 작성자, 작성일을 추출하는 작업에 스크래핑을 활용할 수 있습니다.
차이점을 정리하면?
크롤링은 전체 웹 사이트의 구조와 링크를 따라가며 데이터를 수집 및 저장하는 작업을 뜻하며, 스크래핑은 특정 웹 페이지에서 필요한 정보만 선택적으로 추출하는 작업을 뜻합니다.
크롤링은 검색 엔진이 크롤러(또는 스파이더)를 활용해 웹 페이지를 인덱싱할 때 사용되며, 스크래핑은 특정 URL의 HTML 콘텐츠를 분석하여 필요한 정보를 추출합니다.
이전 수업처럼 특정 URL에서 데이터를 수집하는 작업은 엄밀히 말하면 스크래핑에 해당합니다.
하지만 크롤링이 스크래핑보다 더 범용적이고 포괄적인 용어이기 때문에, 수업 내에서는 주로 웹 크롤링이라는 용어를 사용하겠습니다.
가이드라인
AI 튜터
배포
디자인
업로드
수업 노트
즐겨찾기
도움말
코드 에디터
실행 결과