BBC λ΄μ€ μΉ ν¬λ‘€λ§ 체ννκΈ°
μΉ ν¬λ‘€λ§(Web Crawling)
μ μΈν°λ· μμ μΉμ¬μ΄νΈλ₯Ό μλμΌλ‘ νμνλ©° νμν λ°μ΄ν°λ₯Ό μμ§νλ κΈ°μ μ λ»ν©λλ€.
μ£Όλ‘ ν¬λ‘€λ¬(Crawler)
λΌκ³ λΆλ¦¬λ μλνλ νλ‘κ·Έλ¨ μ¬μ©νμ¬ μΉ νμ΄μ§μ λ΄μ©, μ¦ HTML μ½λλ₯Ό κ°μ Έμ¨ ν μ½λλ₯Ό λΆμνμ¬ νμν λ°μ΄ν°λ₯Ό μμ§ν©λλ€.
μΉ ν¬λ‘€λ§κ³Ό μΉ μ€ν¬λνμ μ°¨μ΄
μΉ ν¬λ‘€λ§
(Web Crawling)κ³Ό μΉ μ€ν¬λν
(Web Scraping)μ μ’
μ’
νΌμ©λμ΄ μ¬μ©λμ§λ§, μλ°ν μλ―Έμμλ λ€λ₯Έ κ°λ
μ
λλ€.
μ€μ΅ μ½λμ κ°μ΄ νΉμ μΉ νμ΄μ§μμ μνλ λ΄μ©λ§ μΆμΆνλ κ²μ μΉ μ€ν¬λν
μ΄λΌκ³ ν©λλ€.
μΉ μ€ν¬λνμ μΉ ν¬λ‘€λ§μ²λΌ μ¬λ¬ μΉ νμ΄μ§λ₯Ό μλμΌλ‘ νμνμ§ μκ³ , μ£Όλ‘ 1κ°μ μΉ νμ΄μ§ λλ νΉμ λ°μ΄ν°λ₯Ό νκ²ν ν©λλ€.
μμ½νλ©΄ μΉ ν¬λ‘€λ§μ μ¬λ¬ μΉ νμ΄μ§λ₯Ό μλμΌλ‘ νμνμ¬ λ°μ΄ν°λ₯Ό μμ§νλ κ³Όμ μ λ»νκ³ , μΉ μ€ν¬λνμ μΉ νμ΄μ§μ λ΄μ©μ μΆμΆνλ κ³Όμ μ μλ―Έν©λλ€.
νμ§λ§ λ³Έ κ°μμμλ μ¬λ¬ μΉ νμ΄μ§λ₯Ό νμνκ±°λ λ°μ΄ν°λ₯Ό μ μ₯νλ κ³Όμ κΉμ§ λ€λ£¨λ―λ‘ μ£Όλ‘ μΉ ν¬λ‘€λ§
μ΄λΌλ μ©μ΄λ₯Ό μ¬μ©νκ² μ΅λλ€.
BBC λ΄μ€ μΉ ν¬λ‘€λ§ μ€μ΅
μ€μ΅ νλ©΄μ μ½λλ BBC λ΄μ€ μΉμ¬μ΄νΈμμ κΈ°μ¬ μ λͺ©
μ μ€μκ°μΌλ‘ ν¬λ‘€λ§(μλ°ν λ§νλ©΄ μ€ν¬λν)νλ μ½λμ
λλ€.
νμ΄μ¬μμ μΉ νμ΄μ§μ HTML μ½λλ₯Ό κ°μ Έμ λ°μ΄ν°λ₯Ό λΆμν λλ μ£Όλ‘ requests
μ BeautifulSoup
λΌμ΄λΈλ¬λ¦¬λ₯Ό μ¬μ©ν©λλ€.
μ΄ λΌμ΄λΈλ¬λ¦¬κ° μ΄λ»κ² μ¬μ©λλμ§, μνλ μ 보λ₯Ό μΆμΆνκΈ° μν΄μ μ΄λ€ μ½λλ₯Ό μμ±ν΄μΌ νλμ§λ νμ μ½μ€μμ μμΈν λ€λ£¨κ² μ΅λλ€.
# BBC λ΄μ€ μΉμ¬μ΄νΈ μ£Όμ url = "https://www.bbc.com/news" response = requests.get(url) # μμ² μ±κ³΅ μ¬λΆ νμΈ print("status_code:", response.status_code) # HTML λ°μ΄ν° νμ± soup = BeautifulSoup(response.text, "html.parser") # νμ΄μ§μμ h2 νκ·Έλ‘ κΈ°μ¬ μ λͺ© 10κ° μΆμΆ titles = soup.find_all('h2', limit=10)
μ½λ μλν°μ μ΄λ‘μμΌλ‘ νμλ βΆοΈ μ€ν
λ²νΌμ λλ₯΄κ³ , BBC λ΄μ€ μΉμ¬μ΄νΈμμ μ€μκ°μΌλ‘ ν¬λ‘€λ§ν κΈ°μ¬ μ λͺ©μ νμΈν΄ 보μΈμ! π
Run the code and check the results.
Lecture
AI Tutor
Publish
Design
Upload
Notes
Favorites
Help
Code Editor
Execution Result