νμ΄μ¬μΌλ‘ μν€νΌλμ ννμ΄μ§ μ 보 κ°μ Έμ€κΈ°
μν€νΌλμ(Wikipedia)λ μ μΈκ³ μ¬λλ€μ΄ ν¨κ» λ§λ€μ΄ λκ°λ μ¨λΌμΈ λ°±κ³Όμ¬μ μ λλ€. π
μ΄λ² μμ μμλ νμ΄μ¬ μ½λλ‘ μν€νΌλμμ νΉμ νμ΄μ§μμ μνλ μ 보λ₯Ό μμ§ν΄ λ³΄κ² μ΅λλ€.
BeautifulSoup
κ³Ό requests
λΌμ΄λΈλ¬λ¦¬λ₯Ό νμ©ν΄, μλμ κ°μ΄ μν€νΌλμ ννμ΄μ§μ μ λͺ©(Title)κ³Ό μ€λͺ
(Description)μ κ°μ Έμ¬ μ μμ΅λλ€.
Step 1: μμ μ νμν λΌμ΄λΈλ¬λ¦¬ λΆλ¬μ€κΈ°
import requests from bs4 import BeautifulSoup
μ μ½λλ μλμ κ°μ μμ μ μνν©λλ€.
-
import
ν€μλλ‘ HTTP ν΅μ μ μν requests λΌμ΄λΈλ¬λ¦¬λ₯Ό λΆλ¬μ΄ -
from
ν€μλλ‘ μΉνμ΄μ§μ λ°μ΄ν°λ₯Ό μμ§νκΈ° μν bs4 ν¨ν€μ§λ₯Ό λΆλ¬μ€κ³ , bs4 ν¨ν€μ§μ BeautifulSoup ν΄λμ€λ₯Ό κ°μ Έμ΄
Step 2: urlμμ HTMLμ κ°μ Έμ λ³μμ μ μ₯νκΈ°
BeautifulSoupμΌλ‘ μλμ κ°μ΄ μΉνμ΄μ§μ HTMLμ κ°μ Έμ λ³μμ μ μ₯ν©λλ€.
# μν€νΌλμ ννμ΄μ§ μ£Όμ url = "https://www.wikipedia.org" # requests λΌμ΄λΈλ¬λ¦¬λ‘ URLλ‘λΆν° HTMLμ κ°μ Έμ΄ response = requests.get(url) # κ°μ Έμ¨ HTMLμ μΈμ½λ©μ UTF-8λ‘ μ€μ response.encoding = 'utf-8' # λ³μ soupμ HTMLμ κ°μ Έμ¨ κ²°κ³Όκ° μ μ₯λ¨ soup = BeautifulSoup(response.text, 'html.parser')
μ μ½λλ μλμ κ°μ μμ μ μνν©λλ€.
-
url
λ³μμ μν€νΌλμ ννμ΄μ§ μ£Όμ μ μ₯ -
requests.get(url)
μ ν΅ν΄ url μ£Όμλ‘λΆν° HTMLμ κ°μ Έμ΄ -
BeautifulSoup(response.text, 'html.parser')
λ₯Ό ν΅ν΄ κ°μ Έμ¨ HTMLμ νμ±(Parsing, λ°μ΄ν° μ²λ¦¬)νκ³ , νμ±λ κ²°κ³Όλ₯Ό soup λ³μμ μ μ₯
Step 3: μ λͺ©κ³Ό μ€λͺ μ 보 μΆμΆνκΈ°
μλμ κ°μ΄ soup λ³μμμ μνλ μ 보λ₯Ό μΆμΆν©λλ€.
# μΉ νμ΄μ§μμ h1(heading 1, μ λͺ©) μΆμΆ h1_title = soup.find('h1').text # μΉ νμ΄μ§μμ p(paragraph) νκ·Έ μΆμΆ p_description = soup.find('p').text
μ μ½λλ μλμ κ°μ μμ μ μνν©λλ€.
-
soup.find('h1').text
λ₯Ό ν΅ν΄ soup λ³μμμ h1 νκ·Έλ₯Ό μ°Ύμ μ λͺ©μ μΆμΆνκ³ , h1_title λ³μμ μ μ₯ -
soup.find('p').text
λ₯Ό ν΅ν΄ soup λ³μμμ p νκ·Έλ₯Ό μ°Ύμ μ€λͺ μ μΆμΆνκ³ , p_description λ³μμ μ μ₯
λ§μ§λ§μΌλ‘ print ν¨μλ₯Ό μ¬μ©νμ¬ urlμμ κ°μ Έμ¨ μ λͺ©κ³Ό μ€λͺ μ μΆλ ₯ν©λλ€.
μ€μ΅
νλ©΄ μ€λ₯Έμͺ½μ μ½λ μ€ν
λ²νΌμ λλ₯΄κ³ , μ€ν¬λν κ²°κ³Όλ₯Ό νμΈν΄ 보μΈμ.
첫λ²μ§Έ μ½λ μ€νμ λ€μ μκ°μ΄ μμλ μ μμ΅λλ€.
μ½λμ url
μ£Όμλ₯Ό λ³κ²½νμ¬(μ: https://www.codefriends.net
) λ€λ₯Έ μΉ νμ΄μ§μ μ 보λ₯Ό κ°μ Έμ¬ μλ μμ΅λλ€.
Guidelines
AI Tutor
Publish
Design
Upload
Notes
Favorites
Help
Code Editor
Execution Result