μν€νΌλμμμ μνλ μ 보 κ°μ Έμ€κΈ°
μ΄λ² μμ
μμλ νμ΄μ¬μ μ¬μ©ν΄ μν€νΌλμ
μ 'μΈν°λ·' νμ΄μ§μμ λ°μ΄ν°λ₯Ό ν¬λ‘€λ§νλ λ°©λ²μ μμλ³΄κ² μ΅λλ€.
νΉν νμ΄μ§μ μ λͺ©
κ³Ό λ³Έλ¬Έ
μμ νΉμ λ¨λ½λ€μ μΆμΆνκ³ , νκΈ λ°μ΄ν°
λ₯Ό μ¬λ°λ₯΄κ² μ²λ¦¬νλ λ°©λ²μ λ°°μλλ€.
μΉ νμ΄μ§ κ°μ Έμ€κΈ°
λ¨Όμ , requests
ν¨ν€μ§λ₯Ό μ¬μ©ν΄ μν€νΌλμμ 'μΈν°λ·' νμ΄μ§λ₯Ό κ°μ Έμ΅λλ€.
requests.get()
λ©μλλ₯Ό μ¬μ©ν΄ ν΄λΉ νμ΄μ§μ HTML μμ€λ₯Ό λΆλ¬μ΅λλ€.
import requests # URL μ€μ url = 'https://ko.wikipedia.org/wiki/μΈν°λ·' # μΉ νμ΄μ§ κ°μ Έμ€κΈ° response = requests.get(url) # μλ΅ μν μ½λ νμΈ print("status_code:", response.status_code)
-
url
λ³μμ ν¬λ‘€λ§ν νμ΄μ§μ μ£Όμλ₯Ό μ μ₯ν©λλ€. -
requests.get(url)
μ ν΄λΉ URLμ HTML μμ€λ₯Ό κ°μ Έμ΅λλ€. -
response.status_code
λ μμ²μ΄ μ±κ³΅νλμ§ νμΈνλ λ° μ¬μ©λ©λλ€. μν μ½λ 200μ μμ²μ΄ μ±κ³΅νμμ μλ―Έν©λλ€.
HTML νμ± λ° μ λͺ© μΆμΆ
HTMLμ νμ±νκ³ , νμ΄μ§μ μ λͺ©μ μΆμΆν©λλ€.
BeautifulSoup
μ μ¬μ©ν΄ HTML ꡬ쑰λ₯Ό λΆμν©λλ€.
from bs4 import BeautifulSoup # HTML νμ± soup = BeautifulSoup(response.text, 'html.parser') # νμ΄μ§ μ λͺ© κ°μ Έμ€κΈ° title = soup.find('h1', id='firstHeading').text print("title:", title)
-
BeautifulSoup(response.text, 'html.parser')
λ HTML μμ€λ₯Ό νμ±ν©λλ€. -
soup.find('h1', id='firstHeading').text
λ νμ΄μ§μ μ λͺ©μ μΆμΆν©λλ€.
λ³Έλ¬Έ λ΄μ© μΆμΆ
μ΄μ λ³Έλ¬Έ λ΄μ©μμ <p>
νκ·Έλ₯Ό λͺ¨λ κ°μ Έμ, κ·Έ μ€ μ²« 5κ°μ λ¨λ½μ μΆμΆν©λλ€.
# λ³Έλ¬Έ λ΄μ© μ€ <p> νκ·Έλ€ λͺ¨λ κ°μ Έμ€κΈ° all_paragraphs = soup.find('div', class_='mw-parser-output').find_all('p') # 첫 5κ°μ <p> νκ·Έλ§ μ ννκΈ° paragraphs = all_paragraphs[:5] # μΆμΆν λ¨λ½λ€μ νλμ ν μ€νΈλ‘ ν©μΉκΈ° content = "\n".join([p.text for p in paragraphs])
-
soup.find('div', class_='mw-parser-output').find_all('p')
λ λ³Έλ¬Έ λ΄ λͺ¨λ<p>
νκ·Έλ₯Ό κ°μ Έμ΅λλ€. -
paragraphs = all_paragraphs[:5]
λ 첫 5κ°μ<p>
νκ·Έλ§ μ νν©λλ€. -
"\n".join([p.text for p in paragraphs])
λ μ νν λ¨λ½λ€μ νλμ ν μ€νΈλ‘ ν©μΉ©λλ€.
νκΈ μΈμ½λ© λ¬Έμ ν΄κ²° λ° μΆλ ₯
ν¬λ‘€λ§ν νκΈ λ°μ΄ν°λ₯Ό μ λλ‘ μΆλ ₯νκΈ° μν΄ μΈμ½λ©
(Encoding, λ¬Έμμ΄μ λ°μ΄νΈλ‘ λ³ν) λ¬Έμ λ₯Ό ν΄κ²°ν©λλ€.
# νκΈ μΈμ½λ© λ¬Έμ ν΄κ²° print("content:", content.encode('utf-8').decode('utf-8'))
content.encode('utf-8').decode('utf-8')
λ μΆλ ₯λλ νκΈ λ°μ΄ν°κ° μ λλ‘ μΆλ ₯λλλ‘ ν©λλ€.
μΈμ½λ©(encode)λ λ¬Έμμ΄μ λ°μ΄νΈ(byte, 0κ³Ό 1λ‘ μ΄λ£¨μ΄μ§ λ°μ΄ν°)λ‘ λ³ννκ³ , λμ½λ©(decode)μ λ°μ΄νΈλ₯Ό λ¬Έμμ΄λ‘ λ³νν©λλ€.
μ΄μ μ½λλ₯Ό μ€ννλ©΄ μν€νΌλμ 'μΈν°λ·' νμ΄μ§μ μ λͺ©κ³Ό λ³Έλ¬Έ λ΄μ©μ΄ μΆλ ₯λ©λλ€.
μλ λΉμΉΈμ λ€μ΄κ° κ°μ₯ μ μ ν λ΄μ©μ 무μμΌκΉμ?
Guidelines
AI Tutor
Publish
Design
Upload
Notes
Favorites
Help
Code Editor
Execution Result