HTML νμ±μ΄λ?
HTML νμ±
μ HTML λ¬Έμμμ λ°μ΄ν°λ₯Ό μ½κ³ , κ·Έ ꡬ쑰λ₯Ό λΆμνμ¬ νλ‘κ·Έλ¨μμ μ¬μ©ν μ μλλ‘ νλ κ³Όμ μ
λλ€.
μ΄λ₯Ό ν΅ν΄ μΉνμ΄μ§μ νΉμ μμλ₯Ό μΆμΆνκ³ μ‘°μν μ μμ΅λλ€.
HTML λ¬Έμ νμ±
-
BeautifulSoup κ°μ²΄ μμ±
- νμ±ν HTML λ¬Έμμ ν¨κ»
BeautifulSoup
κ°μ²΄λ₯Ό μμ±ν©λλ€. - μ΄ κ°μ²΄λ₯Ό ν΅ν΄ HTML μμμ μ κ·Όνκ³ μ‘°μν©λλ€.
BeautifulSoup κ°μ²΄ μμ±from bs4 import BeautifulSoup html_doc = "<html><head><title>Hello World</title></head><body>...</body></html>" soup = BeautifulSoup(html_doc, 'html.parser')
- νμ±ν HTML λ¬Έμμ ν¨κ»
-
λ¬Έμ ꡬ쑰 μ΄ν΄
-
HTML λ¬Έμλ νκ·Έλ€μ κ³μΈ΅μ κ΅¬μ‘°λ‘ μ΄λ£¨μ΄μ Έ μμ΅λλ€.
-
<html>
,<head>
,<body>
,<div>
,<span>
,<p>
λ± λ€μν νκ·Έλ€μ΄ μ¬μ©λ©λλ€.
-
μ£Όμ μμ μΆμΆ λ°©λ²
-
νΉμ νκ·Έ μ°ΎκΈ°
-
find()
μfind_all()
λ©μλλ₯Ό μ¬μ©νμ¬ νΉμ νκ·Έλ₯Ό μ°Ύμ΅λλ€. -
find()
λ 첫 λ²μ§Έ 맀μΉλλ νκ·Έλ₯Ό,find_all()
μ λͺ¨λ 맀μΉλλ νκ·Έλ₯Ό 리μ€νΈλ‘ λ°νν©λλ€.
νΉμ νκ·Έ μ°ΎκΈ°# 첫 λ²μ§Έ <p> νκ·Έ μ°ΎκΈ° first_p = soup.find('p') # λͺ¨λ <a> νκ·Έ μ°ΎκΈ° all_links = soup.find_all('a')
-
-
νκ·Έ λ΄μ© μΆμΆ
- νκ·Έ κ°μ²΄μμ
.text
μμ±μ μ¬μ©νμ¬ ν μ€νΈ λ΄μ©μ μΆμΆν©λλ€.
νκ·Έ λ΄μ© μΆμΆ# 첫 λ²μ§Έ <p> νκ·Έμ ν μ€νΈ λ΄μ© text = first_p.text
- νκ·Έ κ°μ²΄μμ
-
νκ·Έμ μμ± μ κ·Ό
-
νκ·Έμ μμ±μ μ κ·Όνλ €λ©΄ νκ·Έ κ°μ²΄λ₯Ό λμ λ리μ²λΌ μ¬μ©ν©λλ€.
-
μλ₯Ό λ€μ΄,
<a href="url">
νκ·Έμμhref
μμ±μ κ°μ κ°μ Έμ΅λλ€.
νκ·Έμ μμ± μ κ·Ό# 첫 λ²μ§Έ <a> νκ·Έμ href μμ± κ° href_value = all_links[0]['href']
-
μ€μ΅
νλ©΄ μ€λ₯Έμͺ½ μ½λ μ€ν
λ²νΌμ λλ₯΄κ³ , ν¬λ‘€λ§ κ²°κ³Όλ₯Ό νμΈνκ±°λ μ½λλ₯Ό μμ ν΄ λ³΄μΈμ!
Guidelines
AI Tutor
Publish
Design
Upload
Notes
Favorites
Help
Code Editor
Execution Result