Lecture

HTML νŒŒμ‹±μ΄λž€?

HTML νŒŒμ‹±μ€ HTML λ¬Έμ„œμ—μ„œ 데이터λ₯Ό 읽고, κ·Έ ꡬ쑰λ₯Ό λΆ„μ„ν•˜μ—¬ ν”„λ‘œκ·Έλž¨μ—μ„œ μ‚¬μš©ν•  수 μžˆλ„λ‘ ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.

이λ₯Ό 톡해 μ›ΉνŽ˜μ΄μ§€μ˜ νŠΉμ • μš”μ†Œλ₯Ό μΆ”μΆœν•˜κ³  μ‘°μž‘ν•  수 μžˆμŠ΅λ‹ˆλ‹€.


HTML λ¬Έμ„œ νŒŒμ‹±

  1. BeautifulSoup 객체 생성

    • νŒŒμ‹±ν•  HTML λ¬Έμ„œμ™€ ν•¨κ»˜ BeautifulSoup 객체λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.
    • 이 객체λ₯Ό 톡해 HTML μš”μ†Œμ— μ ‘κ·Όν•˜κ³  μ‘°μž‘ν•©λ‹ˆλ‹€.
    BeautifulSoup 객체 생성
    from bs4 import BeautifulSoup html_doc = "<html><head><title>Hello World</title></head><body>...</body></html>" soup = BeautifulSoup(html_doc, 'html.parser')
  2. λ¬Έμ„œ ꡬ쑰 이해

    • HTML λ¬Έμ„œλŠ” νƒœκ·Έλ“€μ˜ 계측적 ꡬ쑰둜 이루어져 μžˆμŠ΅λ‹ˆλ‹€.

    • <html>, <head>, <body>, <div>, <span>, <p> λ“± λ‹€μ–‘ν•œ νƒœκ·Έλ“€μ΄ μ‚¬μš©λ©λ‹ˆλ‹€.


μ£Όμš” μš”μ†Œ μΆ”μΆœ 방법

  1. νŠΉμ • νƒœκ·Έ μ°ΎκΈ°

    • find()와 find_all() λ©”μ†Œλ“œλ₯Ό μ‚¬μš©ν•˜μ—¬ νŠΉμ • νƒœκ·Έλ₯Ό μ°ΎμŠ΅λ‹ˆλ‹€.

    • find()λŠ” 첫 번째 λ§€μΉ˜λ˜λŠ” νƒœκ·Έλ₯Ό, find_all()은 λͺ¨λ“  λ§€μΉ˜λ˜λŠ” νƒœκ·Έλ₯Ό 리슀트둜 λ°˜ν™˜ν•©λ‹ˆλ‹€.

    νŠΉμ • νƒœκ·Έ μ°ΎκΈ°
    # 첫 번째 <p> νƒœκ·Έ μ°ΎκΈ° first_p = soup.find('p') # λͺ¨λ“  <a> νƒœκ·Έ μ°ΎκΈ° all_links = soup.find_all('a')

  1. νƒœκ·Έ λ‚΄μš© μΆ”μΆœ

    • νƒœκ·Έ κ°μ²΄μ—μ„œ .text 속성을 μ‚¬μš©ν•˜μ—¬ ν…μŠ€νŠΈ λ‚΄μš©μ„ μΆ”μΆœν•©λ‹ˆλ‹€.
    νƒœκ·Έ λ‚΄μš© μΆ”μΆœ
    # 첫 번째 <p> νƒœκ·Έμ˜ ν…μŠ€νŠΈ λ‚΄μš© text = first_p.text

  1. νƒœκ·Έμ˜ 속성 μ ‘κ·Ό

    • νƒœκ·Έμ˜ 속성에 μ ‘κ·Όν•˜λ €λ©΄ νƒœκ·Έ 객체λ₯Ό λ”•μ…”λ„ˆλ¦¬μ²˜λŸΌ μ‚¬μš©ν•©λ‹ˆλ‹€.

    • 예λ₯Ό λ“€μ–΄, <a href="url"> νƒœκ·Έμ—μ„œ href μ†μ„±μ˜ 값을 κ°€μ Έμ˜΅λ‹ˆλ‹€.

    νƒœκ·Έμ˜ 속성 μ ‘κ·Ό
    # 첫 번째 <a> νƒœκ·Έμ˜ href 속성 κ°’ href_value = all_links[0]['href']

μ‹€μŠ΅

ν™”λ©΄ 였λ₯Έμͺ½ μ½”λ“œ μ‹€ν–‰ λ²„νŠΌμ„ λˆ„λ₯΄κ³ , 크둀링 κ²°κ³Όλ₯Ό ν™•μΈν•˜κ±°λ‚˜ μ½”λ“œλ₯Ό μˆ˜μ •ν•΄ λ³΄μ„Έμš”!

Lecture

AI Tutor

Publish

Design

Upload

Notes

Favorites

Help

Code Editor

Run
Generate

Execution Result