Lecture

μ€‘μ²©λœ HTML μš”μ†Œ 닀루기

HTML μš”μ†Œκ°€ μ€‘μ²©λ˜μ—ˆλ‹€λŠ” 것은 μš”μ†Œκ°€ λ‹€λ₯Έ μš”μ†Œ μ•ˆμ— ν¬ν•¨λ˜μ–΄ μžˆλ‹€λŠ” 것을 μ˜λ―Έν•©λ‹ˆλ‹€.

μ€‘μ²©λœ μš”μ†Œ
<div> <p>First paragraph.</p> <p>Second paragraph.</p> </div>

μœ„μ˜ μ˜ˆμ œμ—μ„œ <div> μš”μ†Œ μ•ˆμ— 두 개의 <p> μš”μ†Œκ°€ μ€‘μ²©λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.

이런 μš”μ†Œλ“€μ„ λ‹€λ£¨λŠ” 것은 μ›Ή ν¬λ‘€λ§μ—μ„œ μ€‘μš”ν•œ κΈ°μˆ μž…λ‹ˆλ‹€.


μ€‘μ²©λœ μš”μ†Œ 탐색

  1. λΆ€λͺ¨μ™€ μžμ‹ 관계 이해

    • HTML μš”μ†Œλ“€μ€ λΆ€λͺ¨-μžμ‹ 관계λ₯Ό κ°€μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.

    • 예λ₯Ό λ“€μ–΄, <div> μ•ˆμ— μžˆλŠ” <p>λŠ” <div>의 μžμ‹ μš”μ†Œμž…λ‹ˆλ‹€.

  2. νŠΉμ • 경둜의 μš”μ†Œ μ°ΎκΈ°

    • find() λ˜λŠ” find_all()을 μ‚¬μš©ν•˜μ—¬ νŠΉμ • κ²½λ‘œμ— μžˆλŠ” μš”μ†Œλ₯Ό μ°ΎμŠ΅λ‹ˆλ‹€.

    • 예: soup.find('div').find('p')λŠ” 첫 번째 <div> μ•ˆμ˜ 첫 번째 <p>λ₯Ό μ°ΎμŠ΅λ‹ˆλ‹€.


예제: μ€‘μ²©λœ μš”μ†Œ μΆ”μΆœ

μ€‘μ²©λœ μš”μ†Œ μΆ”μΆœ
html_doc = """ <div> <p class="inner-text"> First paragraph. <span>Text within a span</span> </p> <p class="inner-text">Second paragraph.</p> </div> """ soup = BeautifulSoup(html_doc, 'html.parser') # 첫 번째 div λ‚΄μ˜ λͺ¨λ“  p νƒœκ·Έ μΆ”μΆœ for p in soup.find('div').find_all('p'): print(p.text)

속성을 ν™œμš©ν•œ μΆ”μΆœ

  • νƒœκ·Έμ˜ 클래슀, ID, 기타 속성을 μ‚¬μš©ν•˜μ—¬ νŠΉμ • μš”μ†Œλ₯Ό μΆ”μΆœν•©λ‹ˆλ‹€.

  • 예: soup.find_all('a', class_='external_link')λŠ” ν΄λž˜μŠ€κ°€ 'external_link'인 λͺ¨λ“  <a> νƒœκ·Έλ₯Ό μ°ΎμŠ΅λ‹ˆλ‹€.


CSS μ„ νƒμž μ‚¬μš©

  • BeautifulSoupμ—μ„œλŠ” select() λ©”μ†Œλ“œλ₯Ό μ‚¬μš©ν•˜μ—¬ CSS μ„ νƒμžλ₯Ό ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

  • 예: soup.select('div.content > p.paragraph')λŠ” ν΄λž˜μŠ€κ°€ 'content'인 <div>의 직접 μžμ‹μΈ ν΄λž˜μŠ€κ°€ 'paragraph'인 <p>λ₯Ό μ°ΎμŠ΅λ‹ˆλ‹€.


예제: λ³΅μž‘ν•œ ꡬ쑰의 데이터 μΆ”μΆœ

λ³΅μž‘ν•œ ꡬ쑰의 데이터 μΆ”μΆœ
html_doc = """ <div class="content"> <p class="paragraph">First paragraph in content.</p> <div class="inner-content"> <p>Inner paragraph.</p> </div> </div> """ soup = BeautifulSoup(html_doc, 'html.parser') # ν΄λž˜μŠ€κ°€ 'content'인 div λ‚΄μ˜ λͺ¨λ“  p νƒœκ·Έ μΆ”μΆœ content_paragraphs = soup.select('div.content p') for p in content_paragraphs: print(p.text)

μ‹€μŠ΅

ν™”λ©΄ 였λ₯Έμͺ½ μ½”λ“œ μ‹€ν–‰ λ²„νŠΌμ„ λˆ„λ₯΄κ³ , 크둀링 κ²°κ³Όλ₯Ό ν™•μΈν•˜κ±°λ‚˜ μ½”λ“œλ₯Ό μˆ˜μ •ν•΄ λ³΄μ„Έμš”!

Lecture

AI Tutor

Publish

Design

Upload

Notes

Favorites

Help

Code Editor

Run
Generate

Execution Result