Guidelines

μ›Ή 크둀링과 μ›Ή μŠ€ν¬λž˜ν•‘μ˜ 차이점

μ›Ήμ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•  λ•Œ 크둀링(Web Crawling)`κ³Ό μŠ€ν¬λž˜ν•‘(Web Scraping)은 μ’…μ’… ν˜Όμš©λ˜μ–΄ μ‚¬μš©λ©λ‹ˆλ‹€. ν•˜μ§€λ§Œ μ—„λ°€νžˆ λ§ν•˜λ©΄, 이 2가지 μš©μ–΄λŠ” μ„œλ‘œ λ‹€λ₯Έ 의미λ₯Ό κ°–μŠ΅λ‹ˆλ‹€.

이번 μˆ˜μ—…μ—μ„œλŠ” μ›Ή 크둀링과 μ›Ή μŠ€ν¬λž˜ν•‘μ˜ μ£Όμš” 차이점을 μ•Œμ•„λ³΄κ² μŠ΅λ‹ˆλ‹€.


크둀링(Crawling)

μ›Ή 크둀링은 주둜 μ›Ή νŽ˜μ΄μ§€μ˜ 링크 ꡬ쑰λ₯Ό νƒμƒ‰ν•˜κ³ , μ›Ήμ‚¬μ΄νŠΈμ˜ λ‹€μ–‘ν•œ νŽ˜μ΄μ§€λ₯Ό λ°©λ¬Έν•˜λ©° 데이터λ₯Ό ν¬κ΄„μ μœΌλ‘œ μˆ˜μ§‘ 및 μ €μž₯ν•˜λŠ” μž‘μ—…μ„ μ˜λ―Έν•©λ‹ˆλ‹€.

예λ₯Ό λ“€μ–΄ νŠΉμ • μ‡Όν•‘λͺ°μ˜ μ—¬λŸ¬ μ œν’ˆ 정보λ₯Ό μˆ˜μ§‘ν•˜κ±°λ‚˜, λ‰΄μŠ€ μ‚¬μ΄νŠΈμ˜ ν™ˆνŽ˜μ΄μ§€λΆ€ν„° μ‹œμž‘ν•΄ μ΅œμ‹  λ‰΄μŠ€ 기사듀을 μˆ˜μ§‘ν•˜κ³  이λ₯Ό λ°μ΄ν„°λ² μ΄μŠ€μ— μ €μž₯ν•˜λŠ” μž‘μ—…μ΄ 크둀링에 ν•΄λ‹Ήν•©λ‹ˆλ‹€.


크둀링은 μ–΄λ–»κ²Œ λ™μž‘ν•˜λ‚˜μš”?

크둀링은 μ›Ή 크둀러(λ˜λŠ” μŠ€νŒŒμ΄λ”)라고 λΆˆλ¦¬λŠ” 데이터 μˆ˜μ§‘ μ†Œν”„νŠΈμ›¨μ–΄ 및 봇을 ν™œμš©ν•©λ‹ˆλ‹€. ν¬λ‘€λŸ¬λŠ” ν•œ νŽ˜μ΄μ§€μ—μ„œ μ‹œμž‘ν•΄ κ·Έ νŽ˜μ΄μ§€μ— μ—°κ²°λœ λͺ¨λ“  링크λ₯Ό 따라가며 데이터λ₯Ό μˆ˜μ§‘ν•©λ‹ˆλ‹€.


크둀링은 μ–΄λ–»κ²Œ ν™œμš©λ˜λ‚˜μš”?

크둀링은 ꡬ글, 넀이버와 같은 검색 엔진이 μ›Ή νŽ˜μ΄μ§€λ₯Ό 인덱싱(Indexing)ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. 인덱싱은 μ›Ή νŽ˜μ΄μ§€μ˜ λ‚΄μš©μ„ λΆ„μ„ν•˜κ³  μ²΄κ³„μ μœΌλ‘œ μ •λ¦¬ν•˜μ—¬ λ°μ΄ν„°λ² μ΄μŠ€μ— μ €μž₯ν•˜λŠ” 과정을 μ˜λ―Έν•©λ‹ˆλ‹€.

이λ₯Ό 톡해 검색 엔진은 μ‚¬μš©μžμ—κ²Œ κ΄€λ ¨μ„± 높은 검색 κ²°κ³Όλ₯Ό λΉ λ₯΄κ²Œ μ œκ³΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€.


μŠ€ν¬λž˜ν•‘(Scraping)

μŠ€ν¬λž˜ν•‘μ€ νŠΉμ • μ›Ή νŽ˜μ΄μ§€μ—μ„œ ν•„μš”ν•œ 정보λ₯Ό μΆ”μΆœν•˜λŠ” μž‘μ—…μ„ μ˜λ―Έν•©λ‹ˆλ‹€.

예λ₯Ό λ“€μ–΄ μ‡Όν•‘λͺ° λ‚΄ νŠΉμ • μ œν’ˆ μƒμ„ΈνŽ˜μ΄μ§€λ₯Ό λΆ„μ„ν•˜μ—¬, ν•΄λ‹Ή μ œν’ˆμ˜ 가격, μ œν’ˆ μ„€λͺ…, 이미지 등을 μΆ”μΆœν•˜λŠ” μž‘μ—…μ€ μŠ€ν¬λž˜ν•‘μ— ν•΄λ‹Ήν•©λ‹ˆλ‹€.


μŠ€ν¬λž˜ν•‘μ€ μ–΄λ–»κ²Œ λ™μž‘ν•˜λ‚˜μš”?

주둜 μŠ€ν¬λž˜ν•‘μ€ μ›Ή νŽ˜μ΄μ§€μ˜ HTML μ½˜ν…μΈ λ₯Ό λΆ„μ„ν•˜μ—¬ ν•„μš”ν•œ 데이터λ₯Ό μ„ νƒμ μœΌλ‘œ μΆ”μΆœν•©λ‹ˆλ‹€.


μŠ€ν¬λž˜ν•‘μ€ μ–΄λ–»κ²Œ ν™œμš©λ˜λ‚˜μš”?

μ—°κ²°λœ 링크λ₯Ό 따라가며 μ›Ήμ‚¬μ΄νŠΈμ˜ 전체 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 크둀링과 달리, μŠ€ν¬λž˜ν•‘μ€ νŠΉμ • μ›Ή νŽ˜μ΄μ§€μ—μ„œ ν•„μš”ν•œ μ •λ³΄λ§Œ μΆ”μΆœν•©λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄ νŠΉμ • λ‰΄μŠ€ κΈ°μ‚¬μ—μ„œ 제λͺ©, μž‘μ„±μž, μž‘μ„±μΌμ„ μΆ”μΆœν•˜λŠ” μž‘μ—…μ— μŠ€ν¬λž˜ν•‘μ„ ν™œμš©ν•  수 μžˆμŠ΅λ‹ˆλ‹€.


차이점을 μ •λ¦¬ν•˜λ©΄?

크둀링은 전체 μ›Ή μ‚¬μ΄νŠΈμ˜ ꡬ쑰와 링크λ₯Ό 따라가며 데이터λ₯Ό μˆ˜μ§‘ 및 μ €μž₯ν•˜λŠ” μž‘μ—…μ„ λœ»ν•˜λ©°, μŠ€ν¬λž˜ν•‘μ€ νŠΉμ • μ›Ή νŽ˜μ΄μ§€μ—μ„œ ν•„μš”ν•œ μ •λ³΄λ§Œ μ„ νƒμ μœΌλ‘œ μΆ”μΆœν•˜λŠ” μž‘μ—…μ„ λœ»ν•©λ‹ˆλ‹€.

크둀링은 검색 엔진이 크둀러(λ˜λŠ” μŠ€νŒŒμ΄λ”)λ₯Ό ν™œμš©ν•΄ μ›Ή νŽ˜μ΄μ§€λ₯Ό 인덱싱할 λ•Œ μ‚¬μš©λ˜λ©°, μŠ€ν¬λž˜ν•‘μ€ νŠΉμ • URL의 HTML μ½˜ν…μΈ λ₯Ό λΆ„μ„ν•˜μ—¬ ν•„μš”ν•œ 정보λ₯Ό μΆ”μΆœν•©λ‹ˆλ‹€.


이전 μˆ˜μ—…μ²˜λŸΌ νŠΉμ • URLμ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” μž‘μ—…μ€ μ—„λ°€νžˆ λ§ν•˜λ©΄ μŠ€ν¬λž˜ν•‘μ— ν•΄λ‹Ήν•©λ‹ˆλ‹€.

ν•˜μ§€λ§Œ 크둀링이 μŠ€ν¬λž˜ν•‘λ³΄λ‹€ 더 λ²”μš©μ μ΄κ³  포괄적인 μš©μ–΄μ΄κΈ° λ•Œλ¬Έμ—, μˆ˜μ—… λ‚΄μ—μ„œλŠ” 주둜 μ›Ή ν¬λ‘€λ§μ΄λΌλŠ” μš©μ–΄λ₯Ό μ‚¬μš©ν•˜κ² μŠ΅λ‹ˆλ‹€.

Guidelines

AI Tutor

Publish

Design

Upload

Notes

Favorites

Help

Code Editor

Run
Generate

Execution Result