lesson1Title

lesson2Title

lesson3Title

lesson4Title

lesson5Title

lesson6Title

lesson7Title

lesson8Title

lesson9Title

lesson10Title

lesson11Title

lesson12Title

lesson13Title

lesson14Title

lesson15Title

lesson16Title

lesson17Title

lesson18Title

automationIntroBasicsChapter3Title

automationIntroBasicsChapter1Title

automationIntroBasicsChapter2Title

automationIntroBasicsChapter4Title

# 웹 크롤링을 시 유의해야 할 고려사항

웹 크롤링(Web Scraping)은 인터넷 상의 데이터를 자동으로 수집하는 매우 유용한 방법이지만, 실제로 크롤링을 할 때는 여러 할 `법적, 윤리적 책임`이 따릅니다.

<br />

## 웹 크롤링의 법적 책임

많은 웹사이트들이 크롤링으로 인한 서버 과부하를 방지하기 위해 크롤링을 금지하고 있으며, *이용 약관*을 통해 크롤링을 금지하거나 제한하는 규정을 명시하고 있습니다.

이를 무시하고 크롤링을 진행할 경우 법적 분쟁으로 이어질 수 있습니다.

또한 수집한 데이터를 상업적으로 사용하려 한다면, `저작권법`과 같은 관련 법률을 준수해야 합니다.

<br />

## robots.txt 파일을 꼭 확인하세요

일반적으로 크롤러에게 적용되는 규칙은 웹사이트은 `robots.txt` 파일에 명시합니다.

이 파일은 웹사이트의 `/robots.txt`(예: https://en.wikipedia.org/robots.txt) 경로에 위치하며, 웹 크롤러가 접근할 수 있는 페이지와 접근을 금지하는 페이지를 정의합니다.
 
다음은 간단한 robots.txt 파일 예시입니다.

```plaintext title="robots.txt 예시"
User-agent: *
Disallow: /private/
Allow: /public/
```

위 예시에서는 모든 크롤러가 `/private/` 경로를 포함한 웹 페이지에 접근하지 못하도록 하고 있으며, `/public/` 경로를 포함한 웹 페이지에는 접근할 수 있도록 허용하고 있습니다.

robots.txt 파일을 준수하는 것은 웹 크롤링의 기본 윤리입니다.

이 파일을 무시하고 웹사이트의 모든 데이터를 수집하는 것은 웹사이트 운영자의 의도에 반하는 행위이며, `불법`으로 간주될 수 있습니다.

robots.txt 파일은 웹사이트가 크롤러에게 공개하는 규칙을 명시한 파일입니다. 이 파일을 통해 크롤러는 어떤 페이지에 접근할 수 있는지, 어떤 페이지에 접근할 수 없는지를 알 수 있습니다. 이 파일을 준수하는 것은 웹 크롤링의 기본 윤리입니다.

웹 크롤링을 시 유의해야 할 고려사항

웹 크롤링의 법적 책임

robots.txt 파일을 꼭 확인하세요

다음 중 웹 크롤링 전에 크롤링 가능 여부를 파악하기 위해 반드시 확인해야 하는 것은 무엇인가요?