🐍 파이썬 (Python)

크둀링 , μŠ€ν¬λž©ν•‘ μ΄λž€ ? ( robots.txt 의 뜻)

Newmon 2020. 5. 26. 21:38

* 크둀링 (crawling)

쑰직적, μžλ™ν™”λœ 방법을 ν†΅ν•˜μ—¬ 웹을 νƒμƒ‰ν•˜λŠ” 컴퓨터 ν”„λ‘œκ·Έλž¨μ„ 크둀러(crawler)라고 ν•œλ‹€. 

λ”°λΌμ„œ 크둀링은 , ν¬λ‘€λŸ¬κ°€ νŠΉμ • κ·œμΉ™μ„ κ°€μ§€κ³  μ—¬λŸ¬ μ‚¬μ΄νŠΈμ˜ νŽ˜μ΄μ§€λ₯Ό νƒμƒ‰ν•˜λ©° μˆ˜μ§‘ν•˜κ³  λΆ„λ₯˜ν•˜λŠ”κ²ƒμ„ λ§ν•œλ‹€.

크둀링도 μŠ€ν¬λž˜ν•‘μ˜ 일쒅이닀(μŠ€ν¬λž˜ν•‘μ΄ 더 ν°λ²”μœ„λ₯Ό ν¬ν•¨ν•˜λŠ” 의미)

 

 

* μŠ€ν¬λž˜ν•‘ (scraping)

μ›ΉμœΌλ‘œ νŠΉμ •μ§“μ§€ μ•ŠμœΌλ©°, λͺ¨λ“  μ†ŒμŠ€λ‘œλΆ€ν„° ν•„μš”ν•œ 데이터λ₯Ό κ°€μ Έμ˜€κ³ , μ›ν•˜λŠ” ν˜•νƒœλ‘œ κ°€κ³΅ν•˜λŠ” 것을 λ§ν•œλ‹€.

λ”°λΌμ„œ 크둀링과 λΉ„μŠ·ν•œ 의미이며 κ΅¬λΆ„ν•˜κΈ° μ–΄λ ΅μ§€λ§Œ μŠ€ν¬λž˜ν•‘μ΄ 더 큰 λ²”μœ„λ₯Ό κ°€μ§€λ©°, 크둀링도 μŠ€ν¬λž˜ν•‘μ— ν¬ν•¨λ˜λŠ” 단어라고 ν•œλ‹€.

 

 

* ν¬λ‘€λ§μ‹œμ— μ£Όμ˜ν•  것

  •  μ„œλ²„(server)의 정책이 ν—ˆμš©ν•˜λŠ” λ²”μœ„ λ‚΄μ—μ„œλ§Œ 이루어져야 ν•œλ‹€.
  •  ( ν¬λ‘€λ§μ‹œμ— μ„œλ²„μ— λ°œμƒλ˜λŠ” λΆ€ν•˜ λΌλ˜κ°€(requestμš”μ²­μ‹œ) 컨텐츠에 λŒ€ν•œ μ €μž‘κΆŒ 문제.... λ“±λ“± )
  • robots.txt ( λŒ€μƒ μ›Ή νŽ˜μ΄μ§€μ˜ 쑰건 ) ex ) naver.com/robots.txt

 

 

 

* robots.txt 

μ›Ή μ‚¬μ΄νŠΈμ— μ›Ή 크둀러 같은 λ‘œλ΄‡λ“€μ˜ 접근을 μ œμ–΄ν•˜κΈ° μœ„ν•œ κ·œμ•½. (λ°˜λ“œμ‹œ 지킬 μ˜λ¬΄λŠ” μ—†λ‹€κ³  ν•œλ‹€.)

robots.txtλŠ” μ›Ήμ‚¬μ΄νŠΈμ˜ μ΅œμƒμœ„ 경둜(루트)에 μžˆμ–΄μ•Ό ν•œλ‹€. 즉, λ‹€μŒμ„ μ˜ˆλ‘œλ“€λ©΄ http://daum.net/robots.txt둜 λ“€μ–΄κ°€λ©΄ λœλ‹€.

 

 

naver.com/robots.txt
User-agent: *
Disallow: /
Allow : /$ 

 

  • User-agent : 이 κ·œμΉ™μ΄ 적용될 λ‘œλ΄‡μ˜ 이름
  • Disallow : ν—ˆμš©ν•˜μ§€ μ•ŠλŠ” URL경둜
  • Allow : ν—ˆμš©ν•˜λŠ” URL 경둜 - ( Disallow의 ν•˜μœ„κ²½λ‘œμ€‘, Allow의 URL은 ν—ˆμš©ν•œλ‹€. )
  •  * : "λͺ¨λ“ "μ΄λΌλŠ” 의미
  • /$ : μ²«νŽ˜μ΄μ§€λ§Œ 크둀링 ν—ˆμš©