์ƒˆ์†Œ์‹

๐Ÿ ํŒŒ์ด์ฌ (Python)/-- ์›น ํฌ๋กค๋ง (web crawling)

ํฌ๋กค๋ง , ์Šคํฌ๋žฉํ•‘ ์ด๋ž€ ? ( robots.txt ์˜ ๋œป)

  • -

* ํฌ๋กค๋ง (crawling)

์กฐ์ง์ , ์ž๋™ํ™”๋œ ๋ฐฉ๋ฒ•์„ ํ†ตํ•˜์—ฌ ์›น์„ ํƒ์ƒ‰ํ•˜๋Š” ์ปดํ“จํ„ฐ ํ”„๋กœ๊ทธ๋žจ์„ ํฌ๋กค๋Ÿฌ(crawler)๋ผ๊ณ  ํ•œ๋‹ค. 

๋”ฐ๋ผ์„œ ํฌ๋กค๋ง์€ , ํฌ๋กค๋Ÿฌ๊ฐ€ ํŠน์ • ๊ทœ์น™์„ ๊ฐ€์ง€๊ณ  ์—ฌ๋Ÿฌ ์‚ฌ์ดํŠธ์˜ ํŽ˜์ด์ง€๋ฅผ ํƒ์ƒ‰ํ•˜๋ฉฐ ์ˆ˜์ง‘ํ•˜๊ณ  ๋ถ„๋ฅ˜ํ•˜๋Š”๊ฒƒ์„ ๋งํ•œ๋‹ค.

ํฌ๋กค๋ง๋„ ์Šคํฌ๋ž˜ํ•‘์˜ ์ผ์ข…์ด๋‹ค(์Šคํฌ๋ž˜ํ•‘์ด ๋” ํฐ๋ฒ”์œ„๋ฅผ ํฌํ•จํ•˜๋Š” ์˜๋ฏธ)

 

 

* ์Šคํฌ๋ž˜ํ•‘ (scraping)

์›น์œผ๋กœ ํŠน์ •์ง“์ง€ ์•Š์œผ๋ฉฐ, ๋ชจ๋“  ์†Œ์Šค๋กœ๋ถ€ํ„ฐ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ฐ€์ ธ์˜ค๊ณ , ์›ํ•˜๋Š” ํ˜•ํƒœ๋กœ ๊ฐ€๊ณตํ•˜๋Š” ๊ฒƒ์„ ๋งํ•œ๋‹ค.

๋”ฐ๋ผ์„œ ํฌ๋กค๋ง๊ณผ ๋น„์Šทํ•œ ์˜๋ฏธ์ด๋ฉฐ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ต์ง€๋งŒ ์Šคํฌ๋ž˜ํ•‘์ด ๋” ํฐ ๋ฒ”์œ„๋ฅผ ๊ฐ€์ง€๋ฉฐ, ํฌ๋กค๋ง๋„ ์Šคํฌ๋ž˜ํ•‘์— ํฌํ•จ๋˜๋Š” ๋‹จ์–ด๋ผ๊ณ  ํ•œ๋‹ค.

 

 

* ํฌ๋กค๋ง์‹œ์— ์ฃผ์˜ํ•  ๊ฒƒ

  •  ์„œ๋ฒ„(server)์˜ ์ •์ฑ…์ด ํ—ˆ์šฉํ•˜๋Š” ๋ฒ”์œ„ ๋‚ด์—์„œ๋งŒ ์ด๋ฃจ์–ด์ ธ์•ผ ํ•œ๋‹ค.
  •  ( ํฌ๋กค๋ง์‹œ์— ์„œ๋ฒ„์— ๋ฐœ์ƒ๋˜๋Š” ๋ถ€ํ•˜ ๋ผ๋˜๊ฐ€(request์š”์ฒญ์‹œ) ์ปจํ…์ธ ์— ๋Œ€ํ•œ ์ €์ž‘๊ถŒ ๋ฌธ์ œ.... ๋“ฑ๋“ฑ )
  • robots.txt ( ๋Œ€์ƒ ์›น ํŽ˜์ด์ง€์˜ ์กฐ๊ฑด ) ex ) naver.com/robots.txt

 

 

 

* robots.txt 

์›น ์‚ฌ์ดํŠธ์— ์›น ํฌ๋กค๋Ÿฌ ๊ฐ™์€ ๋กœ๋ด‡๋“ค์˜ ์ ‘๊ทผ์„ ์ œ์–ดํ•˜๊ธฐ ์œ„ํ•œ ๊ทœ์•ฝ. (๋ฐ˜๋“œ์‹œ ์ง€ํ‚ฌ ์˜๋ฌด๋Š” ์—†๋‹ค๊ณ  ํ•œ๋‹ค.)

robots.txt๋Š” ์›น์‚ฌ์ดํŠธ์˜ ์ตœ์ƒ์œ„ ๊ฒฝ๋กœ(๋ฃจํŠธ)์— ์žˆ์–ด์•ผ ํ•œ๋‹ค. ์ฆ‰, ๋‹ค์Œ์„ ์˜ˆ๋กœ๋“ค๋ฉด http://daum.net/robots.txt๋กœ ๋“ค์–ด๊ฐ€๋ฉด ๋œ๋‹ค.

 

 

naver.com/robots.txt
User-agent: *
Disallow: /
Allow : /$ 

 

  • User-agent : ์ด ๊ทœ์น™์ด ์ ์šฉ๋  ๋กœ๋ด‡์˜ ์ด๋ฆ„
  • Disallow : ํ—ˆ์šฉํ•˜์ง€ ์•Š๋Š” URL๊ฒฝ๋กœ
  • Allow : ํ—ˆ์šฉํ•˜๋Š” URL ๊ฒฝ๋กœ - ( Disallow์˜ ํ•˜์œ„๊ฒฝ๋กœ์ค‘, Allow์˜ URL์€ ํ—ˆ์šฉํ•œ๋‹ค. )
  •  * : "๋ชจ๋“ "์ด๋ผ๋Š” ์˜๋ฏธ
  • /$ : ์ฒซํŽ˜์ด์ง€๋งŒ ํฌ๋กค๋ง ํ—ˆ์šฉ
Contents

ํฌ์ŠคํŒ… ์ฃผ์†Œ๋ฅผ ๋ณต์‚ฌํ–ˆ์Šต๋‹ˆ๋‹ค

์ด ๊ธ€์ด ๋„์›€์ด ๋˜์—ˆ๋‹ค๋ฉด ๊ณต๊ฐ ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค.