ν¬λ‘€λ§ , μ€ν¬λ©ν μ΄λ ? ( robots.txt μ λ»)
* ν¬λ‘€λ§ (crawling)
μ‘°μ§μ , μλνλ λ°©λ²μ ν΅νμ¬ μΉμ νμνλ μ»΄ν¨ν° νλ‘κ·Έλ¨μ ν¬λ‘€λ¬(crawler)λΌκ³ νλ€.
λ°λΌμ ν¬λ‘€λ§μ , ν¬λ‘€λ¬κ° νΉμ κ·μΉμ κ°μ§κ³ μ¬λ¬ μ¬μ΄νΈμ νμ΄μ§λ₯Ό νμνλ©° μμ§νκ³ λΆλ₯νλκ²μ λ§νλ€.
ν¬λ‘€λ§λ μ€ν¬λνμ μΌμ’ μ΄λ€(μ€ν¬λνμ΄ λ ν°λ²μλ₯Ό ν¬ν¨νλ μλ―Έ)
* μ€ν¬λν (scraping)
μΉμΌλ‘ νΉμ μ§μ§ μμΌλ©°, λͺ¨λ μμ€λ‘λΆν° νμν λ°μ΄ν°λ₯Ό κ°μ Έμ€κ³ , μνλ ννλ‘ κ°κ³΅νλ κ²μ λ§νλ€.
λ°λΌμ ν¬λ‘€λ§κ³Ό λΉμ·ν μλ―Έμ΄λ©° ꡬλΆνκΈ° μ΄λ ΅μ§λ§ μ€ν¬λνμ΄ λ ν° λ²μλ₯Ό κ°μ§λ©°, ν¬λ‘€λ§λ μ€ν¬λνμ ν¬ν¨λλ λ¨μ΄λΌκ³ νλ€.
* ν¬λ‘€λ§μμ μ£Όμν κ²
- μλ²(server)μ μ μ± μ΄ νμ©νλ λ²μ λ΄μμλ§ μ΄λ£¨μ΄μ ΈμΌ νλ€.
- ( ν¬λ‘€λ§μμ μλ²μ λ°μλλ λΆν λΌλκ°(requestμμ²μ) 컨ν μΈ μ λν μ μκΆ λ¬Έμ .... λ±λ± )
- robots.txt ( λμ μΉ νμ΄μ§μ 쑰건 ) ex ) naver.com/robots.txt
* robots.txt
μΉ μ¬μ΄νΈμ μΉ ν¬λ‘€λ¬ κ°μ λ‘λ΄λ€μ μ κ·Όμ μ μ΄νκΈ° μν κ·μ½. (λ°λμ μ§ν¬ μ무λ μλ€κ³ νλ€.)
robots.txtλ μΉμ¬μ΄νΈμ μ΅μμ κ²½λ‘(루νΈ)μ μμ΄μΌ νλ€. μ¦, λ€μμ μλ‘λ€λ©΄ http://daum.net/robots.txtλ‘ λ€μ΄κ°λ©΄ λλ€.
naver.com/robots.txt
User-agent: *
Disallow: /
Allow : /$
- User-agent : μ΄ κ·μΉμ΄ μ μ©λ λ‘λ΄μ μ΄λ¦
- Disallow : νμ©νμ§ μλ URLκ²½λ‘
- Allow : νμ©νλ URL κ²½λ‘ - ( Disallowμ νμκ²½λ‘μ€, Allowμ URLμ νμ©νλ€. )
- * : "λͺ¨λ "μ΄λΌλ μλ―Έ
- /$ : 첫νμ΄μ§λ§ ν¬λ‘€λ§ νμ©