* ํฌ๋กค๋ง (crawling)
์กฐ์ง์ , ์๋ํ๋ ๋ฐฉ๋ฒ์ ํตํ์ฌ ์น์ ํ์ํ๋ ์ปดํจํฐ ํ๋ก๊ทธ๋จ์ ํฌ๋กค๋ฌ(crawler)๋ผ๊ณ ํ๋ค.
๋ฐ๋ผ์ ํฌ๋กค๋ง์ , ํฌ๋กค๋ฌ๊ฐ ํน์ ๊ท์น์ ๊ฐ์ง๊ณ ์ฌ๋ฌ ์ฌ์ดํธ์ ํ์ด์ง๋ฅผ ํ์ํ๋ฉฐ ์์งํ๊ณ ๋ถ๋ฅํ๋๊ฒ์ ๋งํ๋ค.
ํฌ๋กค๋ง๋ ์คํฌ๋ํ์ ์ผ์ข
์ด๋ค(์คํฌ๋ํ์ด ๋ ํฐ๋ฒ์๋ฅผ ํฌํจํ๋ ์๋ฏธ)
* ์คํฌ๋ํ (scraping)
์น์ผ๋ก ํน์ ์ง์ง ์์ผ๋ฉฐ, ๋ชจ๋ ์์ค๋ก๋ถํฐ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๊ณ , ์ํ๋ ํํ๋ก ๊ฐ๊ณตํ๋ ๊ฒ์ ๋งํ๋ค.
๋ฐ๋ผ์ ํฌ๋กค๋ง๊ณผ ๋น์ทํ ์๋ฏธ์ด๋ฉฐ ๊ตฌ๋ถํ๊ธฐ ์ด๋ ต์ง๋ง ์คํฌ๋ํ์ด ๋ ํฐ ๋ฒ์๋ฅผ ๊ฐ์ง๋ฉฐ, ํฌ๋กค๋ง๋ ์คํฌ๋ํ์ ํฌํจ๋๋ ๋จ์ด๋ผ๊ณ ํ๋ค.
* ํฌ๋กค๋ง์์ ์ฃผ์ํ ๊ฒ
- ์๋ฒ(server)์ ์ ์ฑ
์ด ํ์ฉํ๋ ๋ฒ์ ๋ด์์๋ง ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค.
- ( ํฌ๋กค๋ง์์ ์๋ฒ์ ๋ฐ์๋๋ ๋ถํ ๋ผ๋๊ฐ(request์์ฒญ์) ์ปจํ
์ธ ์ ๋ํ ์ ์๊ถ ๋ฌธ์ .... ๋ฑ๋ฑ )
- robots.txt ( ๋์ ์น ํ์ด์ง์ ์กฐ๊ฑด ) ex ) naver.com/robots.txt
* robots.txt
์น ์ฌ์ดํธ์ ์น ํฌ๋กค๋ฌ ๊ฐ์ ๋ก๋ด๋ค์ ์ ๊ทผ์ ์ ์ดํ๊ธฐ ์ํ ๊ท์ฝ. (๋ฐ๋์ ์งํฌ ์๋ฌด๋ ์๋ค๊ณ ํ๋ค.)
robots.txt๋ ์น์ฌ์ดํธ์ ์ต์์ ๊ฒฝ๋ก(๋ฃจํธ)์ ์์ด์ผ ํ๋ค. ์ฆ, ๋ค์์ ์๋ก๋ค๋ฉด http://daum.net/robots.txt๋ก ๋ค์ด๊ฐ๋ฉด ๋๋ค.
naver.com/robots.txt
User-agent: *
Disallow: /
Allow : /$
- User-agent : ์ด ๊ท์น์ด ์ ์ฉ๋ ๋ก๋ด์ ์ด๋ฆ
- Disallow : ํ์ฉํ์ง ์๋ URL๊ฒฝ๋ก
- Allow : ํ์ฉํ๋ URL ๊ฒฝ๋ก - ( Disallow์ ํ์๊ฒฝ๋ก์ค, Allow์ URL์ ํ์ฉํ๋ค. )
- * : "๋ชจ๋ "์ด๋ผ๋ ์๋ฏธ
- /$ : ์ฒซํ์ด์ง๋ง ํฌ๋กค๋ง ํ์ฉ