Robots文件是網(wǎng)站和蜘蛛軌范之間的“正人和談”——robots文件不僅僅可以節(jié)約網(wǎng)站的資本,還可以輔佐蜘蛛加倍有用的抓取網(wǎng),年夜而提高排名。
1:只許可谷歌bot
如不美觀要阻擋除谷歌bot之外的所有爬蟲:
User-agent:*
disallow:/
Uer-agent:許可的蜘蛛名
Disallow:
2:“/folder/”和“/folder”的區(qū)別
舉個例子:
User-agent:*
Disallow:/folder/
Disallow:/folder
“Disallow:/folder/”暗示阻擋的是一個目錄,該目錄文件下的所有文件不許可被抓取,可是許可抓取folder.hlml。
“Disallow:/folder”:對/folder/下的所有文件和folder.html都不能被抓取。
3:“*”匹配肆意字符
User-agent:*
暗示屏障所有的蜘蛛。當(dāng)我們做了偽靜態(tài)措置之后,會同時又動態(tài)網(wǎng)頁和靜態(tài)網(wǎng)頁,網(wǎng)頁內(nèi)容一模一樣,視為鏡態(tài)頁面,所以我們要屏障失蹤動態(tài)的網(wǎng)頁,可以用*號來屏障動態(tài)的網(wǎng)頁
User-agent:*
Disallow:/?*?/
4:$匹配網(wǎng)址竣事
如不美觀要阻擋以某個字符串竣事的網(wǎng)址,就可以使用$,例如,要阻擋以.asp竣事的網(wǎng)址:
User-agent:*
Disallow:/*.asp$
也可以打開斗勁優(yōu)異的網(wǎng)站,看他們的robots文件是若何書寫的,然后按照自己的需求進行響應(yīng)的改削。Robots文件可以讓蜘蛛把更多的時刻花在要抓取的內(nèi)容上,所以優(yōu)化robots文件是很有需要的。
本文來自東陽高復(fù):http://mygaofu.com,轉(zhuǎn)載請注明鏈接