前段時(shí)刻寫了篇robots.txt文件怎么寫,可是經(jīng)由過(guò)程現(xiàn)實(shí)不雅察看,有些伴侶對(duì)于robots.txt文件的軌則仍是有必然的誤區(qū)。
好比有良多人這樣寫:
User-agent: *
Allow: /
Disallow: /mulu/
不知道巨匠有沒(méi)有看出來(lái),這個(gè)軌則其實(shí)是不起浸染的,第一句Allow: / 指的是許可蜘蛛爬行所有內(nèi)容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有內(nèi)容。
概況上看這個(gè)軌則想達(dá)到的目的是:許可蜘蛛爬行除了/mulu/之外的網(wǎng)站所有頁(yè)面。
可是搜索引擎蜘蛛執(zhí)行的軌則是年夜上到下,這樣會(huì)造成第二句呼吁失蹤效。
正確的軌則應(yīng)該是:
User-agent: *
Disallow: /mulu/
Allow: /
也就是先執(zhí)行禁止呼吁,再執(zhí)行許可呼吁,這樣就不會(huì)失蹤效了。
此外對(duì)于百度蜘蛛來(lái)說(shuō),還有一個(gè)輕易犯的錯(cuò)誤,那就是Disallow呼吁和Allow呼吁之后要儀筧?/開(kāi)首,所以有些人這樣寫:Disallow: *.html 這樣對(duì)百度蜘蛛來(lái)說(shuō)是錯(cuò)誤的,應(yīng)該寫成:Disallow: /*.html 。
有時(shí)辰我們寫這些軌則可能會(huì)有一些沒(méi)有注重到的問(wèn)題,此刻可以經(jīng)由過(guò)程百度站長(zhǎng)工具(zhanzhang.baidu.com)和Google站長(zhǎng)工具來(lái)測(cè)試。
相對(duì)來(lái)說(shuō)百度站長(zhǎng)工具robots工具相對(duì)簡(jiǎn)陋一些:



百度Robots工具只能檢測(cè)每一行呼吁是否合適語(yǔ)犯罪則,可是不檢測(cè)現(xiàn)實(shí)效不美觀和抓取邏輯軌則。
相對(duì)來(lái)說(shuō)Google的Robots工具好用良多,如圖:

在谷歌站長(zhǎng)工具里的名稱是抓取工具的權(quán)限,并陳述Google抓取網(wǎng)站頁(yè)面的時(shí)辰被阻擋了若干好多個(gè)網(wǎng)址。

還可以在線測(cè)試Robots改削后的效不美觀,當(dāng)然這里的改削只是測(cè)試用,如不美觀沒(méi)有問(wèn)題了,可以生成robots.txt文件,或者把呼吁代碼復(fù)制到robots.txt文本文檔中,上傳到網(wǎng)站根目錄。

Google的測(cè)試跟百度有很年夜的區(qū)別,它可以讓你輸入某一個(gè)或者某些網(wǎng)址,測(cè)試Google蜘蛛是否抓取這些網(wǎng)址。

測(cè)試結(jié)不美觀是這些網(wǎng)址被Google蜘蛛抓取的情形,這個(gè)測(cè)試對(duì)于Robots文件對(duì)某些特定url的軌則是否有用。
而兩個(gè)工具連系起來(lái)當(dāng)然更好了,這下應(yīng)該徹底年夜白robots應(yīng)該怎么寫了吧。
轉(zhuǎn)載請(qǐng)注明來(lái)自逍遙博客,本文地址:http://liboseo.com/1170.html
除非注明,逍遙博客文章均為原創(chuàng),轉(zhuǎn)載請(qǐng)注明出處和鏈接!