之前我一直強(qiáng)調(diào)細(xì)節(jié)的優(yōu)化,是的現(xiàn)在的百度對(duì)網(wǎng)站的要求就是看你的細(xì)節(jié)做得好不好,代碼、標(biāo)簽等等有屬于細(xì)節(jié),那么Robots也屬于網(wǎng)站細(xì)節(jié)的一部分,做好他對(duì)我們網(wǎng)站有一個(gè)很大的幫助,可能有很多新站長(zhǎng)不知道Robots是一個(gè)什么東東,下面我就給大家說(shuō)幾點(diǎn)關(guān)于Robots的操作。
一、Robots.txt的由來(lái)
我們首先要明白R(shí)obots不是一個(gè)命令或者指令,Robots是一個(gè)網(wǎng)站和搜索引擎的第三方協(xié)議,協(xié)議的內(nèi)容就是Robots.txt里面的內(nèi)容,早期在網(wǎng)站是用于隱私保護(hù)用的,他是存在于我們網(wǎng)站根目錄的一個(gè)txt文件。
二、Robots.txt的作用
我們做好網(wǎng)站上線(xiàn)的時(shí)候,會(huì)有很多不可抗拒的因素被搜索引擎放出來(lái),從而導(dǎo)致我們的網(wǎng)頁(yè)的質(zhì)量整體下降,導(dǎo)致我們網(wǎng)站在搜索引擎的印象變差,Robots的作用就是屏蔽這些不可抗拒的因素不讓蜘蛛把他們放出來(lái),那么我們具體應(yīng)該屏蔽哪一些頁(yè)面呢?
1.屏蔽一些無(wú)內(nèi)容頁(yè)面:給大家舉個(gè)例子就了然了,例如:注冊(cè)頁(yè)、登陸頁(yè)、購(gòu)物頁(yè)、發(fā)帖頁(yè)、留言頁(yè)、搜索首頁(yè)、如果你做了404錯(cuò)誤頁(yè)面也要屏蔽。
2.屏蔽重復(fù)頁(yè)面:如果我們發(fā)現(xiàn)我們網(wǎng)站有兩個(gè)內(nèi)容相同的頁(yè)面,但是路徑不同,我們就要用Robots屏蔽一個(gè)頁(yè)面,蜘蛛還是會(huì)抓取但是不會(huì)放出來(lái),我們可以在谷歌站長(zhǎng)工具里面直接查看被攔截的頁(yè)面數(shù)量。
3.屏蔽一些死鏈接頁(yè)面
我們只屏蔽那些帶有普通特征的頁(yè)面就可以,蜘蛛爬取不到并不意味著蜘蛛抓取不到地址,能夠抓取到地址和能否抓取到是兩個(gè)概念,當(dāng)然我們可以進(jìn)行處理的死鏈接我們是不需求屏蔽的,不可以處理的比如我們?cè)撀窂皆斐傻乃梨溄游覀兪切枰帘蔚摹?/p>
4.屏蔽一些較長(zhǎng)的路徑:超過(guò)網(wǎng)址輸入框的長(zhǎng)路徑我們可以用Robots屏蔽。
三、Robots.txt的使用
1.Robots.txt的建立
在本地新建一個(gè)記事本文件,把它命名為Robots.txt,然后把這個(gè)文件放到我們的根目錄下,這樣我們的Robots.txt就建立完成了,有些開(kāi)源程序比如織夢(mèng)是自帶Robots的,我們修改的時(shí)候只要從根目錄下載就行。
2.常見(jiàn)的語(yǔ)法
User-agent這個(gè)語(yǔ)法是定義搜索引擎爬取程序的。Disallow這個(gè)是禁止的意思。Allow這個(gè)是允許的意思。
我們先來(lái)認(rèn)識(shí)搜索引擎抓取程序也就是蜘蛛或者機(jī)器人
百度蜘蛛我們?cè)赗obots里就寫(xiě)B(tài)aiduspider而谷歌機(jī)器人我們就寫(xiě)Googlebot
我們來(lái)介紹寫(xiě)法,我們的第一行是先要定義搜索引擎
User-agent: Baiduspider(特別要注意的是我們?cè)趯?xiě)Robots的時(shí)候冒號(hào)后面一定要有一個(gè)空格,同時(shí)如果我們要定義所有搜索引擎我們就要用*帶代替Baiduspider)
Disallow: /admin/
這句話(huà)的意思是告訴百度蜘蛛您不要來(lái)收錄我網(wǎng)站的admin文件夾當(dāng)中的網(wǎng)頁(yè),如果我們把a(bǔ)dmin后面的斜杠去掉這個(gè)的意思即完全變了,意思就成了告訴百度蜘蛛您不要收錄我根目錄里所有的admin文件夾當(dāng)中的網(wǎng)頁(yè)。
Allow意思是允許、不禁止,一般來(lái)說(shuō)不會(huì)單獨(dú)使用它,他會(huì)和Disallow一起使用,一起使用的目的是便于目錄的屏蔽靈活的應(yīng)用,更為了減少代碼的使用,舉個(gè)例子比如我們/seo/文件夾中有10萬(wàn)個(gè)文件,有兩個(gè)文件是需要抓取的,我們總不能寫(xiě)幾萬(wàn)個(gè)代碼那樣會(huì)累夠嗆,我們配合起來(lái)僅需要幾行就行了。
User-agent: *(定義所有搜索引擎)
Disallow: /seo/ (禁止對(duì)seo文件夾進(jìn)行收錄)
Allow: /seo/ccc.php
Allow: /seo/ab.html
同時(shí)允許這兩個(gè)文件需要抓取收錄,這樣我們四行代碼就解決了,有人會(huì)問(wèn)是Disallow放在前面還是Allow放在前面,還是Disallow放在前面更規(guī)范。
本文由http://www.51diaoche.net原創(chuàng) 歡迎轉(zhuǎn)載 轉(zhuǎn)載請(qǐng)注明原作者
推薦閱讀
任何的一次成功,都有一個(gè)付出的過(guò)程,沒(méi)有人可以一步登天,凡事都需要一步一個(gè)腳印的經(jīng)歷。所謂欲速則不達(dá),急功近利往往是功敗垂成的罪魁禍?zhǔn)住P抡緝?yōu)化更是需要如此,太過(guò)于急著求成,往往會(huì)使網(wǎng)站優(yōu)化過(guò)度而受到>>>詳細(xì)閱讀
本文標(biāo)題:站長(zhǎng)們千萬(wàn)不要忽略Robots的使用
地址:http://www.xglongwei.com/a/34/20120224/33999.html