robots是網站和搜索引擎之間的一個協議,那么他有什么作用呢,說這個咱們需要搞清楚搜索引擎爬蟲的原理。當蜘蛛下載一個網頁;保存一個txt純文本,就是那個快照緩存文本。爬蟲還會提取一些標記和標簽比如a標簽。他把站外的鏈接和內部鏈接進行分開然后再次抓取。就是這樣來連接整個互聯網。這個就是一個爬去原理。這就出現了一個問題,如果咱們不想讓爬蟲爬取,那怎么辦呢,于是就出現了一個協議,叫做robots協議。robots協議的早期是防止網站內的隱私,防止抓取用戶不用想讓搜索引擎進行曝光的頁面。
robots協議,他是一個協議不是一個命令,命令是馬上要執行的,而協議是在搜索引擎的爬蟲爬取后一段時間后才會生效,百度和google聲明24小時就會生效,事實上并非如此我觀察了一下,有的頁面甚至一個月才會生效,我給robots協議生效的時間做了一個總結,那就是24小時到一個月。那么robots協議到底有什么作用呢。robots協議用得好,會讓我們網站邊的更純凈,下面一起來看一下。
1.可以屏蔽無內容頁面,我內容頁面比如說 登陸頁 打印頁 個人信息頁 商城的購物頁等等 大家都知道無內容頁面會影響頁面和全站的質量以及權重。
2.可以屏蔽重復頁面,比如頁面的簡寫版本以及空評論頁,再或者多個路徑可以打開同一頁面,等等重復頁面。重復的頁面對于站內頁面的質量也是會受到非常嚴重的影響的。
3.可以屏蔽死鏈接。當然站內的錯誤和服務器問題,所造成的死鏈接是沒辦法屏蔽的。
robots語法,他一共有三個語法,第一個 Disallow:禁止的意思 第二個 Allow 允許的意思 第三個User-agent:定義搜索引擎的。當然有的robots文件開頭和結尾有“#”這個字符是注釋的意思搜索引擎會忽略。還有兩個通配符,“$”和“*” “$”這個是結束符(所有以他結尾的都能夠進行匹配。)。“*”是匹配零或者多個任意字符。這里說三個大家一直很難理解的地方。
禁止語法:Disallow
請看這個代碼 Disallow: /seo/ 禁止 該網站的 SEO目錄;Disallow: /seo 它不僅僅能夠禁seo這個目錄下的路徑,他還能夠禁止所有以SEO開頭的目錄和文件。這里的斜杠代表目錄。如果Disallow: /直接加斜杠就代表禁止根目錄。沒有禁止的頁面,默認是允許的這樣也許大家會有疑問,既然默認是允許還要Allow這個允許含義的語法有何意義?下面我就來舉例說一下。
允許語法:Allow
Disallow: /citations?
Allow: /citations?user=
Allow: /citations?view_op=new_profile
這三條代碼的意思是禁止所有以citations?開頭的所有路徑。但是除了 “Allow”允許的兩個路徑。其實allow的用處就是簡寫robots代碼。讓robots文件變得更精簡。
通配符“$”的使用。
Disallow: /places/
Allow: /places/$
只收錄 /places/ 這個路徑不收錄這個路徑里面所有的頁面和路徑。
robots語法對網站非常重要,運用好robots會讓你的網站更健康更純凈。好了就寫這么多本人原創轉載請標明出處 捷易通激活碼 http://www.taobaomaiyifu.com 謝謝大家支持。
推薦閱讀
對百度這樣經常小更新和大更新,許多SEOER就開始非常不淡定了。特別是新手做站長的時候就非常不淡定。百度一些不穩定的小更新就讓我們很多站長們開始糾結了。對于外鏈和收錄不穩定情況問題,在各大SEO論壇當中很多站>>>詳細閱讀
地址:http://www.xglongwei.com/a/34/20111219/19853.html