蔣鑫鵬再次補(bǔ)充說(shuō)明一下,百度其實(shí)很累的,它對(duì)用戶的每一次搜索行為都要進(jìn)行統(tǒng)計(jì)(當(dāng)然是機(jī)器程序記錄的方式):一般主要記錄搜索的關(guān)鍵詞、到訪的頁(yè)面及 到訪方式(一般都是鏈接)、各頁(yè)面停留時(shí)間(之前不容易讀取到,現(xiàn)在百度通過(guò)瀏覽cookis、百度賬戶、IP記錄、百度統(tǒng)計(jì)【如果網(wǎng)站裝了百度統(tǒng)計(jì)的程 序,實(shí)際上百度很聰明,用各種方式想盡辦法進(jìn)入到網(wǎng)站,比如最近流行的百度分享按鈕,這個(gè)工具實(shí)際上就是最大的間諜】等大量輔助工具來(lái)統(tǒng)計(jì)),一般測(cè)算是 根據(jù)搜索后到訪的百度提供的快照頁(yè)面的瀏覽行為(先打開(kāi)哪個(gè),然后打開(kāi)哪個(gè),在哪里停留的時(shí)間長(zhǎng),最后從哪里離開(kāi)百度來(lái)實(shí)現(xiàn),百度對(duì)于一個(gè)網(wǎng)頁(yè)對(duì)用戶是否 有用的觀點(diǎn):在該頁(yè)面停留時(shí)間最長(zhǎng),并最終在此頁(yè)面瀏覽完畢后離開(kāi)百度為首要標(biāo)準(zhǔn),其次還有在這些頁(yè)面的互動(dòng)程度所起的因素。
二、關(guān)于語(yǔ)義分析:
其實(shí)這段要說(shuō)的在上一段已經(jīng)都提到,列出來(lái)無(wú)非是將“語(yǔ)義分析”這一檢索行為與“分詞”區(qū)別開(kāi)來(lái),語(yǔ)義分析與分詞是相輔相成的,語(yǔ)義分析更多的建立在分詞 與用戶瀏覽行為習(xí)慣數(shù)據(jù)的研究結(jié)論基礎(chǔ)之上,如前所述,百度通過(guò)各種方式大量統(tǒng)計(jì)用戶的行為并針對(duì)這些行為及所用的關(guān)鍵詞及輸入方式索索的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分 詞的支撐與分詞的匹配。
畢竟,再怎么算,那么多網(wǎng)頁(yè)、每天數(shù)十億次的檢索行為,百度還是難以計(jì)算出來(lái)的(百度正在通過(guò)不斷改進(jìn)方式及完善機(jī)器算法來(lái)努力實(shí)現(xiàn)這一浩大工程),目前 主要采用的是針對(duì)熱門搜索的抽樣統(tǒng)計(jì)與其他搜索的隨機(jī)統(tǒng)計(jì)來(lái)實(shí)現(xiàn)搜索語(yǔ)義分析(此為SEO顧問(wèn)蔣鑫鵬根據(jù)實(shí)戰(zhàn)中的觀察做的假想推斷)。

百度最難以捉摸透的與其說(shuō)是排名算法,不如說(shuō)是語(yǔ)義分析算法,因?yàn)榕cSEO搞不懂百度算法一樣,百度同樣搞不懂搜索用戶的搜索意圖(所以百度一直在研究, 一直在調(diào)整,一直在完善,就像SEO一直在研究,一直在調(diào)整,一直在完善一樣的道理)。捉摸不透是一個(gè)原因,更重要的是這些計(jì)算不僅僅是對(duì)于文字及分詞、 匹配度的研究,更是通過(guò)統(tǒng)計(jì)學(xué)、線性數(shù)學(xué)、邏輯學(xué)、行為學(xué)、心理學(xué)等眾多的學(xué)科的精華計(jì)算方法結(jié)合在一起設(shè)計(jì)出的算法結(jié)構(gòu),并不斷修補(bǔ)完善的,說(shuō)到這個(gè)算 法,百度有一個(gè)形容“海量基礎(chǔ)算法”,更不用提每種算法的學(xué)科本身的難度了,這就是苦逼的SEO遲遲不能搞懂百度算法的根本原因,當(dāng)然,作為苦逼的 SEO,蔣鑫鵬同樣也是搞不懂的,如果能搞懂的,大多都是數(shù)學(xué)或計(jì)算機(jī)天才或頂尖人才,早都去搞自己的研究或者發(fā)明去了,還至于追在百度后面吹毛求疵?
更何況,百度本身對(duì)于搜索結(jié)果的“人為干涉”及“壟斷”都帶來(lái)各種斥責(zé),更何況SEO為了一己之利不斷刷排名給用戶推薦低質(zhì)量的信息,那就更遭懂得并理解 搜索算法的牛人看不起了……所以看到這里,如果你覺(jué)得你很牛,就不要做SEO了,如果作為SEO你明白了作者蔣鑫鵬寫此篇文章的意圖,那你就站在SEM或 者網(wǎng)絡(luò)運(yùn)營(yíng)、網(wǎng)絡(luò)營(yíng)銷的高度來(lái)看待SEO,而不是為了半夜趴在電腦前發(fā)外鏈混營(yíng)生而SEO。
扯遠(yuǎn)了,回歸正題,做不到像百度一樣設(shè)計(jì)算法的那個(gè)能耐,如果說(shuō)還能從語(yǔ)義分析中挖掘點(diǎn)對(duì)SEO有幫助的東西,那么蔣鑫鵬建議可以去研究研究你正在做的優(yōu) 化的相關(guān)詞的用戶搜索習(xí)慣,比如,蔣鑫鵬最近給上海智寶美規(guī)車www.zhibaosuv.com做網(wǎng)絡(luò)運(yùn)營(yíng)服務(wù)期間,發(fā)現(xiàn)“美規(guī)車”這一詞正在受到越來(lái) 越多的關(guān)注,而做這個(gè)詞優(yōu)化的很多SEO或者說(shuō)站長(zhǎng)都頂住“美規(guī)車”一個(gè)詞做,而這個(gè)詞用戶搜索的時(shí)候,有可能衍生為&ldqu右,蔣鑫鵬建議不要超過(guò)160字符,因?yàn)檫@樣不僅稀釋關(guān)鍵詞匹配 度,而且百度最近的算法調(diào)整,對(duì)description超出快照顯示的部分將不再做關(guān)鍵詞匹配。同樣以智寶美規(guī)車www.zhibaosuv.com來(lái)說(shuō) 明,蔣鑫鵬將美規(guī)GMC放在描述摘要最好,最近算法調(diào)整后不做顯示了(當(dāng)然可能是個(gè)案,僅供參考)。
5.keywords關(guān)鍵詞匹配度:
keywords對(duì)于百度來(lái)講,貌似本身不作為匹配,但是有一點(diǎn)百度很在意:不要將頁(yè)面沒(méi)有的關(guān)鍵詞加到keywords中,如果這樣,有可能會(huì)被認(rèn)為是在作弊,這點(diǎn)對(duì)于Google來(lái)說(shuō)更是如此,Google對(duì)于keywords作弊比百度嚴(yán)格的多。

keywords一般公認(rèn)的不超過(guò)100字符,這點(diǎn),蔣鑫鵬的理解是,對(duì)于Google來(lái)講:keywords一定不要過(guò)多,要與頁(yè)面匹配,一般頁(yè)面能容 忍的關(guān)鍵詞也就十多個(gè)到頭;對(duì)于百度來(lái)講,建議keywords的設(shè)計(jì)根據(jù)百度權(quán)重(可用站長(zhǎng)工具或愛(ài)站網(wǎng)測(cè)試)關(guān)鍵詞來(lái)設(shè)計(jì),有權(quán)重的詞,可以加到 keywords中。
對(duì)于企業(yè)網(wǎng)站而言,因?yàn)門itle和description限制而字?jǐn)?shù)有限,無(wú)法容納公司全稱,這個(gè)時(shí)候可以考慮將公司全稱及簡(jiǎn)稱在keywords中體現(xiàn)一下,因?yàn)轫?yè)面版權(quán)信息中一般會(huì)包含公司名和簡(jiǎn)稱。
6.頁(yè)面內(nèi)容中的關(guān)鍵詞匹配度:
頁(yè)面內(nèi)容不做分詞計(jì)算,但標(biāo)簽中的分詞和快照中存檔的分詞在頁(yè)面所占比列計(jì)算中會(huì)對(duì)頁(yè)面中包含的關(guān)鍵詞進(jìn)行匹配并計(jì)算次數(shù)及在整個(gè)頁(yè)面字符中所占比例。
頁(yè)面的關(guān)鍵詞重要程度首要的是H標(biāo)簽和其他重要的標(biāo)簽,當(dāng)然在百度快照中主要是按照頁(yè)面世家顯示的文字為標(biāo)準(zhǔn),一般鏈接錨文本中包含的關(guān)鍵詞、頁(yè)面突出位 置出現(xiàn)的關(guān)鍵詞、以突出的方式(字體、顏色)展示出的關(guān)鍵詞會(huì)比較重要,這點(diǎn)要根據(jù)具體頁(yè)面作分析,SEO朋友們可以在檢索關(guān)鍵詞結(jié)果中直接查看百度快照 中顯示的關(guān)鍵詞匹配程度,黃色最高,其次為紅色和藍(lán)色、綠色。
快照是存放在百度數(shù)據(jù)庫(kù)中的靜態(tài)網(wǎng)頁(yè),不是真實(shí)的網(wǎng)頁(yè),所以就有快照更新一說(shuō)。從快照頁(yè)面源代碼中可以看出,百度快照中只是記載了頁(yè)面的基本代碼及文本文件,并為存儲(chǔ)照片及其他文件,現(xiàn)實(shí)中的快照中的圖片是從頁(yè)面文件收錄快照時(shí)記錄的文件地址調(diào)用過(guò)來(lái)的。
百度快照的存在,才是大家都關(guān)心百度快站更新的根本原因,因?yàn)槿绻煺詹桓拢@得排名的機(jī)會(huì)就會(huì)變少,這個(gè)時(shí)候的你的網(wǎng)站的快照在百度快照數(shù)據(jù)庫(kù)中就像 一個(gè)棄嬰……寫到此,作者蔣鑫鵬再次將自己的觀察提醒一下:以前大家都認(rèn)為靜態(tài)頁(yè)面更受搜索歡迎,隨著2.0的不斷發(fā)展及互聯(lián)網(wǎng)社交化的趨勢(shì),似乎這點(diǎn)正 在被改寫并朝著相反方向發(fā)展,靜態(tài)頁(yè)面、偽靜態(tài)開(kāi)始被搜索程序嫌棄……蔣鑫鵬是這樣理解的,如果頁(yè)面是靜態(tài)的,那么搜索引擎更容易認(rèn)為你的頁(yè)面內(nèi)容更新會(huì) 比較慢,這樣自然影響收錄頻率,蜘蛛到訪的頻次也就降低了……
推薦閱讀
中申科技的網(wǎng)站優(yōu)化是否采用了低級(jí)作弊手段
大家好,我是哈爾濱虛實(shí)網(wǎng)站設(shè)計(jì),最近一直在給客戶做優(yōu)化,感覺(jué)以前用的一些方式,好像有點(diǎn)過(guò)時(shí)吧,過(guò)不過(guò)時(shí)大家?guī)臀铱聪掳桑抑饕褪窃跇?biāo)題和關(guān)鍵詞描述中作弊,另外就是關(guān)鍵詞的錨文點(diǎn),還有不自然的加一些關(guān)鍵>>>詳細(xì)閱讀
本文標(biāo)題:蔣鑫鵬:百度搜索算法總結(jié)—關(guān)鍵詞分詞算法
地址:http://www.xglongwei.com/a/34/20120513/59571.html