此文接上文百度算法總結詳細請點擊:蔣鑫鵬:百度算法總結
一、關于中文分詞:
1.中文分詞難度分析
首先要說明下的是:普通用戶的搜索與做SEO或者更大說熟悉網絡搜索用戶的搜索習慣是非常不一樣的,而恰巧普通搜索用戶是百度搜索的基礎力量。在開頭贅述 這一點是蔣鑫鵬為了表達其對于百度搜索算法中的中文分詞的重視。因為,對于百度google這樣的第二代搜索引擎來說,采用的檢索技術主要是依靠關鍵字來 匹配的,而用戶對于關鍵詞的理解與機器程序對于關鍵詞的理解是有很大距離的。
在中文分詞方面百度勝過了Google,這是baidu取勝google的關鍵因素之一,中文的分詞比英文要復雜得多(同樣與中文分詞一樣麻煩的重要語言 還有日語、韓語、俄語,這也是Google沒辦法在這幾個地區取勝的原因之一),蔣鑫鵬在這里因為篇幅不做贅述,有興趣的朋友可以研究一下拉丁語系(以英 文為例)的造句與中文造句的區別,中文造句不僅近義詞很多,而且語序變化無常,副詞太多(主謂賓之外的定狀補,嘆詞等等)。

簡單舉個例子“百度如何排名”“百度是如何排名的”“百度怎么排名”“百度是怎么排名的”“百度如何排位”“百度怎么排位”“百度按什么排名”“百度靠什 么排名”“百度的搜索是怎么排位的”……這幾個短語短句至少都包含一個意思“百度搜索結果的排名是什么規則(原理)”,除此之外,每個句子都有其他的含 義,如這些句子還包含有“怎么做百度排名(實現這個目標的方法)”“百度是怎么進行搜索排名的(原理實現的過程)”……
拿上面的例子來說:當用戶輸入以上短句時(大多數情況下,普通用戶把百度當做是萬能的,所以才搜索SEO開來這么不符合規則的搜索行為),百度要迅速的響應出用戶需要的結果,這個時候,百度面臨的核心問題是:
A.首先要知道用戶是要搜什么(語義分析,見“二”);
B.其次因為百度的檢索方式目前仍然以關鍵詞匹配技術為主,所以要對用戶的搜索進行分詞(下一段將分析百度如何分詞);
C.然后百度要通過分詞分出的結果,去數據庫中檢索匹配的快照;
D.上一步只是檢索出來,還要進行第四部的排名,這個時候已經不是挑戰百度的難題了(雖然在SEO看來,這一步確實是非常艱難的)
E.第五步要將得到的結果返回到搜索頁面給用戶使用,并且要完成其廣告的投放(百度競價廣告),并要適當推廣自己的產品(百度知道、百度文庫……)寫的有點亂,SEO顧問蔣鑫鵬在此致歉,沒找到更好的陳述方式,望朋友們整理發揚光大。
2.百度中文分詞方式:
百度對于中文的分詞不僅是大量的用戶搜索(這點不同于Google,百度畢竟是植根于中國文化的,對中文更了解),而且還有龐大的中文詞典數據庫作支撐, 并且動態加入了搜索熱詞,搜索行為造詞等技術,【從近期百度算法的調整看,百度比以前更加尊重用戶的搜索行為,就是用戶的輸入為首要,百度糾正次要,這點 那很重要哦】下面以實例來說,用戶搜索“百度如何排名?”時的分詞:
A.自然分割:包括標點符號、空格引起的分割,這是首要因素,比如或者“百度 如何排名”這樣的搜索行為會被百度首先劃分為“百度”、“如何排名”,這一點是肯定的,要理解用戶搜索的行為意圖,首先是要尊重用戶的搜索行為;(這是 SEO顧問蔣鑫鵬根據實戰中的觀察總結出的,做SEO的很多朋友可能沒注意到,在此提個醒)
B.中文詞庫分割:不難理解,“百度如何排名”將被分為“百度”“如何”“排名”這幾個詞,因為這是中文詞典里存在的詞,百度有龐大的中文詞典庫支撐,這個不是難度;
C.分詞組合分詞:B中的分詞顯然是不夠的,要更能理解用戶意圖,必須保證語義連貫,那么那三個詞可以組合成“百度如何排名”;“百度如何”+“排名”; “百度排名”+“如何”;“如何排名”+“百度”以及這幾個詞顛倒的組合,重要程度按照順序優先原則,緊接著是倒序和雙向序列的分詞組合,分析切分有個基 本的原則就是最少的切分。
以上三點是通常意義上的分詞,除此之外,還有更麻煩的分詞需要百度處理,見后幾點。
D.分字:如果用戶搜索“百 度 如 何 排名”的時候,百度也是無可奈何的,因為你不能判斷出來用戶就是在搜索“百度 如何 排名”,還得尊重用戶搜索行為,所以,不得不進一步將中文詞進行分字:“百”“度”“如”“何”“排名”,然后在進行組合分詞,組成不同的詞組去數據庫中 匹配。
E.別音字/錯別字:如有人搜索“白度如何排名”實際上是誤將“百度”打成“白度”,那么百度還要糾正這種錯誤,但近期的調整看,百度不像以前通過詞庫近 義匹配來進行糾錯【而更多的是以用戶搜索后瀏覽的行為積累的數據來為糾錯做準備】(如搜索“白度”的很多用戶最后花更多時間在“百度”關鍵詞頁面上,那么 百度以后對于“白度”的搜索糾錯會偏重到“百度”上!
當然,這個詞是蔣鑫鵬舉例說明,實際上百度搜索“白度”不是這樣的,例子可以參看百度的“美規車”查看,百度會提示或者說試探你“您要找的是不是: 美規車”),此外,百度對于糾錯通過搜索下拉框相關詞推薦、搜索頁面底部“相關搜索”、百度知道(用戶量很大,是百度搜索的重要補充)來進行糾錯數據的統 計與糾錯引導。
F.新詞:新詞的來源一般有兩種:a.近期流行語造成,這個百度的數據庫會根據用戶搜索行為積累的數據以及網絡熱詞監測數據來進行調整補充到詞庫;b.語言新詞/用戶造詞,這個主要是靠搜索行為累積的數據調整,也針對部分語言新詞人工作補充。
推薦閱讀
大家好,我是哈爾濱虛實網站設計,最近一直在給客戶做優化,感覺以前用的一些方式,好像有點過時吧,過不過時大家幫我看下吧,我主要就是在標題和關鍵詞描述中作弊,另外就是關鍵詞的錨文點,還有不自然的加一些關鍵>>>詳細閱讀
本文標題:蔣鑫鵬:百度搜索算法總結—關鍵詞分詞算法
地址:http://www.xglongwei.com/a/34/20120513/59571.html