欧洲国产视频_自拍视频在线_www.精品_国产小视频免费_日韩在线_av黄色天堂

搜索引擎的數據分析系統

作者:Lgo100 來源:未知 2012-07-12 14:31:21 閱讀 我要評論 直達商品

  數據分析系統,是搜索引擎整個工作流程的第二個系統,也就是既搜索引擎蜘蛛抓取系統的后一個系統,搜索引擎的數據分析系統主要用來處理蜘蛛抓取回來的網頁,今天呢,小強會給你詳細的講解,搜索引擎的數據分析系統的工作流程及幾個重要的知識點。我們剛剛說了,數據分析系統主要是分析蜘蛛抓取回來的內容,那么怎樣分析呢?主要涵蓋以下幾點。

  網頁結構化

  什么是網頁結構化呢?我們要知道網頁,是由html組成,搜索引擎蜘蛛最后抓取回來的,也都是html的代碼頁面,簡單的說,網頁結構化,就是刪掉html代碼,然后留下其中的內容,如下圖,圖1是網頁結構化之前,圖2就是網頁結構化之后。

  

網頁結構化之前

 

  網頁結構化之前

  

網頁結構化之后

 

  網頁結構化之后

  網頁的內容消噪

  在網頁結構后之后,依然存在著一些搜索引擎不需要的內容,比如說導航欄的菜單文字,底部的版權信息等,這些呢,都是搜索引擎不需要的,搜索引擎只需要內容,那么在這個時候就會對網頁結構化之后的內容進行消噪處理,簡單的說,消噪就是把內容之外的文字全部刪掉,比如菜單上的文字,底部版權的文字等等。

  那么搜索引擎的數據分析系統怎么判斷哪些是菜單文字哪些是版權信息呢?

  其實很簡單,就是對比,比如一個內容頁,除了內容不一樣,其他的內容幾乎一樣,比如導航,每個頁面都有導航,而且文字也一樣,版權也是,當然也會根據html的源碼去分析。

  對頁面的查重

  對頁面的查重其實很好理解,就是搜索引擎蜘蛛在抓取你這個網站所有的頁面中,用你這個頁面去對比抓取的頁面,看看內容是否有重復,如果有,那么就刪掉。

  分詞

  分詞是什么東西呢?簡單的說,就是把一句話切割成N個詞語,分詞又分為中文分詞和英文分詞,搜索引擎有一本自己的數據庫字典,里邊有好多詞語,然后對照著字典進行分詞;其中還有一點,就是在分詞的時候,會把一些無用的字去掉,比如,的、啊等等。

  頁面對應URL的分析

  這個是網頁分析系統的最后一個步驟,主要是根據一些外在因素、內在因素對這個頁面對應URL的權重值的判斷,比如外鏈、內鏈等,這個影響到這個頁面關鍵詞的排名。

  本文地址:http://www.shizhanqiang.com/2012071065.html


  推薦閱讀

  招聘類欺詐網站泛濫 360網址云安全全面攔截

會打字能上網就行,兼/全職均可,日結200-300高薪,伴隨著暑假的到來,近期類似的各種虛假招聘信息開始泛濫。360安全中心提示,這些形同天上掉餡餅式的美差,大多是不法分子精心布置的陷阱,建議廣大同學警惕網絡招聘>>>詳細閱讀


本文標題:搜索引擎的數據分析系統

地址:http://www.xglongwei.com/a/34/20120712/75213.html

頂一下

樂購科技部分新聞及文章轉載自互聯網,供讀者交流和學習,若有涉及作者版權等問題請及時與我們聯系,以便更正、刪除或按規定辦理。感謝所有提供資訊的網站,歡迎各類媒體與樂購科技進行文章共享合作。

網友點評
我的評論: 人參與評論
驗證碼: 匿名回答
網友評論(點擊查看更多條評論)
友情提示: 登錄后發表評論,可以直接從評論中的用戶名進入您的個人空間,讓更多網友認識您。
自媒體專欄

評論

熱度

主站蜘蛛池模板: 亚洲经典在线中文字幕 | 欧美猛黑又粗又长xxxx乱 | 特级av毛片免费观看 | 91精品久久久 | 久久机热这里只有精品 | 国内精品自在自线2020 | 久久免费看 | 欧美精彩视频 | 在线播放日本爽快片 | 青青在线精品视频 | 欧美综合在线观看 | 国产午夜影院 | 久久合| 久久99国产亚洲高清 | 韩国 av| 波多野结衣中文字幕一区二区 | 日本免费不卡在线一区二区三区 | 2020年福利免费视频 | 久久免费手机视频 | 天天视频色 | www.日本在线视频 | 人人揉人人添人人捏人人看 | 国产综合色在线视频区 | 天天插日日干 | 激情丁香小说 | 青青操国产视频 | 久草高清在线 | 99精品免费视频 | jizz在线免费观看 | 两个人的视频在线观看www | 国产成人久久精品激情91 | 国产黄色91 | 日本三级香港三级妇三 | 蜜桃视频免费观看入口大全 | 免费大片黄在线观看 | re久久| 亚洲成a人片在线观看中文 亚洲成a人片在线观看中文!!! | 国产亚洲精品成人婷婷久久小说 | 欧美国产一区二区三区 | 欧洲色播 | 国产福利区一区二在线观看 |