導語:我們身處海量數據時代。2011年,全球產生的數據量達到1.8ZB(1ZB=10億TB,1TB=1000GB)。未來十年,全球大數據還將增加50倍。面對數據的暴增,如何有效的存儲、管理、訪問這些數據?互聯網企業將如何應對大數據處理所帶來的技術挑戰?
近日,主要來自各大互聯網企業的300多位工程師匯聚百度技術沙龍,與中科院、百度、58同城的技術專家圍繞海量數據分析的技術趨勢與應對進行了深入的研討交流。由于吸引了眾多一線的大數據處理專家參與,本期沙龍被業界謂之“大數據處理技術群英匯”。百度通過沙龍,向業界分享了自己領先的海量數據處理技術。
正視海量數據所蘊藏的價值金礦
在互聯網的世界,每個人的行為不再是“人似秋鴻有來信,事如春夢了無痕”,任何行為都有前兆,任何行為也都將對后續產生影響。對于互聯網大數據的分析,某種程度上將讓人類擁有預知并影響未來的能力。而這也正是大數據的魅力所在。每個企業和機構都應正視海量數據所蘊藏的價值金礦。
百度對于大數據的管理與價值發掘能力處于絕對領先的地位。作為全球最大的中文搜索引擎,百度每天響應來自138個國家和地區的數十億次請求,要處理超過100PB(1PB=1024TB)的數據,從浩如煙海的信息中精確抓取約10億網頁,同時索引庫還擁有千億級在線索引能力,以幫助用戶完成搜索過程。過去10年,百度網頁搜索庫已從500萬猛增到了500億。
遵循開放、分享的互聯網精神,百度希望把自身對于大數據處理的能力和技術積累向業界開放,分享自身領先的技術理念和實踐,幫助所有置身于海量數據之中的企業和技術人員,共同促動行業進步。
事實上,大數據在生活中無處不在。街上的汽車、路上的行人、天上的衛星等幾乎所有的東西每分鐘都在生成大量的數據,并通過各類終端進入互聯網。從商業、經濟及其他領域到國家的決策行為,海量數據分析都在日益發揮著積極而重要的作用。奧巴馬政府宣布投資2億美元,啟動“大數據研究和發展計劃”。當前,海量數據分析與處理技術已成為各界熱切關注的焦點。
海量數據處理技術,成就百度毫秒級搜索響應
中科院計算所副研究員查禮博士在沙龍上指出:百度毫秒級的搜索響應速度源于海量數據分析技術。大數據發展分為三個階段,第一個就是大,通過分布式系統架構Hadoop來編輯出大量的數據,這個階段現在已經完成。第二個就是快,在解決大量問題、調用大量數據的同時,盡可能縮短時間,是現階段需要解決的問題。“以時間換空間”是現在主流的解決方法。第三個就是準,在使用搜索引擎的時候,根據每個人的使用習慣和需求方式的不同,來獲得更準確的答案,是大數據未來的發展目標。
據百度分布式高級研發工程師楊棟介紹,從“快”到“準”也正是百度目前的課題。現階段百度將100毫秒定為搜索響應速度標準,并通過去重算法和云存儲等創新技術,在內存、高可用、讀寫等方面做出革新,不斷縮減這個數值,達到更快的響應速度。此外,百度還采用了hypertable(開源分布式存儲系統)與hadoop系統結合的方式,更好地完成存儲,節約成本及降低能耗。
“準”作為海量數據技術的未來發展趨勢,已在百度初現端倪。百度新首頁的“推薦引擎”技術就已經部分實現“不搜即得”的智能應用推薦,即基于用戶以往的使用習慣分析,直接將用戶需要的信息推送至用戶個人首頁。
毫無疑問,海量數據時代已經到來,從“快”到“準”的大數據處理技術,將讓每一個網民受益,享受到更便捷貼心的網絡體驗。
據了解,百度技術沙龍系由百度與技術社區合作舉辦,至今已經成功舉辦了25期。經過兩年多的積累,百度技術沙龍在互聯網業內已成為公認最權威、最受技術人員歡迎的技術交流平臺。往期回顧及資料下載,可訪問:salon.baidu-tech.com
推薦閱讀
4月11-12日,英特爾IDF2012信息技術峰會在京召開。會上,智能手機、超極本成為英特爾的關鍵詞,也是英特爾移動市場布局的種子選手。 超極本、智能手機、云計算,這是英特爾內部業務優先級排名前三的業務。英特爾發言>>>詳細閱讀
本文標題:百度向業界分享海量數據處理技術
地址:http://www.xglongwei.com/a/kandian/20120413/50554.html