如今,機器學習已經成為數據庫及數據安全領域中繞不開的核心技術。機器學習可以提供人力無法達成的大規模分析和收集數據的能力,可如果缺乏有關待解決問題的專業領域知識,機器學習技術本身仍然無法提供有價值的信息。就數據庫內部威脅識別而言,最大的挑戰不在于通過機器學習輸出違規告警,而在于如何確定典型用戶或系統的數據訪問何時出現異常,以及哪些情況是有危害的,哪些僅僅是異常情況。
日前,Imperva首席技術Terry Ray對于機器學習在數據安全領域的有效應用問題給予了深入的解答,揭秘了ImpervaCounterBreach解決方案如何能夠超越傳統的策略設置方案,準確識別不可預知的數據訪問,并保護數據訪問的安全。
Terry Ray首先由機器學習的類型區分入手,把機器學習分為監督式學習和無監督式學習。監督式學習可以完成圖像識別、標記分類等功能,需要預先設定針對性的人工策略,對于不可預知的事件無能為力。而Imperva解決方案中采用的無監督式學習,更接近大眾心目中的“人工智能”,增加了異常檢測、檢索、主題抽象等基本技術,并綜合了專業領域知識、數據收集和解析、制定基準和鑒別敏感數據的能力,具有更高的自動化屬性,極大地減少了對于人工的依賴性。
為了讓機器學習的結果更有意義,Imperva特別使用了聚類的技術。“聚類使得我們可以把許多不同的信息聚集在一起,我們再把其他的數據和我們擁有的領域專業知識結合在一起,切實使得這些數據變得有價值并與語境關聯。”Terry Ray表示,“真正重要的關鍵和差異在于,Imperva把我們的專業領域知識和機器學習進行了整合。”
專家領域知識是我們持續在數據庫、文件、應用系統上年復一年累積的經驗,這些經驗可以幫助我們解決人力無法處理過大數據量的問題。根據Terry Ray的估計,“在大多數情況下,大多數人在告警超出正常量5%的時候就已經無法忍受了,更不用說去查看那些生成這些告警的原始數據了。”
與此同時,“我們不僅僅需要收集大量數據的技術,同樣還需要能夠準確的解析這些數據。”不同的數據庫使用不同的語言,必須有能力解析每一種語言,才可以根據解析后的數據創建有效的模型。Terry Ray介紹說,Imperva從事數據庫服務器、文件服務器、應用端的訪問數據解析已有14到15年的時間,長年累積的經驗,令他們可以識別30種不同的數據庫語言和文件語言,從而無礙地完成數據解析。
除了數據解析外,還需要有判斷的基準,幫助我們鑒別敏感數據。Terry Ray說:“我們建立了基準,就可以基于基準來發現各種異常。基線的異常是識別數據違規的基礎。它告訴我們有什么不對了。”在制定基準的方面,Imperva不僅單獨觀察用戶或數據,而是把二者結合起來。Terry Ray模仿機器學習的口吻舉例說:“看,我明白這是一個人類用戶,而這個人類用戶正在觸碰只有應用程序會觸及的數據。”這不是一個人工的策略,而是人類用戶與數據交互過程中由機器學習確定的模式。
能夠確定某人如何與數據交互,何時與數據交互,以及與數據交互的原因是這里的關鍵。Terry Ray再次強調,這一切的基礎都是機器學習和Imperva專業領域知識的結合。“如果你沒有機器學習來幫助你,那么由人類來回答這些問題幾乎是不可能完成的。”
Imperva CounterBreach解決方案的獨特優勢,正在于其不再需要根據客戶的需求而人工設定策略。“但是誰知道你所有的數據庫和你所有的文件服務器的使用情況呢?答案是:沒有人。所以我們使用CounterBreach自動化地為你完成這樣的工作。”Terry Ray總結說:“引入自動化的價值,正在于它能讓我們理解和預測那些不可預測的東西。”
推薦閱讀
當天的新聞發布會上,海信與中國電子技術標準化研究院共同啟動了《激光電視機技術規范》制定儀式,共同牽頭起草中國激光電視行業的第一個國家電子行業標準。>>>詳細閱讀
本文標題:Imperva首席技術官揭秘數據安全領域機器學習的真諦:超越人力,定義未知
地址:http://www.xglongwei.com/a/05/304912.html