雖說如今的硬件與軟件系統都有各種各樣的熱備(HA)或應急方案,但隨著IT系統和企業業務系統復雜性的不斷提升,“沒有故障的網絡”似乎也只是IT人閑侃的一個神話了。IT故障隱患就在身邊,如果一個企業的IT運維管理完全依賴于工程師的經驗,這種人為因素過多的管理境界,IT運維管理恐怕永遠會處于手工作坊的階段。因此,大家都在匆忙尋找一味叫做BSM的解藥,而能否有一個高效而準確的故障發現機制,能否進行有效率的根源分析,對于BSM“落地”而言,則是一個很重要的指標。
以“人”為本的IT運維故事
根據IDC之前提供的《中國業務服務管理(BSM)》資料,國內IT運維市場預計到2013年將達到47.9億元的市場份額。業務擴容壓力對高端運維人才的需求迅速增加,同時大量在線關鍵業務系統需要7X24小時穩定可靠運行的保障,這對IT運維管理團隊的整體服務水平的提升要求越來越迫切。作為朝陽行業的IT運維,在一路高歌猛進的同時,也承受著高級IT運維人員頻繁跳槽,離職率過高帶來的一系列問題。
在某合資企業,或是因為長期加班的壓力、或是因為薪金問題,一位資格較老的IT工程師突然離職了。企業領導和其他同事除了惋惜之外也沒有太好的辦法,在做好交接工作之后,這件事也漸漸被淡忘。
突然,企業總部的ERP系統出現了嚴重的故障,時斷時通。IT運維部門上下齊心,從物理層查到了應用層,又從應用層查回到物理層設備,并且,大家也拿出之前這位離職工程師的文檔研究起來。有人終于找到了這臺服務器的故障記錄,也發現了同樣 “緩慢”的故障和處理方法。看似是一根救命稻草,但按照這個文檔執行了數據庫優化向導之后,故障還是沒有解決。把人請回來?或者再請一個高人過來看看?
不知道你能從這個故事中看到什么?但從故障現象來看,有的網絡故障解決辦法是相通的,但從隨時變化的網絡架構和業務系統實際運行環境來看,解決相同現象的故障,方法可能迥然不同。如果我們在IT運維管理的過程中,過多的依靠個人英雄主義,最終會導致網絡故障處理效率不高,并造成IT運維服務質量停滯不前的邋遢局面。
作為國內領先的IT運維管理專家,北塔軟件認為:“依靠個人能力進行運維管理有許多缺點,比如無法做到事前發現、無法做到準確定位、故障原因可能出現誤判、響應時間慢等等。核心業務和IT系統息息相關,一旦網絡出現了故障,影響和損失非常巨大。但傳統的管理模式只能導致出現問題后被動響應,而IT運維管理部門的真正價值并不是出現故障之后的處理,而是在故障發生前能夠準確判斷,排除隱患,并避免故障的發生。雖然很多企業發現了這個問題,并引入了BSM等理論作為支撐,但如何在這套理論下利用運維管理工具把BSM落地,擺脫人為因素的影響,這個課題也許在國內IT運維管理領域才剛剛開始。”
處理故障的三要素:精、準、快
BSM落地是體現IT部門價值的最佳途徑,也就是說BSM建立后,IT部門是能做到對業務的透明管理。透明化監控業務系統運行情況,就能事先發現可能引起系統宕機故障或者訪問質量無法保障的問題,把可能發生故障的隱患,通過業務系統的整體監控視圖發現問題。那么,怎么才能讓BSM落地呢?如何讓故障處理不再成為手忙腳亂折騰,或者必須請來一個外來的和尚呢?北塔軟件在其發布的北塔BTIM產品中包含了一個非常經典的“故障根源分析策略”,也許可以回答這個讓多少人糾結的疑問。
“BTIM故障根源分析策略”是指:通過日常高頻度監測少量關鍵指標,控制被管系統管理壓力,一旦發現問題,依據實體業務流分析邏輯,按分析需要逐層擴大數據采集的深度和廣度,層層深入,直達故障根源。也許這段內容對于很多剛剛接觸IT運維管理的新人,或者說管理層來說有一些難以理解。但若把這個套理論歸納起來,就是要在故障處理時突出“精、準、快”這個三個字,便很容易了然。
精:是指業務日常健康指標實現精細化管理。如果我們業務系統所有發生的事件都沒有遺漏的接收了下來,這特別是對一些疑難雜癥的分析有幫助,可后期進行詳細的分析。但在海量的業務事件中,快速的定位到事件的根源如同大海撈針。所以,“精”代表的是有挑選的記錄,而不是全部。
準:是指故障定位準、分析原因準。比如北塔BTIM通過服務視圖追蹤支持業務應用的IT組件的性能和可用性,通過TFS管理系統,采用SNMP方式取得服務管理參數,實現對主機、數據庫、中間件以及應用管理的實時監控,通過軟件來監視服務,管理人員在業務層就能查看所有關鍵信息,并通過各層監控來融合管理功能。而一旦出現告警事件,管理人員就可以通過TFS故障診斷路徑直接定位源頭。
快:是指預警快、操作快和處理流程快。要想實現快,必須有前兩項功能的支撐,不然在海量日志中翻騰、在故障原因前左顧右盼,這些勢必影響故障處理的時間。另外,這里的快還包含了IT運維工具本身的操作效率,比如:自定義左右鍵響應事件,實現參考信息快速鏈接等等。當然,快還包括了遇到重大故障快速啟動應急響應流程。
BSM不要誤讀“人”的作用
業務結構不斷變化的本性造成運維實體復雜性的增加,而要實現BSM,也不是簡單的靠人堆砌起來的運維體系。BSM的三要素是人員、流程和技術。人員因素是指企業需要清晰定義IT支持人員的角色職責,明確人員的技能等級,進行IT部門內部的梯隊建設。絕對不能拋開人的因素,但也只有把這三方的元素緊密配合,才能從總體上提高IT服務管理的質量并達到最佳實踐效果。
推薦閱讀
對此方案,夏普中國投資公司公關室室長武桂力9月26日告訴本報記者:“夏普目前還沒有對外公布新的裁員計劃,依然是原來公布的5000人裁員計劃,至于向銀行方面提供的新的重組方案,以及新的融資,夏普的確在推進,但具>>>詳細閱讀
地址:http://www.xglongwei.com/a/xie/20120201/115052.html