20 世紀 80 年代以來,我國投入了近萬億資金進行電子政務(wù)建設(shè),特別是“兩網(wǎng)、一站、四庫、十二金”等大型項目的階段化建設(shè),我國電子政務(wù)建設(shè)已經(jīng)取得了初步成效,政府管理和公共服務(wù)對信息化的依存度大幅增加,公眾對政府的信息服務(wù)需求日趨迫切。到目前為止,投資建設(shè)的大量信息系統(tǒng)已進入應(yīng)用維護階段,持續(xù)可靠提供應(yīng)用服務(wù)的風(fēng)險已經(jīng)凸顯,電子政務(wù)工作沿用建設(shè)方式的管理思路與目前發(fā)展階段已不相適應(yīng),粗放型的外包管理與政府業(yè)務(wù)風(fēng)險防范要求不相適應(yīng).這將對政府管理和公共服務(wù)構(gòu)成嚴峻挑戰(zhàn)。
筆者所在單位是一家省級食品藥品監(jiān)管部門,成立于1999年,正好是我國開始啟動了政府上網(wǎng)工程,可以說搭上了信息化建設(shè)的快車,十年發(fā)展從單機操作,到局域網(wǎng)應(yīng)用,再到大集中的電子政務(wù)建設(shè),信息化建設(shè)取得了長足的進步,但同時也存在“重建設(shè)、輕維護”、“重技術(shù)、輕管理”等問題,筆者在單位主要負責(zé)應(yīng)用系統(tǒng)的開發(fā),在完成了軟件項目的開發(fā)工作后,卻發(fā)現(xiàn)在“誰開發(fā),誰維護”的慣性下,自己也成為了眾多系統(tǒng)的第一維護責(zé)任人,落后、低效率的維護方式讓自己吃足了苦頭,不得不痛定思痛,改造目前的運維管理方式,本文主要介紹了筆者在系統(tǒng)及應(yīng)用運維管理上的初步做法和一點實踐的心得。
上海市食品藥品監(jiān)管局信息中心(以下簡稱中心)肩負著上海市食品藥品監(jiān)管局電子政務(wù)主干網(wǎng)建設(shè)、維護、運營的使命,致力于提供安全、高效、快捷的IT 服務(wù)。近年來,隨著信息化建設(shè)的深入,網(wǎng)上運行的業(yè)務(wù)應(yīng)用逐步增加,計算機機房設(shè)備、網(wǎng)絡(luò)基礎(chǔ)設(shè)施,服務(wù)器、客戶端等硬件平臺數(shù)量大增,政務(wù)應(yīng)用系統(tǒng)、數(shù)據(jù)庫、應(yīng)用服務(wù)器、中間件等軟件平臺日益復(fù)雜,服務(wù)的用戶也越來越多,如何維護好日益增多的網(wǎng)絡(luò)和系統(tǒng)等各類設(shè)備,保證各個應(yīng)用系統(tǒng)安全順暢地運行,為用戶提供良好的服務(wù),及時解決出現(xiàn)的問題和故障,做到網(wǎng)絡(luò)和用戶之所及,管理和服務(wù)之所及,是政務(wù)業(yè)務(wù)能否正常運行的關(guān)鍵所在。
由于歷史發(fā)展原因和資金上的限制,中心目前還處于最初級的運維管理狀態(tài),對網(wǎng)絡(luò)、設(shè)備、系統(tǒng)、用戶等的管理和服務(wù)是分散的、不關(guān)聯(lián)的,在信息化建設(shè)時始終著重關(guān)注了實現(xiàn)數(shù)據(jù)、信息共享,但卻沒有在運維管理上實現(xiàn)規(guī)范化和流程化,因此管理和服務(wù)是依賴于個人的、分散的、孤立的、低效率的,這種管理模式將越來越難以適應(yīng)發(fā)展的要求。
目前筆者所在單位,全系統(tǒng)2000個用戶,大大小小近40個系統(tǒng),50多臺服務(wù)器,近10個數(shù)據(jù)庫,筆者每天基本上都在進行救火式的工作,非常被動的處理各種故障,而且飽受抱怨,對于軟件服務(wù)外包商也缺乏有效的管理手段。目前,在應(yīng)用系統(tǒng)的運行維護中最為突出的矛盾有兩個,一個是日常系統(tǒng)報修處理量大,報修事件信息傳遞慢,處理結(jié)果無法及時反饋,難以跟蹤質(zhì)量;另一個就是近40個系統(tǒng),50多臺服務(wù)器,近10個數(shù)據(jù)庫自身的管理困難,往往只有通過用戶報修體現(xiàn)出故障點,這兩個主要問題又形成了一定的因果關(guān)系,報修量大導(dǎo)致疲于應(yīng)付,疲于應(yīng)付導(dǎo)致精力分散,沒有精力對各種操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、應(yīng)用系統(tǒng)進行維護和優(yōu)化,最后這些故障點又形成了新的報修,維護工作開展舉步維艱。
隨著近兩年,在國內(nèi)電子政務(wù)領(lǐng)域?qū)T運維管理的重視,很多地方都制定了電子政務(wù)維護的標(biāo)準(zhǔn),筆者所在地的信息化主管部門也在大力宣導(dǎo)ISO20000、ITIL等運維管理的最佳實踐和標(biāo)準(zhǔn),通過學(xué)習(xí)筆者也深深認同其先進的管理思路,但是完全照搬ITIL,目前來說并不可行,一方面這需要投入大量的資金、人員,還需要領(lǐng)導(dǎo)在政策上和管理上給與支持,另一方面,筆者認為在信息化的水平和需求沒有達到的情況下,盲目的完全照搬會造成一定的投資浪費。
筆者根據(jù)單位實際情況,建立了在先進的管理框架下,以解決目前主要矛盾為目標(biāo)的大體思路。參照模型,初期的改造實踐就立足于運行維護為導(dǎo)向, 建立起針對應(yīng)用服務(wù)范疇的較為完備的監(jiān)控體系的建設(shè),統(tǒng)籌考慮監(jiān)控管理工具、人員、制度及流程充分利用監(jiān)控環(huán)節(jié)的各類信息,建立初級的工作前臺,接收各類維護請求,并迅速進行分發(fā),要對產(chǎn)生的事件進行分類、登記、跟蹤并作事后的分析與評估,促進優(yōu)化監(jiān)控、系統(tǒng)管理等工作。
對于工作前臺,筆者根據(jù)自身實際情況,就在原有的OA系統(tǒng)中增加了一個系統(tǒng)運維模塊,應(yīng)對全系統(tǒng)的報修事件。利用原有的短信平臺,將事件信息同步發(fā)送到各運維服務(wù)商的干系人,隨后系統(tǒng)將記錄其處理完成的時間點,故障原因和最終的保修人評價等信息,用做日常對維護提供商管理和日后分析改進的依據(jù)。
但是針對于應(yīng)用系統(tǒng)的管理和監(jiān)控初步筆者原本也是設(shè)想讓軟件開發(fā)商按照統(tǒng)一的標(biāo)準(zhǔn)自行開發(fā),但是后來放棄了這一想法,原因是通用軟件行業(yè)的公司雖然對于自己開發(fā)的系統(tǒng)進行監(jiān)控都沒有問題,但是對SNMP和RMON協(xié)議知之甚少,更談不上在此基礎(chǔ)上進行開發(fā),因此選擇一款合適的管理工具成為了必須。
在把目光瞄準(zhǔn)工具軟件后,我們單位對市場上眾多品牌經(jīng)過慎重評估,美國卓豪公司的ManageEngine系列產(chǎn)品是專門針對企事業(yè)單位的IT管理產(chǎn)品,這個系列里包含32款產(chǎn)品,涉及IT管理的方方面面,性價比也不錯。我們選擇了Applications Manager產(chǎn)品來做應(yīng)用服務(wù)管理,在和其售前取得聯(lián)系后,上門演示了一次產(chǎn)品,發(fā)現(xiàn)可能基于同樣的管理理念設(shè)計的平臺,我們預(yù)想的功能基本都包含了,而且對此工具自身的管理簡單直觀,并且在報表和報警功能上超出了我們的預(yù)期,最終確定了這個產(chǎn)品。
1、故障事件系統(tǒng)
故障監(jiān)控系統(tǒng)目前還在小范圍推廣過程中,配合實施了簡單的定期會議制度,集中各家軟件服務(wù)商一起察看系統(tǒng)的報修和處理情況,由于有了管理手段,通過系統(tǒng)報修的處理速度明顯加快,故障報修者幾乎第一時間就能得到最直接的反饋,使用者也對此表示滿意。在使用過程中我們又根據(jù)實際增加了上傳附件功能,報修者直接上傳故障截屏,讓維護人員可以迅速找到故障點。
通過一段時間的運行,我們發(fā)現(xiàn)某個系統(tǒng)經(jīng)常性被報修業(yè)務(wù)無法同步,這個異常引起重視,但是發(fā)現(xiàn)同步的雙方都正常,這個時候監(jiān)控工具的作用就體現(xiàn)出來了,通過圖示可以明顯看出在每天同步的12點前,該系統(tǒng)都會重起,但是有時候重起時間稍長,就會錯過數(shù)據(jù)同步從而造成問題,經(jīng)過進一步調(diào)整順利解決了這個故障。
2、應(yīng)用監(jiān)控系統(tǒng)
安裝
Applications Manager的安裝比較簡單,一臺pc server 即可,B/S的管理架構(gòu),安裝完成后就可進行登錄進行管理。
實施
Applications Manager的實施主要有兩個工作,添加監(jiān)視器和對監(jiān)視器中的指標(biāo)設(shè)定報警閥值及報警動作。添加監(jiān)視器比較輕松,基本上常用的應(yīng)用服務(wù)器類型都可以找到對應(yīng)的預(yù)制模板,我們使用到的Jboss、Apache、Oracle As都比較輕松的建立了監(jiān)視器,對于windows系統(tǒng)還可以通過SNMP和WMI兩種方式連接。對于現(xiàn)在安全等級保護中關(guān)于定期修改密碼的要求,雖然WMI最簡單,但是需要管理員的權(quán)限,所以沒有采用。總的來說配置監(jiān)視器在技術(shù)上沒有什么難點,相反對于單位內(nèi)自己的信息資源的整理倒是工作的重點,首先要確定需要監(jiān)控核心的業(yè)務(wù)系統(tǒng),然后找到與之相關(guān)的服務(wù)器、數(shù)據(jù)庫和中間件的樹立,確定必須要設(shè)定監(jiān)控的指標(biāo)以及出現(xiàn)告警后的告警信息的推送對象,通過樹立慢慢的基礎(chǔ)維護管理的脈絡(luò)也清晰了起來。
Applications Manager除了監(jiān)控、報警功能外,在使用中還發(fā)現(xiàn)一些其它的特點總結(jié)如下:
1、監(jiān)視器信息豐富、專業(yè)性強
對于提供的監(jiān)視器都不是簡單的看看是否運行正常而已,由于Applications Manager融合了各大廠商產(chǎn)品自身提供的監(jiān)控功能,因此每一種類型的監(jiān)視器都提供了豐富的功能,比如Oracle數(shù)據(jù)庫,不僅可以看到內(nèi)存分配、響應(yīng)時間、查詢的集中率和SGA等靜態(tài)配置情況,而且還能看到當(dāng)前查詢、會話和鎖的情況。從管理角度說,自從用了Applications Manager后,就再也沒有去登錄過Oracle自己的客戶端了,數(shù)據(jù)庫維護商來了打開Applications Manager,哪個數(shù)據(jù)庫需要調(diào)整維護一目了然。
2、統(tǒng)計報表功能強大、界面展示直觀
大量的數(shù)據(jù)集中之后,如何展示,如何讓用戶可以直觀的通過圖獲得想要得信息是檢驗一個管理系統(tǒng)優(yōu)秀與否的重要指標(biāo),在這一點上Applications Manager做的還算不錯,我最喜歡的就是可用性的圖表,分別可以察看最近24小時、一周和一個月的可用性,任何原因的停機都會很直觀的反應(yīng)在這張圖表上。
另外Applications Manager還提供了比較強大的報表功能,這些報表都是預(yù)制的直接啟用即可,報表會在指定的時間發(fā)到指定的郵箱。如果覺得預(yù)制報表不符合需求,還可以根據(jù)提供的各項指標(biāo)自定義報表,比如針對oracle 數(shù)據(jù)庫提供將近50個動態(tài)指標(biāo)完全可以滿足各種特殊的需求。
3、工具功能再強大也需要人的管理
Applications Manager無疑是一套比較優(yōu)秀的應(yīng)用管理軟件,但是并不是說將系統(tǒng)裝好,監(jiān)視器配好從此就高枕無憂了,一方面,眾多的指標(biāo)都是死的,在初期配置完成后就需要不斷的去調(diào)整和優(yōu)化這些報警閥值,減少誤報,提高報警的準(zhǔn)確性;另外一方面,想要將這套工具運用到能夠進行故障的預(yù)先干預(yù),做到將故障消滅在萌芽,靠系統(tǒng)本身是做不到的,必須要熟悉所監(jiān)控對象的各種指標(biāo)的含義,通過一段時間的積累故障事件,通過分析故障點的表現(xiàn)特征,逐步嘗試建立可行的指標(biāo)模型,其中還是需要投入大量精力的。
在使用了Applications Manager之后不是什么事都沒有了,而可以看作一個新的開始,讓管理人員在更高的一個層面上對IT系統(tǒng)進行管理,可以大大提高工作效率,但不一定能夠降低工作量,因為相應(yīng)的可能需要學(xué)習(xí)更多新的知識,花更多的時間摸索實踐。
IT(或電子政務(wù))的維護是一個比較復(fù)雜的管理的體系,可以看到在標(biāo)準(zhǔn)的運維框架下,筆者只是在IT基礎(chǔ)環(huán)境監(jiān)控和應(yīng)用系統(tǒng)方面做了一點點粗淺的嘗試,對于個人的工作來說管理方式和管理手段的改變已經(jīng)讓筆者從中獲益匪淺。隨著信息化發(fā)展到了運維的時代,為了讓系統(tǒng)能夠正常使用,相應(yīng)的管理問題都會從每個組織的IT部門中冒出來,作為IT第一線的管理者一定要有新的管理理念,在不斷推動他人信息化的同時,千萬不要忘了用信息化來武裝自己。