當前位置:工程項目OA系統(tǒng) > OA系統(tǒng)企業(yè)版 > 相關軟件 > 上網行為管理軟件
IT運維管理關鍵技術點解剖
運維關鍵技術點解剖
1、大規(guī)模集群管理問題
首先我們先要明確集群的概念,集群不是泛指各功能服務器的總合,而是指為了達到某一目的或功能的服務器、硬盤資源的整合(機器數大于兩臺),對于應用來說它就是一個整體,目前常規(guī)集群可分為:高可用性集群(HA),負載均衡集群(如lvs),分布式儲、計算存儲集群(DFS,如googlegfs,yahoohadoop),特定應用集群(某一特定功能服務器組合、如db、cache層等),目前互聯(lián)網行業(yè)主要基于這四種類型;對于前兩種類似,如果業(yè)務簡單、應用上post操作比較少,可以簡單的采用四層交換機解決(如f5),達到服務高可用/負責均衡的作用,對于資源緊張的公司也有一些開源解決辦法如lvs+ha,非常靈活;對于后兩種,那就考驗公司技術實力及應用特點了,第三種DFS主要應用于海量數據應用上,如郵件、搜索等應用,特別是搜索要求就更高了,除了簡單海量存儲,還包括數據挖掘、用戶行為分析;如google、yahoo就能保存分析近一年的用戶記錄數據,而baidu應該少于30天、soguo就更少了。。。這些對于搜索準備性、及用戶體驗是至關重要的。
接下來,我們再談談如何科學的管理集群,有以下關鍵幾點:
I、監(jiān)控
主要包括故障監(jiān)控和性能、流量、負載等狀態(tài)監(jiān)控,這些監(jiān)控關系到集群的健康運行,及潛在問題的及時發(fā)現與干預;
a、服務故障、狀態(tài)監(jiān)控:主要是對服務器自身、上層應用、關聯(lián)服務數據交互監(jiān)控;例如針對前端webserver,我們就可以有很多種類型的監(jiān)控,包括應用端口狀態(tài)監(jiān)控,便于及時發(fā)現服務器或應用本身是否crash、通過icmp包探測服務器健康狀態(tài),更上層可能還包括應用各頻道業(yè)務的監(jiān)控,常用方法是采用面業(yè)特征碼進行判斷,或對重點頁面進行簽名,以網站被黑篡改(報警、并自動恢復被篡改數據)等等,這些只是一部份,還有N多監(jiān)控方式,依應用特點而定,還有一些問題需解決,如集群過大,如何高性能的進行監(jiān)控也是一個現實問題。
b、其它就是集群狀態(tài)類的監(jiān)控或統(tǒng)計,為我們合理管理調優(yōu)集群提供數據參考、包括服務瓶頸、性能問題、異常流量、攻擊等問題。
II、故障管理
a、硬件故障問題;對于成百上千或上萬機器的N多集群,服務器死機、硬件故障概率是非常大的,幾乎每時每刻都有服務硬件問題,死機、硬盤損壞、電源、內存、交換機。針對這種情況,我們在設計網站架構時需要充分考慮到這些問題,并將其視為常態(tài);更多的依靠應用的冗余機制來規(guī)避這種風險,但給系統(tǒng)工程師足夠寬裕的處理時間。(如google不是號稱同時死800臺機器,服務不會受到任何影響嗎);這就是考驗運維工程師及網站架構師功能的地方了,好的設計能達到google所描述自恢復能力,如gfs,糟糕的設計那就是一臺服務器的死機可能會造成大面積服務的連鎖故障反映,直接對用戶拒絕響應。
b、應用故障問題;可能是某一bug被觸發(fā)、或某一性能閥值被超越、攻擊等情況不一而定,但重要的一點,是要有對這些問題的預防性措施,不能想當然,它不會出問題,如真出問題了,如何應對?這需要運維工程師平時做足功夫,包括應急響應速度、故障處理的科學性、備用方案的有效等。
III、自動化
自動化:簡而言之,就是將我們日常手動進行的一些工作通過工具,系統(tǒng)自動來完成,解放我們的雙手及枯燥的重復性勞動,例如:沒有工具前,我們安裝系統(tǒng)需要一臺一臺裸機安裝,如2000臺,可能需要10人/10天,搞爛N張光盤,人力成本更大。。。而現在通過自動化工具,只需幾個簡單命令就能搞定、還有如機器人類程序,自動完成以往每天人工干預的工作,使其自動完成、匯報結果,并具備一定的專家系統(tǒng)能力,能做一些簡單的是/非判斷、優(yōu)化選擇等。。。這些好處非常明顯不再多說。。。應該說,自動化運維是運維工程師職業(yè)化的一個追求,利已利公,雖然這是一個異常艱巨的任務:不斷變更的業(yè)務、不規(guī)范化的應用設計、開發(fā)模式、網絡架構變更、IDC變更、規(guī)范變動等因素,都可能會對現有自動化系統(tǒng)產生影響,所以需要模塊化、接口化、變因參數化等因此,自動化相關工作,是運維工程師的核心重點工作之一,也是價值的體現。
2、運維中關鍵技術點解剖(比較實際,現實中的案例,今天先想出這幾條,如大家有其它感覺興趣的,可以提出,一起交流~)
1、大量高并發(fā)網站的設計方案
2、高可靠、高可伸縮性網絡架構設計
3、網站安全問題,如何避免被黑?
4、南北互聯(lián)問題,動態(tài)CDN解決方案
5、海量數據存儲架構
【推薦閱讀】
◆上網行為運維管理專區(qū)
◆怎樣才算是一個合格的上網行為運維工程師
◆上網行為運維工作師需要什么樣的技能及素質
◆網站上網行為運維管理經驗探討和心得分享
◆網管軟件專區(qū)
本文來自互聯(lián)網,僅供參考- 1網絡管理技巧七則
- 2IT運維服務管理中知識管理的概念及方法
- 3上網行為管理系統(tǒng):超六類網線的四種阻燃等級
- 4網絡管理維護技巧:防火墻配置中主要命令解析
- 5超五類雙絞線與六類雙絞線區(qū)別在哪里?
- 6網絡管理員經驗:如何應對網站備案被注銷
- 7IDC發(fā)布2013中國IT安全市場10大預測
- 8兩招解決IT運維日志管理難題
- 9倡導綠色能源,泛普軟件助力風電開發(fā)企業(yè)
- 10公有云和私有云評估的5個核心原則
- 11光纖監(jiān)控:安防管理的全新發(fā)展方向
- 12網管經驗:寬帶路由器死機掉線原因分析
- 13大數據:如何讓信息安全從被動走向主動
- 14網管必備技巧:如何跟蹤IP地址
- 15企業(yè)是否應該將上網行為管理系統(tǒng)遷移到802.11ac?
- 16IT運維管理經驗 統(tǒng)一存儲管理如何實現
- 17企業(yè)該如何進行高效的IT運維管理
- 18上網行為管理系統(tǒng)
- 19CIO關注的2013年五大IT趨勢
- 20網絡運維管理技巧之:小處著眼 降低企業(yè)網絡運維工作負擔
- 21網絡管理維護基本知識:病毒和木馬的區(qū)別
- 22網絡運維管理的好幫手:IIS日志
- 232013年數據中心五大趨勢預測
- 24大數據中心日常維護工作總結
- 25節(jié)能交換機和服務器真的是趨勢嗎?
- 2613大已被揭穿的IT安全管理謠言
- 27網絡技術前瞻:5G的四大關鍵詞
- 28企業(yè)網管員如何監(jiān)控公司網絡健康運行
- 29工資核算提升現代經濟的運行效率和價值
- 30數據中心網絡漸成瓶頸 內核艙式創(chuàng)新從小起步
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓