IT 巡检内容、方法大全
IT 巡檢內容、方法大全
目 錄
1. ?概述?
2. ?巡檢維度?
3. ?巡檢內容
4. ?巡檢方法
5.? 常用命令、常見問題和解決方法
6. ?附錄 1 詞匯表
7. ?附錄 2 參考資料
1. 概述
1.1 范圍定義
對 IT 系統(tǒng)巡檢的邏輯組成,通過對范圍定義的與 IT 系統(tǒng)相關的維度的評估,定位當前 IT 系統(tǒng)的健康狀況,指導建立改進方案與方針。
1.2 內容說明
對 IT 系統(tǒng)巡檢的具體評估指標, 用于支持對范圍所定義的維度評估結論, 提供具體的數(shù)據(jù)支持;用于給客戶提供巡檢類報告的數(shù)據(jù)提供數(shù)據(jù)支持。
2. 巡檢維度
對 IT 系統(tǒng)巡檢的評估維度主要包括以下五個方面:
一個完備的 IT 系統(tǒng)建設應該包括上述所有相關解決方案, 而客戶應用系統(tǒng)中在這幾方面體現(xiàn)了不同的完備程度。由于用戶行業(yè)與業(yè)務特點,對這些范圍的側重程度不同, 因此我們在評估特定行業(yè)用戶的 IT 系統(tǒng)之初, 要充分考慮這種行業(yè)因素,所得出的結論也是對特點行業(yè)用戶有指導意義的評估結果。
2.1 基礎設施狀況
IT 基礎設施包括系統(tǒng)軟件平臺和硬件基礎設平臺。
系統(tǒng)軟件平臺主要包括操作系統(tǒng)、數(shù)據(jù)庫、中間件。
硬件基礎設平臺主要包括網(wǎng)絡通訊平臺和服務器系統(tǒng)平臺以及存儲系統(tǒng)平臺。
對基礎設施狀況的評估內容包括:
? ?IT 系統(tǒng)運維環(huán)境狀況
? ?IT 系統(tǒng)硬件運行狀況
? ?IT 系統(tǒng)軟件平臺運行狀況
? ?IT 系統(tǒng)鏈路狀況
2.2 容量狀況
由于 IT 系統(tǒng)的業(yè)務和服務需求可能每天都在發(fā)生變化,信息系統(tǒng)有時會遇到帶寬和存儲能力不足的問題。要與 IT 系統(tǒng)當前和將來的業(yè)務需求相符意味著必須經常地測定容量。容量規(guī)劃是一種性能價格比很高的手段,可以根據(jù)以往的性能統(tǒng)計數(shù)字預知潛在的資源短缺情況。
正確的對當前 IT 系統(tǒng)的容量狀況做出評估, 是掌握和預測系統(tǒng)當前和未來可用程度的一個重要標志之一,進而也以此為依據(jù)做出合理的容量規(guī)劃。
對容量狀況的評估主要包括:
? ?網(wǎng)絡帶寬負載狀況
? ?存儲的容量狀況
? ?主機系統(tǒng)負載情況
? ?業(yè)務系統(tǒng)所能承載的吞吐量
? ?軟件平臺參數(shù)配置適用度。
2.3 性能狀況
IT 系統(tǒng)所提供的業(yè)務的性能,是當前業(yè)界評價 IT 系統(tǒng)實施成功與否的主要標準之一。
通常對 IT 系統(tǒng)性能狀況評估的對象為具體的業(yè)務功能模塊, 但并不是針對所有的業(yè)務功能模塊,對這些模塊的選取一般遵循以下原則:
? ?系統(tǒng)日常運行中,使用頻率高的功能模塊;
? ?系統(tǒng)日常運行中,業(yè)務容易產生相對大并發(fā)量的功能模塊;
? ?涉及到的大數(shù)據(jù)量表操作的功能模塊;
? ?用戶反映性能問題突出的模塊。
通過選取具有代表性的功能模塊,進行性能評測,得出當前系統(tǒng)的性能狀況,而這種巡檢的環(huán)境需要接近真實環(huán)境才具有說服力。而本 IT 系統(tǒng)預防性巡檢活動通常是在真實的生產環(huán)境下完成,因此需要采取適合現(xiàn)場環(huán)境的性能評估手段來完成。
對 IT 業(yè)務系統(tǒng)的性能評估主要包括以下三個方面:
? ?業(yè)務系統(tǒng)的響應性能狀況
? ?業(yè)務系統(tǒng)的穩(wěn)定性性能狀況
? ?業(yè)務容量性能狀況
業(yè)務系統(tǒng)的響應性能指的是在正常業(yè)務并發(fā)負載下,以響應時間為主要關注點的業(yè)務模塊操作的執(zhí)行時間,通常單位為秒;
業(yè)務系統(tǒng)的穩(wěn)定性性能的主要關注點則是在長時間較大負載壓力下,業(yè)務系統(tǒng)能夠正常完成業(yè)務操作的程度;
業(yè)務容量性能狀況指的是當前業(yè)務系統(tǒng)負載承受能力,目的是了解系統(tǒng)的業(yè)務壓力可承受的范圍,以便在峰值到來之前做出應對措施,通常關注的性能指標為并發(fā)量和業(yè)務的吞吐量。
2.4 信息安全
這里把信息安全定義為信息系統(tǒng)數(shù)據(jù)不會被非法用戶在未經授權的情況下取得或破壞。信息安全所涉及的技術與業(yè)務層面很廣,以下是對其簡要分類:
1.物理安全
保護信息系統(tǒng)的機房環(huán)境、設備、設施、媒體和信息免遭自然災害、環(huán)境事故、人為物理操作失誤、各種以物理手段進行的違法犯罪行為導致的破壞、丟失。
2.網(wǎng)絡系統(tǒng)安全
網(wǎng)絡防護安全是數(shù)中心據(jù)安全的重要組成部分。網(wǎng)絡安全模式要求數(shù)據(jù)中心首先分析自己的網(wǎng)絡系統(tǒng),并從中找出不同業(yè)務、數(shù)據(jù)和安全策略的分界線,在這些分界線上構建 IT 系統(tǒng)安全等級不同的安全域。
在安全域劃分的基礎上,通過采用入侵檢測、漏洞掃描、病毒防治、防火墻、網(wǎng)絡隔離、安全虛擬專網(wǎng)(VPN)等成熟技術,利用物理環(huán)境保護、邊界保護、系統(tǒng)加固、節(jié)點數(shù)據(jù)保護、數(shù)據(jù)傳輸保護等手段,通過對網(wǎng)絡和系統(tǒng)安全防護的統(tǒng)一設計和統(tǒng)一配置,實現(xiàn) IT 系統(tǒng)全系統(tǒng)高效、可靠的網(wǎng)絡安全防護。
3.操作系統(tǒng)安全
操作系統(tǒng)提供若干種基本的機制和能力來支持信息系統(tǒng)和應用程序安全,如身份鑒別、訪問控制、審計等等。目前主流的商用操作系統(tǒng)主要有 UNIX、LINUX和 Windows 平臺。由于商用的普遍性特點,這些系統(tǒng)都存在許多安全弱點,甚至包括結構上的安全隱患, 比如超級管理員/系統(tǒng)管理員的不受控制的權限、 緩沖區(qū)溢出攻擊、病毒感染等。
操作系統(tǒng)的安全是上層應用安全的基礎。提高操作系統(tǒng)本身的安全等級尤為關鍵,除了及時打 Patch 外,還要采用如下的加強措施:
? ?身份鑒別機制:實施強認證方法,比如口令、數(shù)字證書等;
? ?訪問控制機制:實施細粒度的用戶訪問控制、細化訪問權限等;
? ?數(shù)據(jù)保密性:對關鍵信息、數(shù)據(jù)要嚴加保密;
? ?完整性:防止數(shù)據(jù)系統(tǒng)被惡意代碼比如病毒破壞,對關鍵信息進行數(shù)字簽名技術保護;
? ?系統(tǒng)的可用性:不能訪問的數(shù)據(jù)等于不存在, 不能工作的業(yè)務進程也毫無用處。
因此操作系統(tǒng)要加強應對攻擊的能力,比如防病毒、防緩沖區(qū)溢出攻擊等;
? ?審計:審計是一種有效的保護措施,它可以在一定程度上阻止對信息系統(tǒng)的威脅,并對系統(tǒng)檢測、故障恢復方面發(fā)揮重要作用。
4.數(shù)據(jù)庫安全
數(shù)據(jù)庫安全性問題應包括兩個部分:一、數(shù)據(jù)庫數(shù)據(jù)的安全。它應能確保當數(shù)據(jù)庫系統(tǒng) DownTime 時, 當數(shù)據(jù)庫數(shù)據(jù)存儲媒體被破壞時以及當數(shù)據(jù)庫用戶誤操作時,數(shù)據(jù)庫數(shù)據(jù)信息不至于丟失;二、數(shù)據(jù)庫系統(tǒng)不被非法用戶侵入。它應盡可能地堵住潛在的各種漏洞,防止非法用戶利用它們侵入數(shù)據(jù)庫系統(tǒng)。
5.數(shù)據(jù)的傳輸安全
為保證業(yè)務數(shù)據(jù)在傳輸過程的真實可靠,需要有一種機制來驗證活動中各方的真實身份。安全認證是維持業(yè)務信息傳輸正常進行的保證, 它涉及到安全管理、加密處理、 PKI 及認證管理等重要問題。應用安全認證系統(tǒng)采用國際通用的 PKI技術、X.509 證書標準和 X.500 信息發(fā)布標準等技術標準可以安全發(fā)放證書,進行安全認證。當然,認證機制還需要法律法規(guī)支持。安全認證需要的法律問題包括信用立法、電子簽名法、電子交易法、認證管理法律等。
6.應用身份鑒定
由于傳統(tǒng)的身份認證多采用靜態(tài)的用戶名/口令身份認證機制, 客戶端發(fā)起認證請求, 由服務器端進行認證并響應認證結果。用戶名/口令這種身份認證機制的優(yōu)點是使用簡單方便,但是由于沒有全面的安全性方面的考慮,所以這種機制存在諸多的安全隱患。可以采用:雙因子認證和 CA 認證兩種解決方案。
7.應用授權管理
權限管理系統(tǒng)是 IT 系統(tǒng)信息安全基礎設施的重要組成部分,是 ICDC 信息系統(tǒng)授權管理體系的核心。它將授權管理和訪問控制決策機制從具體的應用系統(tǒng)中剝離出來,采用基于角色的訪問控制(RBAC,Role Based Access Controls)技術,通過分級的、自上而下的權限管理職能的劃分和委派,建立統(tǒng)一的特權管理基礎設施(PMI,Privilege Management Infrastructure) ,在統(tǒng)一的授權管理策略的指導下實現(xiàn)分布式的權限管理。
權限管理系統(tǒng)能夠按照統(tǒng)一的策略實現(xiàn)層次化的信息資源結構和關系的描述和管理,提供統(tǒng)一的、基于角色和用戶組的授權管理,對授權管理和訪問控制決策策略進行統(tǒng)一的描述、 管理和實施, 提供基于屬性證書和 LDAP 的策略和授權信息發(fā)布功能,構建高效的決策信息庫和決策信息庫的更新、同步機制,面向各類應用系統(tǒng)提供統(tǒng)一的訪問控制決策計算和決策服務。建立統(tǒng)一的權限管理系統(tǒng),不僅能夠解決面向單獨業(yè)務系統(tǒng)或軟件平臺設計的權限管理機制帶來的權限定義和劃分不統(tǒng)一、各訪問控制點安全策略不一致、管理操作冗余、管理復雜等問題, 還能夠提高授權的可管理性, 降低授權管理的復雜度和管理成本,方便應用系統(tǒng)的開發(fā),提高整個系統(tǒng)的安全性和可用性。
8.應用訪問控制
訪問控制是 IT 系統(tǒng)安全防范和保護的主要核心策略, 它的主要任務是保證信息資源不被非法使用和訪問。訪問控制規(guī)定了主體對客體訪問的限制,并在身份識別的基礎上,根據(jù)身份對提出資源訪問的請求加以控制。它是對信息系統(tǒng)資源進行保護的重要措施,也是計算機系統(tǒng)最重要和最基礎的安全機制。根據(jù)控制手段和具體目的的不同, 數(shù)據(jù)中心的訪問控制技術包括以下幾個方面:入網(wǎng)訪問控制、網(wǎng)絡權限控制、目錄級安全控制、屬性安全控制等,只有各種安全策略相互配合才能真正起到保護作用。
9.應用審計追蹤
IT 系統(tǒng)的安全審計提供對用戶訪問系統(tǒng)過程中所執(zhí)行操作進行記錄的功能,將用戶在系統(tǒng)中發(fā)生的相關操作(如:系統(tǒng)登陸/退出、系統(tǒng)操作)記錄到數(shù)據(jù)庫中,以確保在需要的時候,對用戶歷史訪問系統(tǒng)的操作進行追溯。
通常審計跟蹤與日志恢復可結合起來使用,日記恢復處理可以很容易地為審計跟蹤提供審計信息。如果將審計功能與告警功能結合起來,就可以在違反安全規(guī)則的事件發(fā)生時,或在威脅安全的重要操作進行時,及時向安檢員發(fā)出告警信息,以便迅速采取相應對策,避免損失擴大。審計記錄應包括以下信息:事件發(fā)生的時間和地點;引發(fā)事件的用戶;事件的類型;事件成功與否。
在 IT 系統(tǒng)中,審計可以是獨立工作的不相關的組件的集合,可以是相互關聯(lián)運作的組件的集合。審計范圍包括操作系統(tǒng)和各種應用程序。
10.安全管理與策略
IT 系統(tǒng)安全管理系統(tǒng)應包括管理策略、管理組織保障、管理法規(guī)制度以及管理技術保障等內容。
IT 系統(tǒng)安全是一個動態(tài)不斷調整的過程,它隨著 IT 系統(tǒng)業(yè)務應用和基礎設施的不斷發(fā)展而不斷改變,例如 IT 系統(tǒng)信息系統(tǒng)各個信息網(wǎng)絡、信息安全部件的具體設置規(guī)則,包括特定系統(tǒng)(設備)的口令管理策略、特定防火墻的過濾規(guī)則、特定認證系統(tǒng)中的認證規(guī)則、特定訪問控制系統(tǒng)中的主體訪問控制表、安全標簽等。為了保證 IT 系統(tǒng)信息安全,及時進行安全策略調整是必要。管理組織保障,實現(xiàn)對人員、系統(tǒng)、安全設備、物理環(huán)境和系統(tǒng)運行的安全管理。另外,IT 系統(tǒng)安全策略應遵照相關行業(yè)的法律、規(guī)定。
管理技術保障是 IT 系統(tǒng)安全運行管理的技術保證。
2.5 業(yè)務連續(xù)性
連續(xù)性是指一個數(shù)據(jù)中心類應用為了維持其生存, 一旦發(fā)生突發(fā)事件或災難后,在其所規(guī)定的時間內必須恢復關鍵業(yè)務功能的強制性要求,這就需要預先發(fā)現(xiàn)可能會影響企業(yè)關鍵業(yè)務能力和過程的所有事件, 采取相應的預防和處理策略,以保證企業(yè)在事件發(fā)生時業(yè)務不被中斷。通過業(yè)務連續(xù)性計劃保證數(shù)據(jù)中心業(yè)務的不間斷能力,即在災難、意外發(fā)生的情況下,無論是數(shù)據(jù)中心組織結構、業(yè)務操作和 IT 系統(tǒng),都可以以適當?shù)膫溆梅绞嚼^續(xù)業(yè)務運作。
嚴格的說,業(yè)務持續(xù)計劃的建立和實施過程,實際上是涉及數(shù)據(jù)中心運營,因此也涉及到項目管理的方方面面。通過多年的實踐,根據(jù)自身實踐經驗并參照國際災難恢復協(xié)會(DRI)與業(yè)務連續(xù)性協(xié)會(BCI)的標準,總結出業(yè)務持續(xù)計劃的模型,經過長時間的驗證,該業(yè)務持續(xù)計劃模型能夠給數(shù)據(jù)中心帶來有效及徹底的業(yè)務持續(xù)管理。
災難恢復的技術實現(xiàn)和級別——
容災按級別可分為數(shù)據(jù)容災和應用容災兩部分:
數(shù)據(jù)容災:在異地建立一個數(shù)據(jù)拷貝,這個拷貝在本地生產系統(tǒng)的“數(shù)據(jù)系統(tǒng)”出現(xiàn)不可恢復的“物理故障”時,提供可用的數(shù)據(jù)。
應用容災:在異地提供一個完整的應用和數(shù)據(jù)系統(tǒng)拷貝(不一定要求同當量),這個拷貝在本地生產系統(tǒng)出現(xiàn)不可恢復的“物理故障”時,提供即時可用的生產系統(tǒng)。
1.平臺安全性
平臺完整性解決 ICDC 內部業(yè)務平臺和接入平臺的高可靠性問題。主要包括服務器、存儲和網(wǎng)絡層面的技術。
平臺完整性涉及的技術主要包括:服務器、存儲器、及相應網(wǎng)絡連接的部件級可靠性技術;平臺的集群技術;Application Server 的高可靠技術;數(shù)據(jù)庫的高可靠技術。
2.備份和恢復完整性
備份和恢復完整性實現(xiàn) IT 系統(tǒng)內部對業(yè)務數(shù)據(jù)平臺的保護。包括服務器和存儲層相關技術。
備份完整性涉及的技術主要包括基于磁帶、光盤等離線介質的備份技術(或稱定點拷貝) ;以及基于在線存儲介質(磁盤)進行的生產數(shù)據(jù)快照技術。
實現(xiàn)備份完整性目標,首先需要映射業(yè)務種類所需要的數(shù)據(jù)集。即根據(jù)容災備份系統(tǒng)的需求,明確哪些業(yè)務狀態(tài)數(shù)據(jù)需要備份,事實上,需要提供最完善備份的是穩(wěn)定的業(yè)務狀態(tài)數(shù)據(jù), 而處理流程當中的中間臨時數(shù)據(jù)的備份需求較低。
另外,在備份完整性的實施過程中,應該區(qū)分備份數(shù)據(jù)和存檔數(shù)據(jù)。備份數(shù)據(jù)是為滿足容災備份的要求,具有較短的時效性,備份數(shù)據(jù)會根據(jù)一定的備份頻度被反復覆蓋。存檔數(shù)據(jù)則按照業(yè)務或法規(guī)的要求,有較長的時效性,并具有不斷累積的特性。
在絕大多數(shù)數(shù)據(jù)中心應用場合, 備份是經常性的工作, 恢復是十分偶然的操作,因此, 恢復往往是難以經過充分巡檢、 優(yōu)化的容災備份技術---這就更加要求恢復操作具有明確的可預見性。
3.信息完整性
信息完整性實現(xiàn)對業(yè)務數(shù)據(jù)平臺的跨 ICDC 生產中心的保護, 實現(xiàn)信息完整性技術是將業(yè)務連續(xù)性擴展到容災階段的一個十分關鍵的步驟。
信息完整性技術將生產中心的業(yè)務狀態(tài)數(shù)據(jù)完整地復制到備份中心。
實現(xiàn)信息完整性可以采用同步或異步復制技術。
4.處理完整性
處理完整性即對業(yè)務支撐系統(tǒng)平臺的完整的、跨越生產中心的保護。
實現(xiàn)處理完整性, 需要比較復雜的系統(tǒng)集成工作, 包括詳細的系統(tǒng)設計和規(guī)劃。
目前的大多數(shù)關鍵業(yè)務及其關聯(lián)子業(yè)務系統(tǒng)的容災的級別要求為處理完整性。
實現(xiàn)處理完整性的關鍵在于以下三個要素:
? ?對數(shù)據(jù)平臺的保護-遠程數(shù)據(jù)復制技術(即信息完整性)和對業(yè)務平臺的保護-服務器、數(shù)據(jù)庫等冗余及切換技術以及應用軟件切換技術的集成
? ?對接入平臺的保護和切換-外部接口的冗余和切換
? ?系統(tǒng)的監(jiān)控和切換
5.業(yè)務連續(xù)性管理
業(yè)務連續(xù)性管理是 IT 信息安全政策的宏觀管理文件, 該規(guī)范清楚說明業(yè)務連續(xù)性計劃對于保障信息安全所采取態(tài)度、監(jiān)管責任以及信念。
業(yè)務連續(xù)性管理規(guī)范包含《災難恢復預案》 、 《業(yè)務連續(xù)性計劃》等文件。這些規(guī)范從宏觀層面,涵蓋了災難備份建設所涉及的內容,其目的是要保護信息安全。根據(jù)這些規(guī)范,建立業(yè)務連續(xù)性計劃、災難恢復預案,其中主要包括:災難應急小組的組織架構和人員職責, 應急隊伍、 聯(lián)絡清單及各類應急處理流程,普及教育及人員培訓計劃和演習計劃等,并報主管部門備案。
主管部門要對各單位災難恢復預案進行全面審核,評估災難恢復預案的完整性和可操作性,配合建立規(guī)范的管理制度和操作文檔。
定期進行災難演習與應急培訓。
3. 巡檢內容
上一節(jié)完成了對 IT 系統(tǒng)巡檢的關注方面的分析說明, 這一節(jié)開始介紹具體體現(xiàn)這些關注方面的指標,在實際檢查過程中,可以根據(jù)客戶的需要選取特定的指標參數(shù),作為評估目標系統(tǒng)的數(shù)據(jù)支持內容。
3.1 系統(tǒng)整體架構
以下內容作為基本 IT 系統(tǒng)信息被首先調查記錄,供分析參考使用。
? ?IT 系統(tǒng)架構拓撲圖
? ?網(wǎng)絡設備配置
---設備型號, IOS 版本, 模塊型號和數(shù)量,用途
? ?存儲系統(tǒng)配置
---設備型號, IO 帶寬, Cache 容量,磁盤數(shù)量,接入模式,存儲容量,LUN 配
置,所屬應用
? ?主機系統(tǒng)配置
---設備型號,CPU 配置(類型,主頻,數(shù)量) ,內存容量,網(wǎng)卡配置(數(shù)量,
速率) ,內置硬盤配置(數(shù)量,容量,Raid) ,所屬應用
? ?數(shù)據(jù)庫軟件
---產品名稱,版本號,所屬應用
? ?中間件軟件
---產品名稱,版本號,JDK 版本,所屬應用
? ?應用系統(tǒng)
---產品名稱,版本號,架構平臺,系統(tǒng)架構類型
3.2 機房環(huán)境
以上的條件可以現(xiàn)場觀察和詢問用戶完成。
3.3 網(wǎng)絡系統(tǒng)
網(wǎng)絡設備
防火墻
IPS
IDS
VPN
3.4 存儲系統(tǒng)
3.5 主機系統(tǒng)
3.6 數(shù)據(jù)庫系統(tǒng)
3.6.1 Oracle 數(shù)據(jù)庫
3.6.2 DB2 數(shù)據(jù)庫
3.7 中間件系統(tǒng)
3.8 應用系統(tǒng)
3.9 備份與恢復系統(tǒng)
備份與恢復系統(tǒng)是 IT 系統(tǒng)中重要的容災措施,IT 系統(tǒng)應該根據(jù)自身業(yè)務特點選取以下備份與恢復方案。
1.備份系統(tǒng)
設備系統(tǒng)備份:
部件的冗余
---包括網(wǎng)絡設備,主機設備,存儲設備內部部件的冗余,保證在設備本身避免單點故障。
設備的冗余
---網(wǎng)絡層設備冗余包括交換設備的 HA 和線路冗余, 交換設備的 HA 可以實現(xiàn)故障發(fā)生時自動切換。
---主機層設備冗余可以采用冷備與熱備兩種方式, 熱備即主機集群, 實現(xiàn)故障發(fā)生時自動切換。
---存儲層的設備冗余指陣列間的鏡像和異地復制方案。
數(shù)據(jù)系統(tǒng)備份:
系統(tǒng)級歸檔備份
---一般采用磁帶備份方式,備份設備可選取磁帶機或磁帶庫
---制定備份策略,可以按一段時間周期,將完全備份、增量備份和差分備份組合使用制定備份策略。
---系統(tǒng)級歸檔備份的備份數(shù)據(jù)與在線生產數(shù)據(jù)存在備份間隔差異, 對數(shù)據(jù)庫數(shù)據(jù)采用這種備份時應將數(shù)據(jù)庫設置為歸檔模式,來消除這種差異,保證數(shù)據(jù)的完整性。
存儲級數(shù)據(jù)備份
---本地鏡像
---同城容災鏡像
---異地數(shù)據(jù)傳輸,分為同步和異步模式。
應用系統(tǒng)備份:
應用系統(tǒng)備份基于網(wǎng)絡備份,主機系統(tǒng)備份和數(shù)據(jù)備份的整合,方案中涉及以下因素:
本地應用系統(tǒng)備份,遠程應用系統(tǒng)備份
手動應用切換,自動應用切換
應用系統(tǒng)備份是備份方案中級別最高的備份形式,而其中自動應用切換的遠程系統(tǒng)備份方案則是最高級備份方案,保證應用的完整性。
2.恢復系統(tǒng)
備份系統(tǒng)完成 IT 系統(tǒng)的容災保證的一般工作, 恢復的成功與否是衡量備份方案有效的唯一標志。
備份是多次重復工作,而恢復操作則較少發(fā)生,這種情況下,驗證備份有效性就尤為重要。通過制定以下策略與措施,保證恢復策略的有效性:
制定恢復應急預案
制定恢復流程
定期進行巡檢、培訓與演習
4. 巡檢方法
對照巡檢計劃的安排,對主機系統(tǒng)進行硬件、操作系統(tǒng)進行功能及性能檢查。
注意:系統(tǒng)中所使用的每臺主機都要單獨列表檢查。
4.1 IBM 主機
巡檢對象:XX 系統(tǒng) XX 服務器(HOSTNAME)
巡檢目的:檢查 XX 系統(tǒng) XX 服務器的狀態(tài)
巡檢平臺:XX 系統(tǒng)主機,超級用戶
前提條件:線路通暢
4.2 IBM HACMP Cluster
巡檢對象:XX 項目雙機系統(tǒng)
巡檢目的:XX 系統(tǒng)雙機熱備功能正常
巡檢平臺:XX 系統(tǒng)主機,超級用戶
前提條件:線路通暢
4.3 HP 主機
巡檢對象:XX 系統(tǒng) XX 服務器(HOSTNAME)
巡檢目的:檢查 XX 系統(tǒng) XX 服務器的狀態(tài)
巡檢平臺:XX 系統(tǒng)主機,超級用戶
前提條件:線路通暢
4.4 HP MC/ServiceGuard Cluster
巡檢對象:XX 項目雙機系統(tǒng)
巡檢目的:XX 系統(tǒng)雙機熱備功能正常
巡檢平臺:XX 系統(tǒng)主機,超級用戶
前提條件:線路通暢
4.5 SUN 主機
巡檢對象:XX 系統(tǒng) XX 服務器(HOSTNAME)
巡檢目的:檢查 XX 系統(tǒng) XX 服務器的狀態(tài)
巡檢平臺:XX 系統(tǒng)主機,超級用戶
前提條件:線路通暢
4.6 VCS Cluster
巡檢對象:XX 系統(tǒng) XX 服務器(HOSTNAME)
巡檢目的:檢查 XX 系統(tǒng) XX 服務器的狀態(tài)
巡檢平臺:XX 系統(tǒng)主機,超級用戶
前提條件:線路通暢
4.7 網(wǎng)絡部分
對照巡檢計劃的安排,對網(wǎng)絡設備進行硬件、操作系統(tǒng)進行功能及性能巡檢。
注意:系統(tǒng)中所使用的每臺網(wǎng)絡設備都要單獨列表巡檢。
4.7.1 XX 網(wǎng)絡設備
巡檢對象:XX 系統(tǒng)網(wǎng)絡設備(NAME)
巡檢目的:XX 系統(tǒng)網(wǎng)絡設備的系統(tǒng)狀態(tài)
巡檢平臺:XX 系統(tǒng)網(wǎng)絡設備,超級用戶
前提條件:線路通暢
4.7.2 XX 網(wǎng)絡設備
巡檢對象:XX 系統(tǒng)網(wǎng)絡設備(NAME)
巡檢目的:XX 系統(tǒng)網(wǎng)絡設備的系統(tǒng)狀態(tài)
巡檢平臺:XX 系統(tǒng)網(wǎng)絡設備,超級用戶
前提條件:線路通暢
5. 常用命令、常見問題和解決方法
5.1 機房環(huán)境
對機房的基礎設施配備應該按照標準實施, 不符合標準的項目應該盡可能整改,添加應有設施。對 UPS 的維護應該定期進行檢測,巡檢其供電的有效時間,一旦發(fā)現(xiàn)電池老化應盡快更換。
5.2 網(wǎng)絡系統(tǒng)
網(wǎng)絡設備
Cisco 系統(tǒng)的一些巡檢常用命令列表:
總體的信息收集 ?show tech
查看 ios 版本等信息 show version
查看 log ?show log
查看設備的時鐘 ?show clock
查看接口狀態(tài) ?show ip int bri
查看設備路由情況 show ip route
查看 ios 軟件包 ?show flash (或 show bootflash /show disk0)
防火墻
IPS
IDS
VPN
5.3 存儲系統(tǒng)
Sun T3 陣列的常用命令列表:
系統(tǒng)狀態(tài) ?sys stat
系統(tǒng)配置 ?sys list
系統(tǒng)部件狀態(tài) ?fru stat
系統(tǒng)部件列表 ?fru list
卷的列表和狀態(tài) ?vol list,vol stat
SUN StorEdge 3000 系列陣列 cli 命令列表:
顯示陣列全部配置 show configuration
查看設備網(wǎng)絡狀態(tài) show network-parameters
組件狀態(tài)命令
show battery-status
show enclosure-status
show frus
查看磁盤信息 ?show disks
查看邏輯設備卷等
show logical-drives
show luns
查看分區(qū)狀態(tài)
show lun-maps
show partitions
show logical-volumes
顯示 firmware 版本
show ses-devices
show deses-devices
5.4 主機系統(tǒng)
5.4.1 sun solaris 主機命令
查看系統(tǒng)運行狀況設備運行狀況
tform/sun4u/sbin/prtdiag –v
查看系統(tǒng)日志
grep WARN /var/adm/messages*
grep error /adm/messages*
grep panic /adm/messages*
查看網(wǎng)絡狀態(tài)路由配置
ifconfig –a
netstat –rn
磁盤和分區(qū)使用情況
df –k
format
disksuit
metastat,metadb
volume manager
vxprint –ht
CPU
psrinfo
sar 1 10
vmstat
prstat
系統(tǒng)補丁 ?uname –a
進程情況 ?ps –ef
磁盤 IO 狀況有無錯誤
iostat –En
iostat -xn 3
5.4.2 IBM AIX 主機命令
查看系統(tǒng)運行狀況設備運行狀況
prtconf
lscfg –pvv
查看系統(tǒng)日志
errpt
errpt -a|more
errpt -a -j 日志號
查看網(wǎng)絡狀態(tài)路由配置
ifconfig –a
netstat –rn
磁盤和分區(qū)使用情況
df –k
lsdev -Ccdisk
lsvg –o
lsvg –l 磁盤組
lsps -a
CPU
lsdev -Ccprocessor
系統(tǒng)補丁?
進程情況 ?ps –ef
磁盤 IO 狀況有無錯誤 ?
iostat –En
iostat -xn 3
5.4.3 HP-UX 主機命令
查看系統(tǒng)運行狀況設備運行狀況?
查看系統(tǒng)日志
vi /var/adm/syslog/syslog.log
列出 I/O 卡的相關信息 ?ioscan -fn
查看網(wǎng)絡狀態(tài)路由配置
lanscan
netstat –rn
磁盤和分區(qū)使用情況?
bdf
vgdisplay -v vgxx
lvdisplay -v LVxx
ioscan -funC disk
pvdisplay -v /dev/dsk/c*t*d*
CPU
系統(tǒng) ID OS 版本 ?uname -a
進程情況 ?ps –ef
磁盤 IO 狀況有無錯誤 ?iostat –En
5.5 數(shù)據(jù)庫系統(tǒng)
5.5.1 Oracle 數(shù)據(jù)庫
Oracle 命令列表:
數(shù)據(jù)庫 alert 日志信息――檢查日志中是否有錯誤信息提示。
初始化參數(shù) ―― show parameter;
檢查控制文件狀態(tài)―― select * from v$controlfile;
檢查聯(lián)機日志文件狀態(tài)―― select * from v$logfile;
檢查數(shù)據(jù)文件狀態(tài)―― select * from v$datafile;
檢查表空間使用率――
select ?b.file_id ?"File ?ID",b.tablespace_name
"TabSP_Name",b.bytes/1024/1024 "Size(M)",
(b.bytes-sum(nvl(a.bytes,0))) "Used",sum(nvl(a.bytes,0)) "Free",
sum(nvl(a.bytes,0))/(b.bytes)*100 "Free Per%"
from dba_free_space a,dba_data_files b
where a.file_id=b.file_id
group by b.tablespace_name,b.file_id,b.bytes
order by b.file_id;
檢查回滾段使用情況――
SELECT SEGMENT_NAME,OWNER,TABLESPACE_NAME,SEGMENT_ID,FILE_ID,STATUS
FROM DBA_ROLLBACK_SEGS;
檢查用戶狀態(tài)――
select
username,account_status,default_tablespace,temporary_tablespace,crea
ted from dba_users;
是否存在失效對象――
select owner, object_name,object_type from dba_objects where status =
‘INVALID’;
是否有異常等待事例 ――
select event,sum(decode(wait_Time,0,0,1)) "Prev",
sum(decode(wait_Time,0,1,0)) "Curr",count(*) "Tot"
from v$session_Wait group by event order by 4;
檢測連接數(shù)情況 ――
SELECT status,count(*) "count" FROM v$session GROUP BY status;
用戶使用情況 ―― 向客戶了解使用過程是否有問題。
5.5.2 DB2 數(shù)據(jù)庫
5.6 中間件系統(tǒng)
5.7 應用系統(tǒng)
6. 附錄 1 詞匯表
列出本巡檢方案中專門術語的定義、英文縮寫詞的原詞組和意義、項目組內達成一致意見的專用詞匯,同時要求繼承全部的先前過程中定義過的詞匯。
備注中注明該詞匯的來源,或有其他更詳細的解釋的文檔位置;以及對該詞匯的其他叫法。
總結
以上是生活随笔為你收集整理的IT 巡检内容、方法大全的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何成为一名数据中心运维工程师?
- 下一篇: 不同品牌发电机组间的并机知识