直面故障,我们该怎么做?
生活随笔
收集整理的這篇文章主要介紹了
直面故障,我们该怎么做?
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
This article has been published on ‘Network Administrator World’ in 2007, copyrights belong to ‘Network Administrator World’.
It was firstly posted on 51CTO blog; no transmission, re-publication, or printing is allowed without explicit authorization of the author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》所有。網絡首發51CTO博客,轉載請務必注明出處并告知本人。
直面故障,我們該怎么做?
劉志勇
?
作為一個網絡管理員,唯一高興的是完成最后一個任務。這就是這個職業的魅力和生命之所在。以前我們已經許多次精疲力盡,然后放棄。但是,我將在本文盡可能幫助廣大網絡管理員降低現實的困難。 我愿意和讀者們共享自己的經驗和秘訣。?
窺視網管員的工具包?
真正的硬件工具 每個網管員由于各自實際情況不同,隨身攜帶的真正的硬件工具也未必相同。我的硬件工具包包括:螺絲刀、網卡、牙醫鏡和微型手電筒、線纜測試儀、錄音設備等東西。下面我講一下這些工具都干什么用。 螺絲刀:這個工具毋庸多言,就是拆開機箱用的。但有些服務器,比如早期的Compaq服務器(現在很少見了,說實話我也幾乎沒有見到過),這個螺絲刀就必須是Compaq(Toex)螺絲刀,其末端是星形的,普通的十字螺絲刀是不能使用的。 網卡:用于在工作站或服務器上修復常見的問題,有時候可以用來確認原來的網卡是否有問題。 牙醫鏡和微型手電筒:這是個組合工具,可以讓我在緊急時很容易看到組件的反面和主板。 線纜測試儀:用于網絡布線的故障和測試定位,如果線纜測試儀很高級,可對線纜進行周期性檢測,確保布線系統的質量。在評估認證后,將電纜測試儀存儲的測試結果復制到計算機上并打印出來,作為網絡布線基準文檔。 錄音設備:相信讀者看到這設備肯定驚訝得下巴都掉了……其實,我也是從歷次的教訓中獲取的經驗。還記得有多少次在一個復雜的故障檢修過程中一次又一次執行相同的步驟和操作嗎?就好比在家中丟失了東西以后在已經找過的地方反復搜尋,這合理嗎?我是從第一分鐘起,將我所采用的每一個步驟口述到錄音設備中,這種記錄能使我回顧所采用的方法,并決定是否還要遵循檢修的路徑以及結果的本質。我之所以采用口述的方式,而不是用紙筆來記錄故障檢修的過程就是因為:厭倦!人們往往可以手寫記錄下故障檢修過程的前面幾個步驟,或者前面幾個小時所采用的步驟,但會隨著時間的推移,厭倦會導致這種工作的中斷:所采用的步驟沒有記錄或者是跳過了記錄。而口述是一種相對比較輕松的記錄故障檢修過程的工作,能記錄下自始至終的每一步。 其他的工具,要視乎你的工具包是否還有額外的空間,以及你實際的情況,比如,昂貴的FLUKE網絡測試儀器,并不是每個人都會配備的。?
軟件工具包 網管員可以根據自己的習慣、愛好等選擇適合自己的軟件工具包,軟件工具包的形式可以是LiveCD或者集成了維修工具的Windows PE啟動光盤,也可以是別的光盤,我用的Windows PE啟動光盤是深山紅葉工具光盤,很好用,網絡上有很多與之相類似的工具光盤。Live Cd我選擇的是Knoppix漢化版,Live CD的選擇有很多,比如Trinity Rescue Kit等等,都可以作為急救用的Live CD。 現在閃存容量越來越大了,加之現在的新電腦都支持從閃存啟動系統,我們完全可以制作成Live USB,在一定程度上比Live CD更為靈活。即使不做Live USB,也可以把常用的工具拷貝到閃存內,以備急需。關于這方面可以參考我在2007年5期《電腦自做》第96-101頁刊登的《閃存擴展 隨心而動》文章。 還有一些驅動軟盤,雖說現在軟盤和軟驅近乎絕跡了,但有些場合還是需要的,比如RAID驅動程序等等。This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》所有。網絡首發51CTO博客,轉載請務必注明出處并告知本人。
?
?
筆記本 從一定意義來說,它可以說是工作日志。你可以用紙媒介的本子來記筆記,也可以用電子版形式的,只要能達到目的就好,我用的是電子文檔。筆記本對于我來說,它的作用就是告訴我:出現問題時,哪些發生了變化。 當出現一個新的問題時,所要問的第一件事往往就是出現問題之前,是否有什么變化。 任何網絡操作系統都是一個有問題的系統,有時因為一些不能解釋的原因,甚至大部分無害的變化都有可能變得一團糟。如果你的筆記本,記錄了每個服務器、每個設備所有變化的詳細日志,能節省你用在故障檢修上的數個小時。作為我來講,我有每個服務器單獨的Excel電子表格,記錄了安裝新軟件包、安排重新啟動與否、添加新驅動器或者別的軟件等等,還有時間、日期、服務器每次變化的屬性。 如果在本周對服務器所做的更改,在下周引起了問題,那么你的筆記本就將發揮非常大的作用。 筆記本對于任何故障的成功解決非常重要。一個人對管理機器明晰,而他的同事卻什么都不懂,這就毫無意義了。我認為,這是一種非常危險的處境,特別是問題中的任務對網絡的安全至關重要。如果一旦這個人發生意外,其余的人該怎么辦呢? 從實踐經驗來看,隨著新過程的發展將其文檔化的做法是值得鼓勵的。我就有過這種經歷:曾經完美處理過一些事情,但僅僅過了一個月之后就遺忘了!這時候我多么希望自己以前就記錄到筆記本上啊!這種情況經常會發生。 實際上,根據我的經驗,當出現問題時,不論是打印驅動程序被破壞,還是客戶端連不上網絡,都應該記筆記。十有八九在開始進行之前,當處理問題之后,回到辦公室就會忘記自己做了什么。 想象一下,如果處理問題時和不斷升級必須有一段停機時間,回想使用的規程可能沒有歸檔,會怎么樣呢? 筆記的歸檔也很重要。雖然歸檔的內容有一些可能會過時了,比如Windows NT,但無論什么方法,都要保存起來。一些詳細任務可能再次適用于當前的網絡。另外,當按照新規程部署或者進行Beta測試時,歸檔就更為重要。如果堅持這種做法,這樣任何人走入服務器機房都可以按照歸檔的筆記執行任務,這對網絡管理工作不是很好嗎??
This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》所有。網絡首發51CTO博客,轉載請務必注明出處并告知本人。
故障檢修秘訣 Hello,現在我們終于到達了文章最重要的部分。
?
我的心得 記得MCSE曾經說過,超過58%的故障檢修成功是基于經驗的,無論這種經驗的知識來源于一般計算機系統知識還是所面對的具體問題的知識。剩下的故障檢修成功因素包括運氣,研究工作和你原本的解決問題的能力。 我認為,重要的是:提高你的故障檢修技巧是長久之計,而不是得到后就可以忘記的結果。 故障檢修技巧雖然主要是通過積累經驗來提高,但實際上,也可以通過閱讀(文章、博客和論壇等)、培訓和其他的方式獲得。 如果你缺乏使用Linux服務器的經驗,這并不意味著在解決問題時你就就一定缺少經驗,即使你具有豐富的技藝也可能只在特定的故障檢修情形中看到其他人會忽視的方面。Nike有一句廣告詞,我很贊賞,這就是:Just do it! 就是說,不要讓你的經驗阻礙你獲取更多的經驗!?
故障檢修的步驟 這里列出的步驟,是用于解決所有問題的“基礎”,是指導解決問題的基礎。 故障檢修的步驟有:識別問題、診斷故障、找出解決方案并實施、確認故障是否解決、記錄解決方案。 識別問題:就是鑒別問題是屬于硬件問題還是故障問題。 診斷故障:區分故障的癥狀和起因。確認系統故障是否由于底層的、基本的因素所致;確定這樣的癥狀,是否有利于解決其起因。 找出解決方案并實施:毫無疑問,這個步驟通常是反復的,一次又一次的過程。 確認故障是否解決:上個步驟的解決方案一般需要在不同條件下測試多次。 記錄解決方案:有時候,我經常成功的實踐了一個很好的解決方案,但是忘記了這是在以后遇到同樣的問題時更好解決問題的一個關鍵。這種情況下,就不得不重新學習這個方案,很明顯,花費幾分鐘的時間記錄在排除故障過程中的每一個解決方案很快就能使你獲得巨大的意外收獲。?
總結 微軟公司提出過一個故障檢修方法論:謂之D.E.T.E.C.T。這是由一組微軟微軟技術支持工程師創立的方法,為我們提供了一個策略。實際上,這些步驟是放之四海皆準的,無論是交換機故障,還是Windows服務器故障,抑或是Linux服務器故障,都適用。 D.E.T.E.C.T是: D Discover 發現問題 在用戶層次上與用戶交談,試著了解他們使用的軟件(如果可能的話,包括發布的版本)以及他們的硬件是否在硬件兼容性列表內。問題表現出的癥狀是什么。 E Explore 探索界限 是否能夠鑒別自從上一次報告系統正常以來都發生了那些變化?能否鑒別問題發生時運行的是什么軟件嗎? T Track 跟蹤可能的方法 你可以從處理這些故障中學習并通過跟蹤所采取的步驟,避免陳舊的、效率低下的嘗試——錯誤的方法。 E Execute 實施方法 撇開管理問題,以便在第一個方案的嘗試失敗時不會受到其它部門的干擾。若方案A失敗就應考慮方案B。不要忘記在執行解決問題的任務之前備份重要的系統和應用程序。 C Check 檢驗成功 T 總結 不管是什么樣的故障排除方法,本質上所有的方法都是遵從一個基本的模式: 發送者——→接受者 輸入——處理——輸出模式 按照微軟D.E.T.E.C.T方法論,進行故障查找明顯的是成功解決系統問題的第一步。?
故障檢修的定義 方法論 相信很多網管員都會嘆息過:如果能夠恢復這一切就好了。 在很大程度中,故障檢修是一種方法論。木工有一句話可以引用在這里:兩次測量,一次切斷。網管員在任何情況下都應三思而后行。 遵從故障排除的黃金規則可以減少你的痛苦:“一次只改變一個變量。”一次改變一個變量,然后進行成功或失敗的測試,這樣就能有效的證明我們排除故障工作工作的結果。這就是方法論的精髓。 我再次強調:在排除故障時,一次一個變量并進行測試。相信我!?
一小時原則 經驗表明,缺乏經驗的網管員,尤其是剛入行的,更容易誤入歧途。在查找問題時視野狹窄或者錯過了即時的觀察就有可能誤入歧途。狹窄的視野是一個陷阱,沒有考慮到外部因素可能會產生問題。外部因素有時也會導致災難。在我剛入行的時候,總是從主管的角度來觀察網絡環境,但實際上,總有一些在我控制之外的因素也會對我們產生影響。 在任何一種情況下,基本上應該將排除故障恢復狀態尋求幫助的工作時間限制為一小時。我比較傾向的方法是只進行一個小時解決服務器等問題的工作,如果不能解決問題或者保證合理的結束,就給技術支持小組打電話或者與這個領域的同行進行探討。一定要充分利用在這個領域中的同行專家資源。 在一些技術論壇,比如網管員世界論壇、51CTO論壇可以找到該領域的同行,也可加入他們的QQ群,提供和接受解決所遇到問題的建議。根據一小時原則,當你已經花費了一個小時試圖解決問題時,立刻去QQ群或者論壇呼叫同行。?
故障時間價值的計算 故障時間的價值,也是在故障檢修時要考慮的一個因素。 但是根據我的實際經驗,很多工作人員可能會以系統故障為借口停止工作并且可能回家,請問,在辦公室中,你看到過員工利用計算機故障時間來回復耽誤的電話嗎?沒有。很多員工可能只是說計算機系統崩潰了而無法工作。 我覺得故障時間價值的計算,不是三言兩語能夠說明白的,總之,系統故障時間的代價決定了你解決問題的方法,系統故障時間是非常昂貴的,即時在一個很小的企業中,你也可以估算出系統故障時間的代價究竟值多少人民幣。This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》所有。網絡首發51CTO博客,轉載請務必注明出處并告知本人。
?
?
學習曲線分析 實際上就是分析解決故障是否在自己的能力范圍之內。這里提供一個表格:| 問題的本質 | 技能 | 學習曲線 | 建議解決方案 |
| 簡單 | 高 | 低級 | 自行解決 |
| 經常發生,不困難 | 中 | 中級 | 在經過一些學習和陰暗解答之后解決問題好處包括能夠很好的利用學習時間。因為這種類型的問題頻繁發生,一旦進行學習并找到了解決方案,那么下一次解決問題就很容易。 |
| 頻繁發生,問題介于簡單和困難之間 | 低到中 | 中級到高級 | 這時與技術顧問或專家組成團隊就很有意義。可以讓專家展示解決方案,以便在將來能夠獨立的解決問題。 |
| 在壽命期間只發生一次,非常困難 | 不存在 | 很高級 | 交給別人做。保留一個專家來解決問題,并努力進行解釋。 |
?
整體衡量:過多的檢修,過少的時間 工作的成功是以整體衡量的,不要陷入故障檢修的黑洞中而沒有很好的完成其他工作。 實際上,如果給予足夠的時間,很多網管員都能夠解決問題。但是,時間對于我們每一個人都有限制。你會發現并沒有足夠的時間來完成想要做的任何事情。你有沒有發現過這么一個情況:從星期一開始查找一個故障,當抬頭看時間時卻發現已經是星期五下午了?是否注意到了在我們埋頭查找問題時,其他的工作已經堆積如山? 即時你有很高的排除網絡故障的技能,但也可能被提升并領導IT部門,你是否明白,你的角色已經改變,你應該將故障檢修的任務委派給一個下屬。因為故障檢修的時間問題中包含有核心能力。?
結交更多的同行朋友 很多時間,都是花費在爭論問題究竟是與硬件有關還是與軟件有關。 如果你在一方面很強,例如軟件方面,那么正在查找沒有解決方案的軟硬件問題時,而解決方案很可能就從你所薄弱的一方出現。就是說,如果從有優勢的一方已在上市解決問題,往往是另一方導致了我們的失敗。我的經驗告訴我,不止有一個壞掉的網卡導致了軟件相關的網絡問題! 所以,我的建議是,結交更多的同行朋友!這是查找硬件和軟件相關問題時的一個技巧。 讀者可以在網管員世界論壇找到相同領域的同行。?
回顧上世紀90年代,這是怎樣的一個漫長、離奇和有趣的旅程啊!從Netware的升起和隕落到Windows Server統治的出現,再到Linux的崛起,這個過程是相當快的。但是有些事情會一直保持下去,包括對于頂尖的排除故障技能的需要。隨著信息化的進展,對于這些技能的需要、尋找和使用更加明顯,因為,每一個網管員不再被看作是后臺的技術人員,事實上,現在網管員已經引起了高層的重視,因為故障事件是令人難以置信的代價!即使是非技術的高管也能夠理解這點。隨著信息化更大的進展,信息化承擔重要任務的、企業范圍內的應用,更多的前臺管理人員需要網管員卓越的排除故障技能來保證這些東西正常運行。 祝你們好運!This article was published on Network Administrator World in 2007, and the copyrights belong to Network Administrator World. The article was first posted on 51CTO blog, no transmission, re-publication, printing allowed unless with explicit authorization of author.
本文已與2007年刊登在《網管員世界》,版權歸《網管員世界》所有。網絡首發51CTO博客,轉載請務必注明出處并告知本人。
劉志勇 二〇〇七年八月于天津
總結
以上是生活随笔為你收集整理的直面故障,我们该怎么做?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7怎么设置移动硬盘 win7如何配
- 下一篇: 数据库的设计(一些观点) _转