2009年8月1日 星期六

機場當機與希捷韌體事件的省思─你的硬碟還健康嗎?

機場當機與希捷韌體事件的省思─你的硬碟還健康嗎?
http://www.ithome.com.tw/itadm/article.php?c=53597&s=2

機場當機與希捷韌體事件的省思─你的硬碟還健康嗎? 
今年初始,就發生了兩起和硬碟相關的大事件,首先是1月5日,桃園機場大當機36個小時。根據移民署的說法,起因是硬碟與磁碟陣列系統過度老舊,導致1、2航廈儲存系統的硬碟同時損壞,讓整個出入境系統無法運作,這一事件的後果就是,在當機的36個小時中,有8名通緝犯成功的逃亡出境。然後在1月19日,全球最大硬碟製造商希捷(Seagate)在官網上坦承包括Barracuda 7200.11、DiamondMax 22以及企業等級的Barracuda ES.2在內的3個系列硬碟產品,許多型號的韌體都必須更新,否則可能會導致BIOS無法找到硬碟、通電後無法動作、系統當機等問題。此消息一出,使用者一片譁然,某位不願具名的磁碟陣列經銷商更表示,他至少賣出了數千顆有問題的硬碟,幾乎不可能一一協助企業更新韌體。

機場當機事件:
備援系統的硬碟也失效
先來看看桃園機場的事件,內政部移民署副署長黃碧霞在先前接受iThome電腦報周刊訪問時指出,因為系統老舊,線上和備援系統的硬碟同時損壞,是當時機場大當機主因。此外,維護廠商對系統的不熟悉可能也是原因之一。據了解,由於護照查驗系統的維護,是每年一標的維護案,而「98年度電腦設備暨相關軟體維護案」的競標,是在2008年12月31日決標,系統維護廠商在事發前,才剛從大同公司轉由神通電腦負責,兩家公司並沒有正式完成交接,神通電腦是在完全不了解系統架構與概況的情況下,搶修護照查驗系統。

由桃園機場的事件,企業使用者可以看到幾個教訓,首先就是,硬碟定期更換對於企業和組織的重要性。但問題是有多少企業有定期監測硬碟的使用狀況?超過保固年限是否就會更換?桃園機場的前車之鑑正好再次提醒了使用者,在企業的應用環境中,硬碟健康狀況的確認,是十分重要的一環。除此之外,維護人員對於儲存系統的了解,也必須是企業重視的一環,否則在系統出問題時,很有可能會因此無法快速修復系統,導致影響營運的時間更為拖長。

希捷硬碟韌體事件:
出錯原因不明,開關機頻繁可能會導致硬碟失效
而另一個事件,希捷的韌體出錯事件,則和上述不同,是企業自己也無法預防的產品瑕疵事件,當企業遇到這樣的事情時,為求安心,可能需要大規模的更新韌體。這件事說起來簡單,實際上卻是吃力不討好的工作,因為這代表著企業的資訊人員必須先將資料備份,然後停止磁碟陣列的運作,之後再一臺一臺的將硬碟拿出來與電腦連接,進行韌體更新。如果硬碟數量一多,在實際執行上,這幾乎是不可能的任務。在網路上討論區中,就有人指出,依照希捷提出的型號,該公司有480顆硬碟必須更新韌體,如果依照上述的做法進行更新,非常曠日廢時。

關於這次事件,希捷的官方聲明稿中坦承韌體出錯,但對於韌體如何出錯的技術細節,則完全沒有提及,僅在聲明稿中重申,硬碟因為此一問題而毀壞,資料並不會因此消失,並且提供客戶服務的網址與連繫電話。一位不願具名的磁碟陣列廠商表示,他們現在也無法確定韌體出錯的真正問題,與希捷技術人員溝通的過程中,技術人員對於問題所在也語焉不詳。但根據他們的實測,系統開關機的次數越頻繁,硬碟越有可能發生希捷所描述的症狀。

對於此一問題,截至截稿前,臺灣希捷都不願意提供我們關於此一事件技術方面的任何回應,因此我們也無法證實是否上述的說法為真。不過企業也不需過度恐慌,根據目前的了解,多數磁碟陣列廠商都表示,目前希捷硬碟有問題的型號,在企業端磁碟陣列上使用,都還沒有客戶回傳發生錯誤的消息,可見影響層面不大。

1月19日,希捷在官方網站上坦承三種型號的硬碟韌體出錯,可能會造成BIOS無法找到硬碟、通電後無法動作、系統當機等問題。

沒有留言:

張貼留言