【罷工四小時】Google Cloud 癱瘓互聯網 竟然係因為低級錯誤
呢幾日最熱門嘅網絡話題,梗係罷工啦⋯⋯唔好搞錯,我係講 Google Cloud 今個月 2 號發生嘅罷工。呢次罷工牽連甚廣,唔單只 Google 自家產品包括Gmail、Google Drive、Google Docs、YouTube、Google search 用唔到,仲搞到 Snapchat、Discord、Shopify 等用緊 Google Cloud 服務嘅平台都 down 埋,足足搞成四粒鐘先全面恢復(好在只係美國及歐洲出事,香港地區未受影響)。
罷工癱瘓大災難
讀者第一時間會諗,關唔關黑客事呢?答案係唔關事,因為 Google 第一時間已經出嚟認衰,出事原因係衰喺自己手上。點解咁講?原來今次係 Google Cloud 有幾個伺服器要例行維修,慣常做法係將要經呢幾個伺服器做嘅嘢,交俾其他伺服器做,又或者暫停某啲唔太緊急嘅工作,等維修後先繼續做,而以上安排,一般就交由 Google 嘅自動軟件嚟協調。
問題就出喺自動軟件上,原來軟件有兩個設定唔小心搞錯咗,加上有少量嘅 bugs,結果唔小心閂多咗伺服器;簡單啲講,就好似公路本來有六條行車線,而家得返兩條,於是網絡大塞車,觸發今次災難。
自家服務優先使用
既然唔發生都發生咗,最緊要都係汲取教訓唔好再犯,今次事件就帶嚟兩個教訓:首先係幫襯 Google Cloud 嘅企業要認真考慮後備方案。原因好簡單,得返兩條行車線,你話 Google 會俾邊個行先?唔使問梗係「親生仔」啦,你見到事發頭一粒鐘入面,Shopify 呢類非親生仔全死,而 Gmail 同 YouTube 只係分別唔見咗 1% 同 2.5% 嘅流量(雖然都影響好多人),well,咁親疏有別係好易明嘅,但你既然唔係親生仔,將成個後台系統交予單一營運商經營,一旦外判服務有所差池,就會拖垮日常營運,所以任何時候都要制定後備計劃,有兩手準備點都安全啲。
第二個教訓係當大家貪方便將所有嘢放上雲嘅時候,原來要預咗有後果。今次 Google 有工程師事發後兩分鐘已經發現問題,咁點解要搞四粒鐘先修復到?原因係無論工程師之間嘅溝通軟件,同埋用嚟偵測錯誤(Debug)嘅工具,全部都放晒上雲,而唔好彩嘅地方,係呢批工具竟然無優先用餘下兩條行車線嘅權利,於是就出現「上帝可唔可以創造一塊自己舉唔起嘅石頭」呢類邏輯問題,修復嚿雲嘅工具係嚿雲入面,就咁玩死咗自己。
發生咁大件事,Google都算係咁,兩日後工程部副總裁 Benjamin Treynor Sloss 寫咗成篇「賽後報告」,開誠布公講番當日到底發生乜嘢事,同埋承諾即時將出事嘅自動軟件下架。比起今年三月 Facebook 同 Instagram 停擺幾粒鐘,事後只係講句「系統出現錯誤設定所致」就算數,好明顯透明得多。
多雲策略成趨勢
呢個故事亦教訓大家,數碼轉型唔好依賴晒一個雲服務供應商,多雲(Multi-Cloud)架構已經成為業界嘅主流。不過,要輕鬆管理多雲系統唔係咁易,而且亦要考慮各個供應商之間嘅磨合問題。市面上就有專門為客戶度身訂造多雲策略嘅供應商,其中 HKT 更會提供 CloudView 一站式管理系統,方便客戶掌握及管理各個雲供應商嘅產品執行狀況。企業管理者唔想公司運作停擺,就要好好了解一下。
相關文章:【Cloud Expo Asia】 HKT 多雲架構 集各家所長 集中管理快捷安全減浪費