摘要:日,公布了事故分析。此外,亞馬遜還完成了對(duì)所有備用配電的審計(jì)。至此,亞馬遜表示,已經(jīng)確定所有斷路器都是正確的配置了,并會(huì)進(jìn)行定期的測(cè)試和審計(jì)。最后,亞馬遜對(duì)在這次事件中受到損失的企業(yè)表示了歉意。
上周四即6月14日,Amazon位于美國(guó)東部的數(shù)據(jù)中心出現(xiàn)故障,并影響了AWS多項(xiàng)云服務(wù)以及基于之上的Heroku、Quora等知名網(wǎng)站。16日,Amaozn公布了事故分析。事故是由公共電網(wǎng)故障引起,并引發(fā)了一系列連鎖故障。:
事情的起因是電纜故障影響了高壓配電系統(tǒng)。
6月14日20:44左右,一電纜發(fā)生故障,進(jìn)而影響了高壓配電系統(tǒng)。2個(gè)為可用區(qū)域提供電力的公用變電站出現(xiàn)故障,進(jìn)而使得整個(gè)供應(yīng)區(qū)供電不足。但這個(gè)情況是可以處理的,亞馬遜啟動(dòng)了備用發(fā)電機(jī),保證了所有的EC2實(shí)例和EBS存儲(chǔ)成功轉(zhuǎn)移。
然而,20:53,1個(gè)備用發(fā)電機(jī)因其風(fēng)扇過(guò)熱造成了超負(fù)荷運(yùn)轉(zhuǎn)而斷電。所以采用備用發(fā)電機(jī)(由一個(gè)完全獨(dú)立的配電電路完成額外發(fā)電能力)的方案也宣告失敗。更不幸的是,在這套特定的后備電源分配電路中,一個(gè)斷路器被錯(cuò)誤配置為在低功率閾值時(shí)打開,這樣,當(dāng)負(fù)載轉(zhuǎn)移到該電路時(shí),錯(cuò)誤發(fā)生了,該斷路器斷路了。
20:57,當(dāng)該電路斷路器斷開時(shí),實(shí)例和存儲(chǔ)失去了主要備份電力或二次后備電源。受此影響客戶的實(shí)例和卷是運(yùn)行在多個(gè)可用區(qū)域的,只能在此環(huán)境中等到電力恢復(fù)才能正常運(yùn)行。
15日10:19,發(fā)電機(jī)風(fēng)扇被替換并安裝好,發(fā)電機(jī)開始提供動(dòng)力。電力逐步恢復(fù)后,受影響的實(shí)例和存儲(chǔ)也開始恢復(fù)。
10:50,絕大多數(shù)實(shí)例已經(jīng)恢復(fù)正常。但對(duì)于EBS存儲(chǔ)(含啟動(dòng)塊)而言,電力不足之時(shí)寫入會(huì)有數(shù)據(jù)損失,也就是這些存儲(chǔ)可能存在不一致的狀況。這并非是潛在的不一致,因?yàn)榧词故谴鎯?chǔ)上I/O停頓,EBS也會(huì)在線直接反饋出受損狀態(tài)。用戶只能通過(guò)驗(yàn)證存儲(chǔ)上的一致性來(lái)恢復(fù)它。
最后,16日1:05,超過(guò)99%受影響的存儲(chǔ)才得以解決。
總的來(lái)看,EBS-related EC2 API的損失集中在20:57-22:40。具體來(lái)看,這段時(shí)間內(nèi),可變系統(tǒng)調(diào)用(如創(chuàng)建,刪除)失敗,進(jìn)而直接影響到客戶發(fā)布新的EBS-backed EC2實(shí)例。EC2和EBS APIs實(shí)施在多個(gè)可用復(fù)制數(shù)據(jù)存儲(chǔ)區(qū)。EBS數(shù)據(jù)存儲(chǔ)被用來(lái)存儲(chǔ)元數(shù)據(jù)等資源的卷快照。一個(gè)主要的EBS數(shù)據(jù)存儲(chǔ)因?yàn)檫@個(gè)時(shí)間失去了動(dòng)力,使得系統(tǒng)無(wú)法將數(shù)據(jù)存儲(chǔ)的副本放到另外一個(gè)可用區(qū)。一般來(lái)看,為了保護(hù)數(shù)據(jù)存儲(chǔ),系統(tǒng)會(huì)自動(dòng)翻轉(zhuǎn)為只讀模式,直到電力恢復(fù)可以啟動(dòng)可用區(qū),進(jìn)而盡快恢復(fù)到一致狀態(tài),并返回到數(shù)據(jù)存儲(chǔ)讀寫模式,使得啟用可變EBS調(diào)用成功。但這個(gè)事件中,這一保護(hù)方案沒(méi)有起到作用。
未來(lái),為了保證數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)快速切換,亞馬遜將實(shí)施變革。高壓配電系統(tǒng)以及所有運(yùn)行實(shí)例和存儲(chǔ)將采用全冗余電源。此外,亞馬遜還完成了對(duì)所有備用配電的審計(jì)。在審計(jì)中,亞馬遜還發(fā)現(xiàn)了另一個(gè)設(shè)置有問(wèn)題的斷路器。至此,亞馬遜表示,已經(jīng)確定所有斷路器都是正確的配置了,并會(huì)進(jìn)行定期的測(cè)試和審計(jì)。
最后,亞馬遜對(duì)在這次事件中受到損失的企業(yè)表示了歉意。
CSDN觀點(diǎn):從亞馬遜的解釋來(lái)看,頗有“屋漏偏逢連夜雨”之慨,但也從另一層面看出對(duì)于數(shù)據(jù)中心的任何一次事故而言,所需要提供的應(yīng)對(duì)方案應(yīng)是復(fù)雜的,連續(xù)的,方案之外,定期測(cè)試也是必須的。在該事件之后,有很多有價(jià)值的分析與評(píng)論,特選擇一些和大家共享。
原文鏈接:ycombinator.com
ericabiz:(自2001-2007年一直經(jīng)營(yíng)一個(gè)專用服務(wù)器托管公司)
在托管實(shí)施設(shè)計(jì)中,電池要有足夠的力量來(lái)支持發(fā)電機(jī)。但這也會(huì)帶來(lái)一個(gè)巨大單點(diǎn)故障的可能性。一個(gè)更好的設(shè)計(jì)是通過(guò)飛輪產(chǎn)生足夠的電力。不過(guò),對(duì)于一般數(shù)據(jù)中心而言,一年左右的時(shí)間內(nèi)總會(huì)遇到這些發(fā)電機(jī)故障。
亞馬遜有著好的設(shè)置,但是沒(méi)有進(jìn)行有效的測(cè)試。
順便說(shuō)一下,這也是問(wèn)你的數(shù)據(jù)中心供應(yīng)商的一個(gè)好問(wèn)題:是否擁有兩個(gè)完全冗余電源并包含PDU和發(fā)電機(jī)器的系統(tǒng)?多長(zhǎng)時(shí)間進(jìn)行一次測(cè)試?如果一個(gè)電路單元/發(fā)電機(jī)失敗,我如何設(shè)置服務(wù)器來(lái)保證應(yīng)用不失去動(dòng)力?
有一個(gè)正確的方法:多電源保證每一個(gè)服務(wù)器連接到2PDUs或連接到2個(gè)不同的發(fā)電機(jī)——但這是昂貴的,許多較低端的托管服務(wù)提供商是無(wú)法接受這個(gè)成本的。
rdl:
大型余熱發(fā)電設(shè)備(比如利用蒸汽、建筑、供熱設(shè)備產(chǎn)生的廢熱等)往往采用grid-backup模式。舉個(gè)例子,麻省理工學(xué)院的熱電廠(幾大天然氣渦輪機(jī)),也有很多大學(xué)利用蒸汽加熱,很多工業(yè)遺址也證明了這些。它歸結(jié)為成本和分區(qū)允許。顯然比起運(yùn)行一個(gè)24*7的發(fā)電機(jī),其更容易獲得許可證。而從實(shí)際價(jià)格上看,利用余熱更能體現(xiàn)循環(huán)價(jià)值。
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/3638.html
摘要:以下這個(gè)名單恐怕是這些公司不想看到的的年前大云故障。微軟稱這次中斷是由外部網(wǎng)絡(luò)故障所導(dǎo)致,部分用戶受影響長(zhǎng)達(dá)個(gè)小時(shí)。微軟表示這次中斷與故障無(wú)關(guān)。微軟最終確定人為錯(cuò)誤是罪魁禍?zhǔn)住?本杰明?富蘭克林曾經(jīng)說(shuō)過(guò),這個(gè)世界上有兩件事情不可避免,死亡和納稅。但如果這位偉大的政治家和發(fā)明家活在我們的現(xiàn)代世界,也許服務(wù)器停機(jī)也會(huì)進(jìn)入這個(gè)名單。不管底層技術(shù)再怎么好,也不管托管提供商再多么能干,云總是會(huì)發(fā)生故障...
摘要:阿里云再次發(fā)生故障,這已是年的第二起。這場(chǎng)事故,持續(xù)了三個(gè)小時(shí)左右。針對(duì)故障,阿里云表示會(huì)根據(jù)協(xié)議服務(wù)合同,盡快處理賠償事宜。十天前,阿里云今年的第一起事故被曝光。后來(lái),阿里云就此事作出回應(yīng),并在網(wǎng)站醒目標(biāo)識(shí)并給出告警。阿里云再次發(fā)生故障,這已是2019年的第二起。3月2日23時(shí)55分左右,阿里云開始出現(xiàn)大規(guī)模宕機(jī)故障,位于華北地區(qū)的多家互聯(lián)網(wǎng)公司的IT運(yùn)維人員發(fā)現(xiàn)多個(gè)APP和網(wǎng)站開始陷入卡...
回顧2012,更多開放,更多協(xié)作,更多機(jī)會(huì)產(chǎn)生。從來(lái)沒(méi)有一項(xiàng)服務(wù)會(huì)將幾乎所有IT、互聯(lián)網(wǎng)、通信技術(shù)整合在一起,沒(méi)有合作、開放的心態(tài)就沒(méi)有云計(jì)算。接下來(lái),將從IaaS、NoSQL與NewSQL、數(shù)據(jù)中心、大數(shù)據(jù)、安全這幾個(gè)方面對(duì)過(guò)去一年作出總結(jié)。IaaS——群雄追趕AWS談到IaaS,Google和AWS是公認(rèn)的業(yè)界最強(qiáng)。AWS是全球?qū)aaS這個(gè)business運(yùn)營(yíng)的較好的公司,除了技術(shù)領(lǐng)先,還要...
摘要:全球云計(jì)算廠商躬身入局,開啟現(xiàn)代化應(yīng)用之旅事實(shí)上,包括亞馬遜云科技華為云在內(nèi)的全球云計(jì)算廠商已在這一領(lǐng)域進(jìn)行了多年實(shí)踐。過(guò)去年,亞馬遜云科技一直在持續(xù)不斷地突破很多現(xiàn)代化應(yīng)用技術(shù)。年,亞馬遜云科技發(fā)布第一個(gè)消息隊(duì)列的服務(wù),至今已有年歷史。 2006年,是云計(jì)算滾滾浪潮的開端,這場(chǎng)IT技術(shù)變革始于亞馬遜AWS的成立,它讓公有云成為整個(gè)云行業(yè)的標(biāo)桿,也形成了...
閱讀 3152·2021-08-20 09:37
閱讀 1729·2019-08-30 12:47
閱讀 1252·2019-08-29 13:27
閱讀 1806·2019-08-28 18:02
閱讀 895·2019-08-23 18:15
閱讀 3224·2019-08-23 16:51
閱讀 1049·2019-08-23 14:13
閱讀 2309·2019-08-23 13:05