摘要:有一次別人的云服務(wù)器被攻擊,提供商竟然重啟了物理機(jī)然后又諸多悲劇出現(xiàn)最大的感恩就是學(xué)到了很多知識(shí)。
第一階段(3臺(tái)):1測(cè)試,1web 1數(shù)據(jù)庫
這個(gè)是云服務(wù)器,配置高的驚人,測(cè)試的機(jī)子竟然和正式的機(jī)子一模一樣,只實(shí)現(xiàn)了web和數(shù)據(jù)庫分離的構(gòu)架
維持了3個(gè)月,由于物理機(jī)故障,3臺(tái)服務(wù)器同時(shí)掛掉,網(wǎng)站暫停服務(wù)至少一天
master-slave:
還是云服務(wù)器,配置還是高的驚人, 除了另一個(gè)機(jī)房實(shí)現(xiàn)了web備份和數(shù)據(jù)庫主從外,跟第一階段沒什么差別
因?yàn)橐淮螖?shù)據(jù)庫服務(wù)器數(shù)據(jù)頁面錯(cuò)誤,主庫崩潰,web和數(shù)據(jù)庫跨機(jī)房了
master-master
上一次的教訓(xùn)是數(shù)據(jù)庫修復(fù)的時(shí)候,發(fā)現(xiàn)master的數(shù)據(jù)必須從slave導(dǎo)出來...數(shù)據(jù)一致性的要求.
痛定思痛,決定上雙master-master,這個(gè)時(shí)候出現(xiàn)了一個(gè)應(yīng)用層的悲劇,就是多個(gè)項(xiàng)目要公用一部分表了,而web卻在另在兩個(gè)服務(wù)器上 期間為了解決沖突,把自增id給岔開了
這個(gè)階段最大的悲劇在同一個(gè)機(jī)房?jī)?nèi),web+數(shù)據(jù)庫沒有備份的,在某次攻擊后,悲劇的發(fā)現(xiàn),web+數(shù)據(jù)必須切換到那個(gè)備份的機(jī)房去了
第三階段...還在進(jìn)行中...
推進(jìn)太困難了,經(jīng)過2次事故..我有點(diǎn)不想繼續(xù)既做開發(fā)又做運(yùn)維的了...出現(xiàn)問題的時(shí)候大家說,我不知道啊,服務(wù)器不歸我管理,我怎么操作呢?要講解運(yùn)維思路的時(shí)候大家又不積極
總結(jié)得出的最大教訓(xùn)就是:云服務(wù)器太不穩(wěn)定了,要以數(shù)量取勝,不能同一機(jī)柜。有一次別人的云服務(wù)器被攻擊,提供商竟然重啟了物理機(jī)..然后又諸多悲劇出現(xiàn)
最大的感恩就是:學(xué)到了很多知識(shí)。每次事故服務(wù)器我都要被迫親自參與修復(fù),本來不那么熟悉的,一下子被強(qiáng)迫做了很多事情
最近這段時(shí)間開始測(cè)試的東西有:
Fabric 用于多項(xiàng)目多服務(wù)器的代碼發(fā)布...
Atlas 數(shù)據(jù)庫讀寫分離中間件,從另一方面說也是屏蔽數(shù)據(jù)庫服務(wù)器差異的中間件,這點(diǎn)認(rèn)識(shí)很重要,如果有3臺(tái)web,當(dāng)一臺(tái)出現(xiàn)問題是,3臺(tái)的數(shù)據(jù)庫連接都要修改,但有了這個(gè)中間件,只要把有問題的offline即可...1分鐘就能搞定
Fabric 已經(jīng)上線使用,Atlas 上線遙遙無期..很多坑等待被發(fā)現(xiàn)
2014年2月8日補(bǔ)充:今天因?yàn)榈狡?,來不及續(xù)費(fèi),還剩下10個(gè)小時(shí)的時(shí)間,服務(wù)器竟然自動(dòng)關(guān)機(jī)了...還好,是關(guān)機(jī)而已,不是刪除服務(wù)器....坑啊
2014年2月12日補(bǔ)充:今天新增加2臺(tái)服務(wù)器,準(zhǔn)備內(nèi)網(wǎng)使用,中國的帶寬真TMD的貴.并不是每臺(tái)都能10M出口帶寬的..
因?yàn)闆]有統(tǒng)一的上傳文件和圖片,每個(gè)服務(wù)器都把圖片上傳到自己那臺(tái),最近要考慮怎么把這些圖片整合起來了,因?yàn)閳D片量比較少,所以準(zhǔn)備了一下方案:
rsync + crontab
rsync + inotify
sersync + inotify
inotify + svn
不知道大家還有其它方案么?難點(diǎn)在于多臺(tái)服務(wù)器之間相互rsync...
再次重申云服務(wù)器的好處:新開服務(wù)器幾乎是1小時(shí)以內(nèi),然后,一定要以數(shù)量取勝...
2014年2月13日補(bǔ)充:今天同一個(gè)物理盤所在的云盤上可能有人大量寫入數(shù)據(jù)...導(dǎo)致同一個(gè)機(jī)柜上的N個(gè)機(jī)子云盤io 100%... 以前對(duì)云主機(jī)都沒怎么認(rèn)識(shí),今天真是大開眼界了...
云盤和云主機(jī),另一個(gè)大坑就是:天佑同機(jī)柜和同物理機(jī)的的人都正正當(dāng)當(dāng),不然,一般的人都不知道問題出在哪里
文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/7905.html
摘要:有一次別人的云服務(wù)器被攻擊,提供商竟然重啟了物理機(jī)然后又諸多悲劇出現(xiàn)。造成微博服務(wù)短暫不可用。通過建立工具來診斷問題,并創(chuàng)建一種復(fù)盤事故的文化來推動(dòng)并作出改進(jìn),防止未來發(fā)生故障。 showImg(https://segmentfault.com/img/bV0jif?w=900&h=385); 相信小伙伴們?cè)谏暇W(wǎng)或者玩游戲的時(shí)候一定都遇到過無法訪問的情況。服務(wù)器炸了的原因有各種各樣,下...
摘要:在谷歌不是這樣,谷歌不會(huì)把特定的應(yīng)用裝在某臺(tái)服務(wù)器上,業(yè)務(wù)應(yīng)用和服務(wù)器的強(qiáng)綁定對(duì)于谷歌這種量級(jí)的數(shù)據(jù)中心的維護(hù)難度太高了。但是金融機(jī)構(gòu)的數(shù)據(jù)中心規(guī)模不像谷歌這么大,所以能做到業(yè)務(wù)應(yīng)用和硬件的強(qiáng)綁定。 復(fù)雜的基礎(chǔ)IT架構(gòu)是傳統(tǒng)金融的現(xiàn)狀,如何快速響應(yīng)用戶需求,加快新業(yè)務(wù)上線速度,縮短產(chǎn)品的迭代周期? 數(shù)人云在容器落地金融云的2年實(shí)踐中,實(shí)現(xiàn)金融核心業(yè)務(wù)技術(shù)WebLogic、J2EE、Or...
摘要:分享實(shí)錄云計(jì)算技術(shù)源于互聯(lián)網(wǎng)公司,現(xiàn)在云計(jì)算已經(jīng)是下一代企業(yè)級(jí)的發(fā)展趨勢(shì)。如何做云計(jì)算一直是云計(jì)算技術(shù)的領(lǐng)導(dǎo)者。互聯(lián)網(wǎng)公司的快速發(fā)展,已經(jīng)印證了云計(jì)算技術(shù)和云原生應(yīng)用相比傳統(tǒng)構(gòu)架的巨大優(yōu)勢(shì)。 今天小數(shù)又給大家?guī)硪黄韶洕M滿的分享——來自KVM社區(qū)線上群分享的實(shí)錄,分享嘉賓是數(shù)人云CEO王璞,題目是《云計(jì)算與 Cloud Native》。這是數(shù)人云在KVM社區(qū)群分享的第一彈,之后還有數(shù)...
摘要:摘要第九屆中國數(shù)據(jù)庫技術(shù)大會(huì),阿里云數(shù)據(jù)庫產(chǎn)品專家蕭少聰帶來以阿里云如何打破遷移上云的壁壘為題的演講。于是,阿里云給出了上面的解決方案。 摘要: 2018第九屆中國數(shù)據(jù)庫技術(shù)大會(huì),阿里云數(shù)據(jù)庫產(chǎn)品專家蕭少聰帶來以阿里云如何打破Oracle遷移上云的壁壘為題的演講。Oracle是指數(shù)據(jù)庫管理系統(tǒng),面對(duì)Oracle遷移上云的壁壘,阿里云如何能夠打破它呢?本文提出了Oracle 到云數(shù)據(jù)庫P...
閱讀 1479·2021-10-11 11:12
閱讀 3335·2021-09-30 09:46
閱讀 1700·2021-07-28 00:14
閱讀 3193·2019-08-30 13:49
閱讀 2639·2019-08-29 11:27
閱讀 3398·2019-08-26 11:52
閱讀 654·2019-08-23 18:14
閱讀 3491·2019-08-23 16:27