成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

讓facebook自愈:自動化主動機(jī)架維護(hù) - 2

glumes / 3538人閱讀

摘要:讓自愈自動化主動機(jī)架維護(hù)原文作者翻譯時序預(yù)關(guān)閉這一步主要是保證目前池子中認(rèn)為是空閑的主機(jī)在主機(jī)級別關(guān)閉或批量操作期間交換多個主機(jī)時不會重新被加入到生產(chǎn)環(huán)境。

讓facebook自愈:自動化主動機(jī)架維護(hù) - 2
Making Facebook self-healing: Automating proactive rack maintenance

原文:https://code.fb.com/productio...
作者: Romain Komorn
翻譯: 時序

Pre-disable(預(yù)關(guān)閉): 這一步主要是保證目前池子中認(rèn)為是空閑的主機(jī)在主機(jī)級別關(guān)閉或批量操作期間交換多個主機(jī)時不會重新被加入到生產(chǎn)環(huán)境。

Host-level disable:(主機(jī)級關(guān)閉):在一些場景,由于在預(yù)關(guān)閉時已經(jīng)被批量關(guān)閉了所以這步?jīng)]有操作。在其他場景這一步會成為繼承FBAR的的主機(jī)級關(guān)閉邏輯的并行操作。

Post-disable(關(guān)閉后):這一步主要是用來確認(rèn)預(yù)關(guān)閉和主機(jī)級關(guān)閉成功完成。它也支持作者去檢查主機(jī)級關(guān)閉步驟的結(jié)果來決定是否要忽略特定的失敗類型如果它們?nèi)栽陬A(yù)期的閾值之下。

下面動畫展示了這個過程:

啟用流程與關(guān)閉流程一樣: 預(yù)啟用,主機(jī)級啟動,啟用后。使用自動化,我們可以安全的在機(jī)架或多個機(jī)架級執(zhí)行常規(guī)維護(hù),并可以最小化地影響其他的工程團(tuán)隊和使用Facebook的人。

與人交互:當(dāng)自動化不可行(或失敗)

盡管我們的目標(biāo)是自動化所有要在我們基礎(chǔ)設(shè)施上進(jìn)行的維護(hù)工作,有些時候還是需要人工接入來保證維護(hù)可以安全進(jìn)行。

起飛檢查失敗或沒有自動化

在一些場景,定時任務(wù)可能可能會影響很大一批服務(wù)器,起飛檢查會就拒絕自動化執(zhí)行維護(hù)。我們的自動化故意設(shè)置得比較保守,并在可能產(chǎn)生大范圍影響的時候使用手動控制。在另外的情況,由于可靠性的原因或服務(wù)處于降級狀態(tài),此時自動化還沒有被實現(xiàn)或者被暫時關(guān)閉,我們希望防止自動化變更。

失敗自動化

盡管我們調(diào)用Aggregate Maintenance Handlers時有很高的成功率,還是有一些情況會出問題。當(dāng)故障發(fā)生時,我們的維護(hù)進(jìn)程會通知服務(wù)的負(fù)責(zé)人自動化失敗了。當(dāng)他們?nèi)斯ご_認(rèn)主機(jī)已經(jīng)被關(guān)閉了,維護(hù)動作才允許繼續(xù)進(jìn)行。

混合自動化與手工工作

為了幫助協(xié)調(diào)自動與手動的進(jìn)行,我們開發(fā)了Dapper,一個被很多團(tuán)隊(如,數(shù)據(jù)中心團(tuán)隊,技術(shù)經(jīng)理,基礎(chǔ)設(shè)施工程師,產(chǎn)品工程師)使用通過提供影響描述并用于調(diào)度維護(hù)工作的工具。

Dapper的維護(hù)執(zhí)行工作流如下:

學(xué)到的經(jīng)驗

我們從早期的自動化單主機(jī)修復(fù)到機(jī)架和多機(jī)架學(xué)到了一些經(jīng)驗。

關(guān)閉邏輯的串行執(zhí)行

一次關(guān)閉一個主機(jī)有兩個不好的負(fù)面影響。第一是在維護(hù)期間可能在某個時間點引起容量不夠,導(dǎo)致維護(hù)工作需要被停止直到人工介入:

更差的是,當(dāng)服務(wù)的交換邏輯是在同機(jī)架上重用主機(jī)時,我們可能會意外的將主機(jī)重新上線到生產(chǎn)環(huán)境,或最佳情況,進(jìn)入了無限循環(huán):

關(guān)閉邏輯的并行使用

相對于一次單個執(zhí)行,并行進(jìn)行交換主機(jī)可以防止串行方式的一些問題,但會引入其他問題。最常見的問題是并行調(diào)用單機(jī)邏輯可能在獨立操作尋找替換主機(jī)時造成條件競爭,但聚合結(jié)果可能會造成服務(wù)容量不足:

擴(kuò)展自動化

Dapper和Aggregate Maintenance Handlers提供的框架已經(jīng)從物理維護(hù)工作,擴(kuò)展到包括軟件發(fā)布/內(nèi)核/BIOS/OS升級時關(guān)閉和啟用主機(jī)。

工作在Dapper的產(chǎn)品工程師對進(jìn)一步擴(kuò)大自動化和開發(fā)工具幫助Facebook工程團(tuán)隊降低運維工作的成本,幫助他們解決更大更有挑戰(zhàn)性的問題充滿激情。

了解更多 FBAR和Aggregate Maintenance Handlers的內(nèi)容,可以看這個演講。

本文來自微信公眾號「麥芽面包,id「darkjune_think」轉(zhuǎn)載請注明。
交流Email: zhukunrong@yeah.net

文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/73902.html

相關(guān)文章

  • facebook自愈動化主動機(jī)架維護(hù) - 1

    摘要:一個在內(nèi)存中保存靜態(tài)索引的緩存機(jī)器可以接受從負(fù)載均衡池中摘除時長時間的網(wǎng)絡(luò)中斷。處理一次重啟需要主動替換一個沒有被同一次維護(hù)影響的服務(wù)器。主機(jī)可以被從負(fù)載均衡池中移除,數(shù)據(jù)可以存儲在磁盤上,服務(wù)器也可以在重啟后快速追平復(fù)制進(jìn)度。 Making Facebook self-healing: Automating proactive rack maintenance 原文:https://...

    wangbjun 評論0 收藏0
  • 2018年十大數(shù)據(jù)中心新聞

    摘要:年可以說是軟件定義數(shù)據(jù)中心的一年,大量自動化和人工智能研發(fā)力量致力于打造下一代可擴(kuò)展的靈活的數(shù)據(jù)中心。年,致力在軟件定義數(shù)據(jù)中心占據(jù)一席之地,并將目標(biāo)瞄準(zhǔn)了在年之前實現(xiàn)軟件和支持收入億美元。公有云沒有扼殺數(shù)據(jù)中心,盡管有些人預(yù)測這會在2018年發(fā)生。不僅數(shù)據(jù)中心還在,而且服務(wù)器、存儲和網(wǎng)絡(luò)等數(shù)據(jù)中心基礎(chǔ)設(shè)施的全球支出正呈現(xiàn)蓬勃增長的態(tài)勢。2018年可以說是軟件定義數(shù)據(jù)中心的一年,大量自動化和...

    Kaede 評論0 收藏0

發(fā)表評論

0條評論

glumes

|高級講師

TA的文章

閱讀更多
最新活動
閱讀需要支付1元查看
<