成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

數(shù)據(jù)庫(kù)故障營(yíng)業(yè)系統(tǒng)重啟恢復(fù)操作

IT那活兒 / 816人閱讀
數(shù)據(jù)庫(kù)故障營(yíng)業(yè)系統(tǒng)重啟恢復(fù)操作
點(diǎn)擊上方“IT那活兒”公眾號(hào),關(guān)注后了解更多內(nèi)容,不管IT什么活兒,干就完了!??!

  

當(dāng)數(shù)據(jù)庫(kù)出現(xiàn)故障時(shí),營(yíng)業(yè)系統(tǒng)需要配合進(jìn)行切換及重啟恢復(fù)操作。而手動(dòng)停止、啟動(dòng)、重啟業(yè)務(wù)應(yīng)用容器、進(jìn)程等操作比較繁瑣效率低,原來(lái)需要多人同時(shí)花費(fèi)大量時(shí)間完成的事情使用該場(chǎng)景功能現(xiàn)在只用一個(gè)人就能解決,把大量重復(fù)性工作并發(fā)執(zhí)行減少工作量、人為誤操作等并提升整體工作效率。


問(wèn)

哪個(gè)平臺(tái)可以將大量重復(fù)性工作并發(fā)執(zhí)行減少工作量、人為誤操作等并提升整體工作效率??

那就必須給大家介紹一款產(chǎn)品:ZnAiops智慧運(yùn)營(yíng)管理平臺(tái)--基于統(tǒng)一的智能中臺(tái)構(gòu)建,具備構(gòu)建一體化、自動(dòng)化、智能化運(yùn)維管理能力。接下來(lái)就給大家具體展示一下它所具備的場(chǎng)景功能。







場(chǎng)景流程



通過(guò)這個(gè)調(diào)度可以實(shí)現(xiàn)單節(jié)點(diǎn)故障/恢復(fù)、數(shù)據(jù)庫(kù)全停庫(kù)割接兩個(gè)場(chǎng)景。

1. 單節(jié)點(diǎn)故障/恢復(fù)

場(chǎng)景描述:營(yíng)業(yè)A庫(kù),營(yíng)業(yè)A1、A2連接同一個(gè)存儲(chǔ),當(dāng)A1出現(xiàn)故障掛掉后A1連接數(shù)會(huì)自動(dòng)漂移至A2,A1手動(dòng)恢復(fù)正常后A2中短連接并未流向A1,容器、進(jìn)程還未重啟的情況下A2可能會(huì)因?yàn)檫B接數(shù)過(guò)高造成宕機(jī)等問(wèn)題。
解決方案:使用該場(chǎng)景通過(guò)一鍵重啟云化系統(tǒng)、進(jìn)程使A2保留長(zhǎng)連接其中短連接流向A1,讓系統(tǒng)恢復(fù)正常。

2. 全停庫(kù)割接

場(chǎng)景描述:首先要把連割接數(shù)據(jù)庫(kù)的業(yè)務(wù)應(yīng)用停掉,然后dba停止數(shù)據(jù)庫(kù)進(jìn)行割接操作完成后啟動(dòng)數(shù)據(jù)庫(kù),啟動(dòng)之前停掉的業(yè)務(wù)應(yīng)用,重啟后臺(tái)進(jìn)程。
解決方案:使用該場(chǎng)景能實(shí)現(xiàn)一鍵停止、啟動(dòng)業(yè)務(wù)應(yīng)用容器,根據(jù)需求一鍵重啟后臺(tái)進(jìn)程,減少現(xiàn)場(chǎng)多位人員大量啟停重復(fù)性工作,使其單人就能完成。





操作步驟



場(chǎng)景一:?jiǎn)喂?jié)點(diǎn)故障/恢復(fù),分為四個(gè)步驟。

step1:選擇工作類型

選擇對(duì)應(yīng)場(chǎng)景:執(zhí)行調(diào)度,工作類型選擇單節(jié)點(diǎn)恢復(fù),數(shù)據(jù)庫(kù)選擇涉及的數(shù)據(jù)庫(kù)。

step2:重啟云化系統(tǒng)

支持滾動(dòng)重啟云化系統(tǒng),選擇off將會(huì)不重啟容器進(jìn)入下一節(jié)點(diǎn),選擇on將會(huì)重啟容器腳本如下:
該腳本調(diào)用K8s api通過(guò)修改yaml配置中的annotations的變量值構(gòu)建新的YAML信息替換原有的yaml來(lái)實(shí)現(xiàn)了滾動(dòng)重啟namespace。

step3:重啟后臺(tái)進(jìn)程

選擇是否重啟后臺(tái)進(jìn)程。選擇off單節(jié)點(diǎn)故障/恢復(fù)流程結(jié)束,選擇on將會(huì)重啟進(jìn)程,腳本如下:
該腳本使用了多線程 、paramiko直接對(duì)遠(yuǎn)程服務(wù)器進(jìn)行操作來(lái)實(shí)現(xiàn)從數(shù)據(jù)庫(kù)讀取需要重啟的后臺(tái)進(jìn)程并重啟。
這里需要注意一點(diǎn),如果上一步選擇執(zhí)行滾動(dòng)重啟云化系統(tǒng)的任務(wù)的話,需要等待云化系統(tǒng)重啟完成后才能重啟后臺(tái)進(jìn)程,否則可能會(huì)導(dǎo)致部分后臺(tái)進(jìn)程連接jcrm等容器失敗。

step4:檢查后臺(tái)進(jìn)程重啟情況

登錄智慧運(yùn)維管理平臺(tái)使用數(shù)據(jù)庫(kù)查詢服務(wù),檢查進(jìn)程重啟情況,SQL如下:
select t.restarting_status, count(*)
from shsnc.process_yy_fwkt t
group by t.restarting_status

場(chǎng)景二:全停庫(kù)割接,分為個(gè)六個(gè)步驟。

step1選擇工作類型

執(zhí)行調(diào)度,工作類型選擇全停庫(kù)割接,數(shù)據(jù)庫(kù)選擇涉及的數(shù)據(jù)庫(kù)。

step2:停止容器

開(kāi)始執(zhí)行后會(huì)先自動(dòng)根據(jù)選擇涉及的數(shù)據(jù)庫(kù)對(duì)云化系統(tǒng)對(duì)應(yīng)的容器進(jìn)行停止處理并等待操作,腳本參數(shù)如下:
該腳本調(diào)用K8s api通過(guò)修改副本數(shù)為0停止容器,實(shí)現(xiàn)了保存depoyment下容器數(shù)量并停止容器。

step3:dba割接操作

停止數(shù)據(jù)庫(kù),需要dba配合停止數(shù)據(jù)庫(kù),等待數(shù)據(jù)庫(kù)停止后選擇ON通過(guò)。
啟動(dòng)數(shù)據(jù)庫(kù),需要dba配合啟動(dòng)數(shù)據(jù)庫(kù)進(jìn)行割接,等待全部完成后選擇ON通過(guò)。

step4:啟動(dòng)容器

啟動(dòng)停止的容器,上一步通過(guò)以后會(huì)自動(dòng)將之前停止的容器重新拉起,腳本如下:
該腳本調(diào)用K8s api通過(guò)修改副本數(shù)為停止前數(shù)值啟動(dòng)容器,實(shí)現(xiàn)了保存depoyment下容器數(shù)量并啟動(dòng)容器。

step5:重啟后臺(tái)進(jìn)程

選擇是否重啟后臺(tái)進(jìn)程。選擇off全停庫(kù)割接流程結(jié)束,選擇on將會(huì)重啟進(jìn)程,腳本如下:
該腳本使用了多線程 、paramiko直接對(duì)遠(yuǎn)程服務(wù)器進(jìn)行操作來(lái)實(shí)現(xiàn)從數(shù)據(jù)庫(kù)讀取需要重啟的后臺(tái)進(jìn)程并重啟。

step6檢查后臺(tái)進(jìn)程重啟情況

登錄智慧運(yùn)維管理平臺(tái)使用數(shù)據(jù)庫(kù)查詢服務(wù),檢查進(jìn)程重啟情況,SQL如下:
selectt.restarting_status, count(*)
fromshsnc.process_yy_fwkt t
group by t.restarting_status;


單節(jié)點(diǎn)故障/恢復(fù)操作展示

智慧運(yùn)維管理平臺(tái)-操作中心-運(yùn)維配置-調(diào)度-執(zhí)行數(shù)據(jù)庫(kù)割接單節(jié)點(diǎn)恢復(fù)云化系統(tǒng)重啟選擇單節(jié)點(diǎn)恢復(fù),開(kāi)始執(zhí)行后選擇滾動(dòng)重啟云化系統(tǒng),操作界面輸出日志等待程序執(zhí)行完成后結(jié)束。

注意事項(xiàng):單節(jié)點(diǎn)恢復(fù)的時(shí)候需要把部分容器剔除如行程碼,注意容器啟停順序等。

開(kāi)發(fā)中的難點(diǎn)

  • k8s沒(méi)有滾動(dòng)重啟的api,僅提供命令行。
  • 解決方案:直接修改pod的yaml的部署文件,apply滾動(dòng)更新。





后續(xù)優(yōu)化



目前整個(gè)場(chǎng)景流程中重啟容器、進(jìn)程操作沒(méi)有檢查項(xiàng)是否重啟完成,檢查操作已在開(kāi)發(fā)中。

因該場(chǎng)景較為特殊測(cè)試會(huì)影響到生產(chǎn)環(huán)境,尚未在生產(chǎn)環(huán)境中正式執(zhí)行過(guò),無(wú)法確定功能是否存在其他問(wèn)題。

本文作者:易俊杰(上海新炬王翦團(tuán)隊(duì))

本文來(lái)源:“IT那活兒”公眾號(hào)

文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/129346.html

相關(guān)文章

  • 云計(jì)算節(jié)點(diǎn)故障自動(dòng)化運(yùn)維服務(wù)設(shè)計(jì)

    此文已由作者王盼授權(quán)網(wǎng)易云社區(qū)發(fā)布。 歡迎訪問(wèn)網(wǎng)易云社區(qū),了解更多網(wǎng)易技術(shù)產(chǎn)品運(yùn)營(yíng)經(jīng)驗(yàn)~ 現(xiàn)狀計(jì)算節(jié)點(diǎn)發(fā)生磁盤損壞等數(shù)據(jù)無(wú)法恢復(fù)的異常時(shí),節(jié)點(diǎn)上的云主機(jī)系統(tǒng)盤無(wú)法恢復(fù),導(dǎo)致云主機(jī)只能被清理重建 計(jì)算節(jié)點(diǎn)宕機(jī)但磁盤數(shù)據(jù)可用時(shí),重啟即可恢復(fù)所有云主機(jī)的運(yùn)行 計(jì)算節(jié)點(diǎn)多次宕機(jī)(或一段時(shí)間內(nèi)頻繁宕機(jī)),則需要遷移所有云主機(jī)或者直接清理重建,云硬盤需要遷移到其他cinder-volume存儲(chǔ)服務(wù)節(jié)點(diǎn) 一般來(lái)...

    seanHai 評(píng)論0 收藏0
  • 盤點(diǎn):2014年十大云故障

    摘要:以下這個(gè)名單恐怕是這些公司不想看到的的年前大云故障。微軟稱這次中斷是由外部網(wǎng)絡(luò)故障所導(dǎo)致,部分用戶受影響長(zhǎng)達(dá)個(gè)小時(shí)。微軟表示這次中斷與故障無(wú)關(guān)。微軟最終確定人為錯(cuò)誤是罪魁禍?zhǔn)住?本杰明?富蘭克林曾經(jīng)說(shuō)過(guò),這個(gè)世界上有兩件事情不可避免,死亡和納稅。但如果這位偉大的政治家和發(fā)明家活在我們的現(xiàn)代世界,也許服務(wù)器停機(jī)也會(huì)進(jìn)入這個(gè)名單。不管底層技術(shù)再怎么好,也不管托管提供商再多么能干,云總是會(huì)發(fā)生故障...

    DesGemini 評(píng)論0 收藏0
  • AWS S3 掛掉原因:程序員輸錯(cuò)字母,誤刪服務(wù)器,故障4小時(shí)!

    摘要:周四聲稱,輸錯(cuò)命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)出現(xiàn)持續(xù)數(shù)小時(shí)的故障事件。太平洋標(biāo)準(zhǔn)時(shí)上午,一名獲得授權(quán)的團(tuán)隊(duì)成員使用事先編寫(xiě)的,執(zhí)行一條命令,該命令旨在為計(jì)費(fèi)流程使用的其中一個(gè)子系統(tǒng)刪除少量服務(wù)器。 AWS解釋了其廣大US-EAST-1地理區(qū)域的S3存儲(chǔ)服務(wù)是如何受到中斷的,以及它在采取什么措施防止這種情況再次發(fā)生。?AWS周四聲稱,輸錯(cuò)命令導(dǎo)致了亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)出現(xiàn)持續(xù)數(shù)小時(shí)的故障事件。這...

    MarvinZhang 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

最新活動(dòng)
閱讀需要支付1元查看
<