云計(jì)算憑借其強(qiáng)大的分布式計(jì)算能力,可伸縮的特性以及低成本高可靠性的優(yōu)勢, 在海量數(shù)據(jù)處理方面占據(jù)優(yōu)勢地位。但是日常所產(chǎn)生的數(shù)據(jù)并非都是需要隨時(shí)存取的,事實(shí)上,我們依賴于云服務(wù)進(jìn)行存儲(chǔ)的數(shù)據(jù),大多數(shù)都不是需要頻繁訪問的熱點(diǎn)數(shù)據(jù),大量的數(shù)據(jù)被存儲(chǔ)后訪問頻率很低(例如數(shù)據(jù)歸檔, 長期備份等場景,平均一年訪問一次甚至更低),這時(shí)候我們可以將這些不再經(jīng)常使用的“冷數(shù)據(jù)”轉(zhuǎn)移到一種成本更低的存儲(chǔ)設(shè)備來進(jìn)行長期保存,我們稱這種存儲(chǔ)為歸檔存儲(chǔ)。歸檔存儲(chǔ)安全、持久且成本極低,為了保持成本低廉,數(shù)據(jù)取回時(shí)間可能需要花費(fèi)數(shù)小時(shí)。
在數(shù)據(jù)歸檔領(lǐng)域,傳統(tǒng)的磁帶庫或是藍(lán)光盤庫介質(zhì)在過往一直是首選,這些磁帶或者光盤一旦存儲(chǔ)了數(shù)據(jù),就意味著數(shù)據(jù)進(jìn)入到數(shù)據(jù)中心某個(gè)不起眼的角落中,如無必要的話,這些數(shù)據(jù)將通常會(huì)進(jìn)入到“沉睡”階段,有些數(shù)據(jù)甚至幾十年都不再被讀取使用。如今數(shù)字經(jīng)濟(jì)的背景下,冷數(shù)據(jù)的價(jià)值挖掘受到了越來越多的關(guān)注,靈活的數(shù)據(jù)檢索,準(zhǔn)實(shí)時(shí)的數(shù)據(jù)取回能力,也成為了新時(shí)代數(shù)據(jù)歸檔場景的核心需求。
UCloud19年上線的歸檔存儲(chǔ)為對象存儲(chǔ)US3提供了一套極低價(jià)格的數(shù)據(jù)存儲(chǔ)系統(tǒng),該系統(tǒng)具備存儲(chǔ)速度快、可靠性高、數(shù)據(jù)取回靈活等特性,以下是該系統(tǒng)的介紹。
硬件架構(gòu) UCloud的存儲(chǔ)硬件架構(gòu)是采用兩個(gè)機(jī)頭連接多個(gè)JBOD的方式來組織的,一個(gè)機(jī)架里有多個(gè)JBOD和兩個(gè)機(jī)頭,每個(gè)JBOD都分別連接到兩個(gè)機(jī)頭的HBA卡上,每個(gè)JBOD容納了一百塊以上的硬盤,JBOD是存儲(chǔ)領(lǐng)域中一類重要的存儲(chǔ)設(shè)備,英文Just a Bunch Of Disks,意為磁盤簇,磁盤連續(xù)捆束陣列,是在一個(gè)底板上安裝的帶有多個(gè)磁盤驅(qū)動(dòng)器的存儲(chǔ)設(shè)備。不同于RAID陣列,JBOD沒有用來管理磁盤上數(shù)據(jù)分布的前端邏輯,每個(gè)磁盤進(jìn)行多帶帶尋址,可以作為分開的存儲(chǔ)資源,用戶可以像訪問普通硬盤一樣,訪問JBOD中的任意一塊硬盤。JBOD在近幾年被一些廠家提出,并逐漸被廣泛采用。
硬盤的選擇上我們首選HM-SMR(Host-Managed-SMR)盤,當(dāng)然也兼容普通的CMR盤,SMR盤的優(yōu)點(diǎn)是成本低廉,但是不支持隨機(jī)讀寫,上面的數(shù)據(jù)按固定的大小(通常是256MB)被分為一個(gè)個(gè)的Zone,只有1%的CMR Zone是支持隨機(jī)寫的,剩余99%的SMR Zone都是只支持順序?qū)懙?,?shù)據(jù)的擦除也是以Zone為單位的,這種盤的缺點(diǎn)是不適用于頻繁更改性寫入,但用來存儲(chǔ)大容量,修改少的數(shù)據(jù)卻十分合適,且成本低于普通HDD盤,適合作為UCloud歸檔存儲(chǔ)的存儲(chǔ)介質(zhì)。
兩個(gè)機(jī)頭用于管理連接在上面的JBOD和硬盤,裝有操作系統(tǒng),它們之間是主從關(guān)系,主機(jī)頭負(fù)責(zé)接收IO請求,主機(jī)頭故障后,從機(jī)頭接替成為主。
存儲(chǔ)的成本其中還有非常顯著的一部分是電力的開銷,如果所有硬盤長時(shí)間保持全部上電狀態(tài),將帶來比較大的一筆電力開銷,考慮到我們歸檔存儲(chǔ)寫多讀少的特性,且寫入都是追加寫,速度很快,少量的硬盤就可以充分利用網(wǎng)絡(luò)帶寬,所以我們的設(shè)計(jì)目標(biāo)是在正常使用的情況下可以做到大部分的硬盤處于下電狀態(tài),只有少部分硬盤處于上電狀態(tài)提供IO,在5年的質(zhì)保期間保證50k的上下電頻率,平均下來是小時(shí)級(jí)別。為此,UCloud在軟件架構(gòu)上設(shè)計(jì)了一套上下電調(diào)度策略,具體后文會(huì)有講解。
軟件架構(gòu) 冗余策略 常用的冗余策略有副本和糾刪兩種方式,為了達(dá)到節(jié)省成本的目的,UCloud歸檔存儲(chǔ)采用的策略是對數(shù)據(jù)進(jìn)行糾刪分片,又由于硬件架構(gòu)上的較多硬盤配置,以及異步寫的原因,我們采用了較大的EC比例。 Blob 考慮到前面提到的SMR盤的Zone和糾刪條帶的設(shè)定,我們引入了Blob這一概念, 例如采用大比例的EC糾刪策略, 把綜合考慮Zone和EC比例的數(shù)據(jù)劃分到一個(gè)Blob,這樣刪除或壓縮數(shù)據(jù)時(shí)可以以Blob為單位來進(jìn)行。 磁盤組 我們把整個(gè)系統(tǒng)的磁盤分成了一個(gè)個(gè)邏輯的磁盤組。一次IO的所有糾刪分片都在一個(gè)磁盤組中,一個(gè)Blob也只屬于某一個(gè)磁盤組,例如23+3的糾刪分片,那么一個(gè)磁盤組就包含26塊盤, 且上電,下電也是以磁盤組為最小單位的。當(dāng)上層來了寫IO時(shí),為了避免磁盤組頻繁上下電,會(huì)讓一個(gè)磁盤組持續(xù)服務(wù)寫操作,當(dāng)該磁盤組寫到一定的量后,按輪詢策略挑選下一個(gè)磁盤組進(jìn)行上電。
元數(shù)據(jù)
我們利用每塊硬盤那1%的支持隨機(jī)讀寫的CMR Zone來存儲(chǔ)元數(shù)據(jù)信息,元數(shù)據(jù)信息包含兩部分,Disk Meta和Zone Meta, Disk Meta用于保存整個(gè)磁盤的元數(shù)據(jù),包含唯一標(biāo)識(shí)這塊盤的Disk ID, 屬于哪個(gè)JBOD,有多少個(gè)Zone,以及Zone Meta在磁盤中的偏移和長度等。Zone Meta用于保存這塊盤每個(gè)Zone的元數(shù)據(jù)信息,包括這個(gè)Zone是第幾個(gè),有沒有被使用等。
歸檔服務(wù)啟動(dòng)時(shí),通過加載Disk Meta和Zone Meta在內(nèi)存中構(gòu)建每個(gè)Blob的信息。
上下電調(diào)度策略
為了節(jié)省電力成本,所有磁盤組并不是保持長期上電狀態(tài)的,當(dāng)沒有讀IO時(shí),只有當(dāng)前負(fù)責(zé)寫的磁盤組處于上電狀態(tài),當(dāng)這個(gè)磁盤組寫到一定量后,切換到下一個(gè)寫磁盤組上電,原來的寫磁盤組安排下電。對于讀IO,分為非緊急讀和緊急讀兩種,如果是非緊急讀,且這個(gè)讀IO對應(yīng)的磁盤組處于下電狀態(tài),則為這個(gè)磁盤組加一個(gè)讀標(biāo)記,每小時(shí)輪詢所有磁盤組,將有讀標(biāo)記但處于下電狀態(tài)的磁盤組上電,已處于上電狀態(tài)的磁盤組如果超過一定時(shí)間沒有收到IO請求會(huì)安排下電,也就是說,對于非緊急讀,最多需要數(shù)個(gè)小時(shí)的時(shí)間來等待磁盤組上電,而對于緊急讀IO來說,如果這次IO對應(yīng)的磁盤組處于下電狀態(tài),則立即安排上電,進(jìn)行數(shù)據(jù)讀取,并且在1小時(shí)內(nèi)不安排下電,用額外的電力成本提供了緊急讀的服務(wù)。
IO流程
上層IO的數(shù)據(jù)通過計(jì)算被切割成一個(gè)個(gè)EC分片(如果數(shù)據(jù)大小沒有按EC條帶對齊需要填0),分別派發(fā)到其對應(yīng)磁盤組的每個(gè)磁盤上,如果是非緊急讀IO可能需要等待對應(yīng)的磁盤組上電后進(jìn)行重試,如果是寫IO,當(dāng)一個(gè)Blob寫滿后,也就是磁盤組中每個(gè)磁盤的當(dāng)前Zone被寫滿后,會(huì)切換到下一個(gè)Zone,分配下一個(gè)Blob開始寫,寫成功后向上層返回這次IO對應(yīng)的Blob編號(hào)和在這個(gè)Blob內(nèi)的偏移,用于上層組織文件的元數(shù)據(jù)信息。
數(shù)據(jù)保存
數(shù)據(jù)在磁盤上是以4KB大小的Sector為單位寫下去的,每個(gè)IO所攜帶的數(shù)據(jù)經(jīng)過EC計(jì)算后落盤時(shí),都會(huì)被拆分成一個(gè)個(gè)Sector, 且在每個(gè)Sector的尾部都填充了一塊Sector Meta,用于記錄這個(gè)Sector的元數(shù)據(jù)信息,包括這個(gè)Sector對應(yīng)了第幾個(gè)Zone,以及這個(gè)Sector上數(shù)據(jù)的crc等,這樣可以防止硬盤的靜默錯(cuò)誤。
周期性數(shù)據(jù)檢查
歸檔服務(wù)啟動(dòng)后會(huì)周期性掃描已經(jīng)寫滿的Blob,對這個(gè)Blob的每個(gè)Sector進(jìn)行數(shù)據(jù)校驗(yàn),這一過程利用了上文提到的每個(gè)Sector 尾部的Sector Meta里保存的crc,校驗(yàn)失敗時(shí)會(huì)上報(bào)錯(cuò)誤,通知到相關(guān)運(yùn)維人員進(jìn)行處理。
總結(jié) 這套歸檔存儲(chǔ)系統(tǒng)在保證了高性能、安全的前提下,大幅地優(yōu)化了成本。非常適用于一些數(shù)據(jù)量大但訪問頻率不高的存儲(chǔ)場景,比如保存一些下載量少的多媒體數(shù)據(jù),大型數(shù)據(jù)庫、日志、用戶資料的備份等等。目前,UCloud歸檔存儲(chǔ)服務(wù)已經(jīng)于2019年上線,且穩(wěn)定運(yùn)行多年,預(yù)計(jì)隨著更大范圍的應(yīng)用,將會(huì)更大幅度地節(jié)省存儲(chǔ)成本。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/128389.html
摘要:對此,存儲(chǔ)產(chǎn)品經(jīng)理周恭元在月日剛結(jié)束的技術(shù)分論壇上帶來了海量數(shù)據(jù)云歸檔存儲(chǔ)最佳實(shí)踐的議題分享,圍繞企業(yè)數(shù)據(jù)歸檔面臨的存儲(chǔ)問題及需求,重點(diǎn)介紹了數(shù)據(jù)存儲(chǔ)的分層價(jià)值,以及新一代歸檔存儲(chǔ)的可靠性優(yōu)勢及三大適用場景。隨著互聯(lián)網(wǎng)科技的不斷進(jìn)步,產(chǎn)生的數(shù)據(jù)將以成倍速度進(jìn)行增長,據(jù)IDC預(yù)測,到2025年全球數(shù)據(jù)總量將會(huì)達(dá)到175ZB。如果要把175ZB用8TB的磁盤存下來的話,那就需要230億塊磁盤來存...
摘要:目前,對象存儲(chǔ)是這些海量非結(jié)構(gòu)化數(shù)據(jù)最好的存儲(chǔ)載體。宋體做式的對象存儲(chǔ)宋體是年推出的對象存儲(chǔ)產(chǎn)品。宋體二業(yè)務(wù)低成本宋體對象級(jí)別的分層存儲(chǔ)宋體采用專門的存儲(chǔ)機(jī)型,存儲(chǔ)密度更高,單位存儲(chǔ)的成本最低可降到計(jì)算機(jī)型的。隨著 5G+IoT 時(shí)代來臨,產(chǎn)生數(shù)據(jù)的主角除了人類還有海量的物理設(shè)備,相比 4G 移動(dòng)互聯(lián)網(wǎng)的短視頻、直播等,會(huì)有更大量的數(shù)據(jù)產(chǎn)生。據(jù) IDC 發(fā)布的《數(shù)據(jù)時(shí)代 2025》的預(yù)測,全...
摘要:更多歸檔存儲(chǔ)類型的使用說明請參考數(shù)據(jù)歸檔方案??刂婆_(tái)快速上手注產(chǎn)品已作為歸檔存儲(chǔ)類型合并至對象存儲(chǔ),目前不再向新用戶提供獨(dú)立的歸檔存儲(chǔ)服務(wù)。創(chuàng)建歸檔存儲(chǔ)空間登錄控制臺(tái),選擇右側(cè)歸檔存儲(chǔ)后進(jìn)入歸檔存儲(chǔ)列表頁,選擇創(chuàng)建歸檔存儲(chǔ)空間按鈕。使用場景注:UArchive 產(chǎn)品已作為歸檔存儲(chǔ)類型合并至 US3 對象存儲(chǔ),目前不再向新用戶提供獨(dú)立的歸檔存儲(chǔ)服務(wù)。如需使用更低成本的對象存儲(chǔ)服務(wù),請至 US3...
隨著數(shù)據(jù)量的增長、數(shù)據(jù)來源途徑的多元化,企業(yè)用戶需要考慮到私有云與公有云數(shù)據(jù)存儲(chǔ)的統(tǒng)一性管理,從而隨時(shí)隨地能夠從數(shù)據(jù)存儲(chǔ)平臺(tái)上獲得用戶所需要的數(shù)據(jù),為業(yè)務(wù)創(chuàng)新帶來敏捷的數(shù)據(jù)價(jià)值。當(dāng)前行業(yè)用戶對混合云的需求越發(fā)明顯,云廠商也是不斷推動(dòng)混合云解決方案在百行百業(yè)中的深入發(fā)展,從而,讓混合云與以軟件定義為主導(dǎo)的存儲(chǔ)顯得越來越密不可分。因而,就帶來了一個(gè)重要的混合云治理話題:混合云架構(gòu)下,如何讓數(shù)據(jù)存儲(chǔ)無邊...
摘要:三是可以降低我們的寫放大,在寫入時(shí)不會(huì)由于需要更新元數(shù)據(jù)而寫入兩次,這在隨機(jī)能力不是強(qiáng)項(xiàng)的硬盤場景下也格外重要。前言UCloud在2020年8月正式發(fā)布了基于US3的全新一代歸檔存儲(chǔ)產(chǎn)品,該產(chǎn)品采用UCloud全新自研存儲(chǔ)架構(gòu),相較標(biāo)準(zhǔn)存儲(chǔ)降低近80%存儲(chǔ)成本的同時(shí),與市場同類歸檔存儲(chǔ)產(chǎn)品相比降低近30%的價(jià)格。據(jù)IDC的預(yù)測,全球年新增數(shù)據(jù)量到2025年將達(dá)175ZB,真正能存儲(chǔ)下來的數(shù)據(jù)...
閱讀 1585·2025-02-07 13:29
閱讀 1010·2024-11-07 18:25
閱讀 131506·2024-02-01 10:43
閱讀 1394·2024-01-31 14:58
閱讀 1150·2024-01-31 14:54
閱讀 83577·2024-01-29 17:11
閱讀 3881·2024-01-25 14:55
閱讀 2397·2023-06-02 13:36