摘要:輕量級云服務(wù)器如何使用實(shí)例的用法與普通彈性計(jì)算實(shí)例一樣便捷,用戶可以使用控制臺或者方式配置和購買服務(wù)。
阿里云發(fā)布了國內(nèi)首個公共云上的輕量級GPU異構(gòu)計(jì)算產(chǎn)品——VGN5i實(shí)例,該實(shí)例打破了傳統(tǒng)直通模式的局限,可以提供比單顆物理GPU更細(xì)粒度的服務(wù),從而讓客戶以更低成本、更高彈性開展業(yè)務(wù)。適用于云游戲、VR/AR、AI推理和DL教學(xué)等輕量級GPU計(jì)算場景,更細(xì)粒度的GPU計(jì)算服務(wù)。
輕量級GPU云服務(wù)器是什么?輕量級GPU云服務(wù)器是一種新的GPU云服務(wù)器規(guī)格族,是通過公共云的GPU虛擬化技術(shù)將分片虛擬化后的GPU資源以虛擬GPU的形式安裝在GPU云服務(wù)器實(shí)例中。與常規(guī)GPU云服務(wù)器的區(qū)別在輕量級GPU云服務(wù)器提供更細(xì)力度的GPU計(jì)算資源,比如擁有更少的CUDA計(jì)算核心,更小的顯存。這樣做的優(yōu)勢是在業(yè)務(wù)應(yīng)用中,業(yè)務(wù)可以根據(jù)資源所需更加靈活的配置GPU計(jì)算資源。
GPU的計(jì)算顆粒過大:
單顆物理GPU的計(jì)算能力越做越強(qiáng)大,但是許多應(yīng)用需要更小顆粒的GPU計(jì)算資源;
常規(guī)GPU資源不利于業(yè)務(wù)自動伸縮:
擁有單顆物理GPU資源的實(shí)例在業(yè)務(wù)部署中會因?yàn)橐浞掷肎PU資源而造成“胖節(jié)點(diǎn)”,不利于設(shè)計(jì)成彈性伸縮架構(gòu),缺乏靈活性,無法應(yīng)對業(yè)務(wù)快速變化;
常規(guī)GPU計(jì)算實(shí)例無法在線遷移:
常規(guī)直通虛擬化的GPU實(shí)例,由于架構(gòu)特性無法支持GPU實(shí)例的在線遷移;
我們從GPU加速器呈現(xiàn)方式,業(yè)務(wù)連續(xù)性,計(jì)算業(yè)務(wù)場景以及使用與管理看不同:
GPU加速器呈現(xiàn)
常規(guī)GPU云服務(wù)器實(shí)例是通過設(shè)備直通方式提供物理GPU加速器;
輕量級GPU云服務(wù)器實(shí)例是通過GPU虛擬化方式提供虛擬GPU加速器;
業(yè)務(wù)連續(xù)性
常規(guī)GPU云服務(wù)器僅支持作業(yè)離線遷移
輕量級GPU云服務(wù)器支持作業(yè)在線遷移
計(jì)算業(yè)務(wù)場景
常規(guī)GPU云服務(wù)器適用于重負(fù)載的GPU加速計(jì)算,例如:深度學(xué)習(xí)訓(xùn)練與推理計(jì)算、HPC計(jì)算、重載圖形計(jì)算
輕量級GPU云服務(wù)器適用于輕負(fù)載的GPU加速計(jì)算,例如:輕負(fù)載的深度學(xué)習(xí)推理計(jì)算、深度學(xué)習(xí)教學(xué)場景、云游戲與VR/AR場景
使用與管理
常規(guī)GPU云服務(wù)器提供彈性計(jì)算服務(wù)實(shí)例、業(yè)務(wù)擴(kuò)展以單顆物理GPU資源方式增加
輕量級GPU云服務(wù)器依然提供彈性計(jì)算服務(wù)實(shí)例,但業(yè)務(wù)擴(kuò)展以更小粒度GPU資源方式增加(例如:1/8或1/4顆Tesla P4的資源);
技術(shù)亮點(diǎn):支持用戶在公共云上創(chuàng)建更小顆粒的虛擬GPU的云服務(wù)器實(shí)例。
技術(shù)領(lǐng)先性有三點(diǎn):
任何一項(xiàng)領(lǐng)先的計(jì)算技術(shù)要將其移植到公共云上輸出,還是要遵循可靠性、經(jīng)濟(jì)性和易用性的技術(shù)要求。
首先是可靠性,公共云服務(wù)器首先是公共服務(wù),要給所有用戶提供“簡單可依賴”的基礎(chǔ)服務(wù);雖然虛擬化GPU技術(shù)在私有部署條件下使用比較成熟,但是在公共云上使用還是要面臨幾個可靠性的挑戰(zhàn)的:第一是數(shù)據(jù)安全性;第二是資源隔離;這兩個問題在私有部署條件下通常是沒有要求的,原因是私有部署都是給同一用戶部署使用,安全和資源爭搶問題都比較容易解決。但是,要在公共云上使用,這些問題在公共云上就必須解決。
其次是經(jīng)濟(jì)性,用戶能選擇使用輕量級GPU云服務(wù)器出發(fā)點(diǎn)是希望更加精細(xì)的使用GPU資源,本質(zhì)是追求經(jīng)濟(jì)性。虛擬化GPU技術(shù)在私有環(huán)境部署,因?yàn)樾枨蟠_定,可以根據(jù)預(yù)想好的使用場景來配置虛擬化比例,但在公共云場景就要解決既要滿足所有用戶的使用場景,又要保持調(diào)度系統(tǒng)的高效,不斷降低成本,追求經(jīng)濟(jì)性。
最后是易用性,易用性表現(xiàn)在幾個方面,一個是管理接口和使用習(xí)慣與其他ECS實(shí)例保持一致,另一個是APP在GPU實(shí)例中的使用場景和方式與其他常規(guī)GPU實(shí)例保持一致。這樣用戶就沒有學(xué)習(xí)成本了。
GPU實(shí)例的用法與普通彈性計(jì)算實(shí)例一樣便捷,用戶可以使用Web控制臺或者OpenAPI方式配置和購買服務(wù)。用戶在使用過程中可以完全掌控該實(shí)例,該實(shí)例在阿里云計(jì)算環(huán)境中運(yùn)行,還可以配合其他云服務(wù)一起使用。當(dāng)用戶業(yè)務(wù)遇到業(yè)務(wù)高峰時可以在數(shù)分鐘內(nèi)擴(kuò)展新的實(shí)例來適應(yīng)業(yè)務(wù)增長。用戶在虛擬化GPU服務(wù)的使用全過程中均可以享受到在線服務(wù)咨詢和快速故障處理服務(wù)。
輕量級GPU云服務(wù)器的實(shí)例有哪些?目前開放售賣基于NVIDIA Tesla P4的VGN5i實(shí)例,該實(shí)例提供八分之一到一比一的虛擬GPU加速器;
后面會上線基于NVIDIA Tesla T4的VGN6i實(shí)例,該實(shí)例提供十六分之一到一比一的虛擬GPU加速器;
輕量級GPU云服務(wù)器可以根據(jù)業(yè)務(wù)需求配置創(chuàng)建貼合業(yè)務(wù)所需計(jì)算資源的GPU云服務(wù)器實(shí)例,因此可以在每個輕量級GPU云服務(wù)器實(shí)例上僅運(yùn)行一個計(jì)算業(yè)務(wù)負(fù)載,在業(yè)務(wù)峰值來臨時,橫向擴(kuò)展某一個計(jì)算業(yè)務(wù)負(fù)載即可。這樣的特性十分適合互聯(lián)網(wǎng)業(yè)務(wù)中AI計(jì)算的批量部署以及云游戲,AR/VR在云端應(yīng)用和深度學(xué)習(xí)的教學(xué)實(shí)驗(yàn)場景。
VGN5i的用戶價值有哪些?VGN5i的用戶價值包括:降低批量部署GPU實(shí)例的成本,可以輕松實(shí)現(xiàn)快速彈性伸縮以及提高運(yùn)維效率。
降低批量部署成本
在諸多圖形計(jì)算和AI推理計(jì)算的場景中,用戶通常并不要求單GPU實(shí)例的計(jì)算性能十分強(qiáng)大,而是更加關(guān)注業(yè)務(wù)在批量部署中的成本。小粒度的虛擬化GPU實(shí)例則更加合適這些場景,很好的平衡用戶業(yè)務(wù)在批量部署中的成本需求。
實(shí)現(xiàn)快速彈性伸縮
擁有了小粒度的虛擬化GPU實(shí)例,用戶不必再為了匹配較強(qiáng)的物理GPU資源而將服務(wù)部署成為復(fù)雜的胖服務(wù)節(jié)點(diǎn),而是可以基于容器方式將有GPU計(jì)算需求的服務(wù)都解耦部署在不同的虛擬化GPU實(shí)例節(jié)點(diǎn)上。這樣部署的瘦服務(wù)節(jié)點(diǎn)更加有利于快速彈性伸縮,在業(yè)務(wù)的任何時刻都可以應(yīng)對自如,提高業(yè)務(wù)運(yùn)維效率。
提高運(yùn)維效率
使用小顆粒的虛擬化GPU實(shí)例進(jìn)行瘦服務(wù)節(jié)點(diǎn)部署,使得服務(wù)環(huán)境配置和服務(wù)接口變得簡單,使用不同的鏡像即可部署大規(guī)模的AI應(yīng)用而無需部署復(fù)雜的胖節(jié)點(diǎn),提供運(yùn)維效率,降低時間風(fēng)險和成本。
直播觀看地址:https://yq.aliyun.com/live/938
查看產(chǎn)品VGN5i:https://www.aliyun.com/product/ecs/gpu
VGN5i·釋放GPU計(jì)算新動力:https://promotion.aliyun.com/ntms/act/vgpu.html
阿里云新品發(fā)布會頻道:https://promotion.aliyun.com/ntms/act/cloud/product.html
阿里云新品發(fā)布·周刊:https://yq.aliyun.com/publication/36
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/3173.html
摘要:點(diǎn)擊訂閱云棲夜讀周刊阿里云發(fā)布了國內(nèi)首個公共云上的輕量級異構(gòu)計(jì)算產(chǎn)品實(shí)例,該實(shí)例打破了傳統(tǒng)直通模式的局限,可以提供比單顆物理更細(xì)粒度的服務(wù),從而讓客戶以更低成本更高彈性開展業(yè)務(wù)?!军c(diǎn)擊訂閱云棲夜讀周刊】 阿里云發(fā)布了國內(nèi)首個公共云上的輕量級GPU異構(gòu)計(jì)算產(chǎn)品——VGN5i實(shí)例,該實(shí)例打破了傳統(tǒng)直通模式的局限,可以提供比單顆物理GPU更細(xì)粒度的服務(wù),從而讓客戶以更低成本、更高彈性開展業(yè)務(wù)。適...
摘要:人工智能正在召喚神龍。阿里云發(fā)布首個異構(gòu)超算集群人工智能特別是深度學(xué)習(xí),對算力的要求永無止境。除了神龍異構(gòu)超算集群外,阿里云還發(fā)布了新版本可兼容加速器和小程序云。人工智能正在召喚神龍。3月21日,阿里云發(fā)布業(yè)內(nèi)首個公共云異構(gòu)超算集群——基于彈性裸金屬服務(wù)器神龍X-Dragon的SCC-GN6,集群性能接近線性增長,將深度學(xué)習(xí)訓(xùn)練時間縮短至分鐘級,可滿足無人駕駛、智能推薦、機(jī)器翻譯等人工智能場...
摘要:點(diǎn)擊訂閱云棲夜讀周刊是阿里級計(jì)算平臺,經(jīng)過十年磨礪,它成為阿里巴巴集團(tuán)數(shù)據(jù)中臺的計(jì)算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務(wù)?!军c(diǎn)擊訂閱云棲夜讀周刊】 MaxCompute 是阿里EB級計(jì)算平臺,經(jīng)過十年磨礪,它成為阿里巴巴集團(tuán)數(shù)據(jù)中臺的計(jì)算核心和阿里云大數(shù)據(jù)的基礎(chǔ)服務(wù)。 熱點(diǎn)熱議 阿里靠什么支撐 EB 級計(jì)算力? 作者:技術(shù)小能手?發(fā)表在:阿里技術(shù) Tablestore Timestream:為海...
摘要:點(diǎn)擊訂閱云棲夜讀周刊在歷史文章如何成為優(yōu)秀的技術(shù)主管中,阿里巴巴高級技術(shù)專家云狄從開發(fā)規(guī)范開發(fā)流程技術(shù)規(guī)劃與管理三個角度,分享對技術(shù)的理解與思考?!军c(diǎn)擊訂閱云棲夜讀周刊】 在歷史文章《如何成為優(yōu)秀的技術(shù)主管?》中,阿里巴巴高級技術(shù)專家云狄從開發(fā)規(guī)范、開發(fā)流程、技術(shù)規(guī)劃與管理三個角度,分享對技術(shù) TL 的理解與思考。 熱點(diǎn)熱議 在阿里做了五年技術(shù)主管,我有話想說 作者:技術(shù)小能手?發(fā)表在:...
摘要:點(diǎn)擊訂閱云棲夜讀周刊如果說以不斷提升插件能力和可擴(kuò)展能力的基礎(chǔ)設(shè)施開源項(xiàng)目民主化進(jìn)程是在年的核心主題的話,那么在年,這個技術(shù)社區(qū)的發(fā)展脈絡(luò)又是怎樣的呢?zé)狳c(diǎn)熱議從發(fā)布,看技術(shù)社區(qū)演進(jìn)方向作者技術(shù)小能手發(fā)表在阿里技術(shù)螞蟻中間件【點(diǎn)擊訂閱云棲夜讀周刊】 如果說以不斷提升插件能力和可擴(kuò)展能力的 基礎(chǔ)設(shè)施開源項(xiàng)目民主化進(jìn)程是 Kubernetes 在2017-2018年的核心主題的話,那么在2019...
閱讀 2182·2021-10-08 10:21
閱讀 2653·2021-09-29 09:34
閱讀 3568·2021-09-22 15:51
閱讀 5084·2021-09-22 15:46
閱讀 2369·2021-08-09 13:42
閱讀 3500·2019-08-30 15:52
閱讀 2793·2019-08-29 17:13
閱讀 1615·2019-08-29 11:30