成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

無問芯穹Qllm-Eval:制作多模型、多參數(shù)、多維度的量化方案

UCloud小助手 / 611人閱讀

前言

近年來,大語言模型(Large Models, LLMs)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,得益于其在各種語言生成任務(wù)上的出色表現(xiàn),大語言模型推動(dòng)了各種人工智能應(yīng)用(例如ChatGPT、Copilot等)的發(fā)展。然而,大模型的落地應(yīng)用受到其較大的推理開銷的限制,對(duì)部署資源、用戶體驗(yàn)、經(jīng)濟(jì)成本都帶來了巨大挑戰(zhàn)。

大模型壓縮,即將大模型“瘦身”后塞進(jìn)資源受限的場景,以減少模型存儲(chǔ)、訪存和計(jì)算開銷。在盡量不損失模型性能的前提下,提高大模型推理吞吐速度,使大模型在物聯(lián)網(wǎng)邊緣設(shè)備、嵌入式機(jī)器人、離線移動(dòng)應(yīng)用等邊、端場景中保持優(yōu)秀的推理性能和功耗表現(xiàn)。

就在最近,來自清華大學(xué)電子工程系、無問芯穹和上海交通大學(xué)的研究團(tuán)隊(duì)展開了一次量化方案的“大摸底”,在《Evaluating Quantized Large Language Models 》(Qllm-Eval)這項(xiàng)工作中評(píng)估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務(wù)上的性能,本篇工作已被ICML'24接收。Qllm-Eval列舉出很多大模型落地環(huán)節(jié)應(yīng)當(dāng)關(guān)注的模型能力,對(duì)產(chǎn)業(yè)中的模型量化工作實(shí)踐,比如如何選取量化方法、針對(duì)哪些層或組件進(jìn)行優(yōu)化等問題具有指導(dǎo)意義,下圖是羅列的一些重要知識(shí)點(diǎn)。

訓(xùn)練后量化(Post-Training Quantization,PTQ)

大模型推理過程包括兩個(gè)階段:Prefill階段和Decoding階段:

  • Prefill階段的主要算子為矩陣-矩陣乘(GEMM),其推理速度受限于計(jì)算速度。

  • Decoding階段的主要算子為矩陣-向量乘(GEMV),其推理速度主要受限于訪存速度。

  • 當(dāng)處理涉及長文本或大批量大小的任務(wù)時(shí),KV Cache的存儲(chǔ)開銷會(huì)超過權(quán)重的存儲(chǔ)開銷。

訓(xùn)練后量化(Post-Training Quantization,PTQ)是大模型壓縮的常用技術(shù),其核心原理是將大模型的權(quán)重、激活值、KV Cache使用低精度格式表示,從而降低大模型在存儲(chǔ)和計(jì)算上的開銷。

在深度學(xué)習(xí)模型中,權(quán)重(weights)、激活值(activations)和鍵值緩存(KV Cache)等數(shù)值通常以32位或16位的浮點(diǎn)數(shù)(floats)來表示,這些浮點(diǎn)數(shù)可以有非常精確的數(shù)值,但同時(shí)也意味著模型會(huì)占用較大的存儲(chǔ)空間,并且需要比較多的計(jì)算資源來處理。

如果將浮點(diǎn)數(shù)從16位轉(zhuǎn)換成8位或者更低,好處是模型的大小會(huì)顯著減少,因?yàn)槊總€(gè)參數(shù)只需要不到50%的存儲(chǔ)空間,同時(shí),使用整數(shù)進(jìn)行計(jì)算通常比浮點(diǎn)數(shù)更快。

不同量化方式給大模型帶來的影響

但量化壓縮通常是有損的,不同量化方式的設(shè)計(jì)會(huì)對(duì)模型性能帶來不同的影響。為了探究不同量化方式對(duì)不同模型究竟會(huì)產(chǎn)生什么樣的影響,并幫助特定模型選擇更適合的量化方案,來自清華大學(xué)電子工程系、無問芯穹和上海交通大學(xué)的研究團(tuán)隊(duì)展開了一次量化方案的“大摸底”,在《Evaluating Quantized Large Language Models 》(Qllm-Eval)這項(xiàng)工作中評(píng)估了不同模型、量化不同張量類型、使用不同量化方法、在不同任務(wù)上的性能。

Qllm-Eval評(píng)測的量化張量類型包括權(quán)重(W)、權(quán)重-激活(WA)、KV Cache(KV),通過評(píng)估 PTQ 對(duì) 11 個(gè)系列模型(包括 OPT、LLaMA2、Falcon、Bloomz、Mistral、ChatGLM、Vicuna、LongChat、StableLM、Gemma 和 Mamba)的權(quán)重、激活和 KV 緩存的影響,對(duì)這些因素進(jìn)行了全面評(píng)估,覆蓋了從 125M 到 180B的參數(shù)范圍。另外還評(píng)估了最先進(jìn)的 (SOTA) 量化方法,以驗(yàn)證其適用性。同時(shí)在大量實(shí)驗(yàn)的基礎(chǔ)上,系統(tǒng)總結(jié)了量化的效果,提出了應(yīng)用量化技術(shù)的建議,并指出了大模型量化工作未來的發(fā)展方向。

大模型推理效率瓶頸分析

目前主流的大語言模型都是基于Transformer架構(gòu)進(jìn)行設(shè)計(jì)。通常來說,一個(gè)完整的模型架構(gòu)由多個(gè)相同結(jié)構(gòu)的Transformer塊組成,每個(gè)Transformer塊則包含多頭自注意力(Multi-Head Self-Attention, MHSA)模塊、前饋神經(jīng)網(wǎng)絡(luò)(Feed Forward Network, FFN)和層歸一化(Layer Normalization,LN)操作。

大語言模型通常自回歸(Auto-regressive)的方式生成輸出序列,即模型逐個(gè)詞塊生成,且生成每個(gè)詞塊時(shí)需要將前序的所有詞塊(包括輸入詞塊和前面已生成的詞塊)全部作為模型的輸入。因此,隨著輸出序列的增長,推理過程的開銷顯著增大。為了解決該問題,KV緩存技術(shù)被提出,該技術(shù)通過存儲(chǔ)和復(fù)用前序詞塊在計(jì)算注意力機(jī)制時(shí)產(chǎn)生的Key和Value向量,減少大量計(jì)算上的冗余,用一定的存儲(chǔ)開銷換取了顯著的加速效果?;贙V緩存技術(shù),通常可以將大語言模型的推理過程劃分為兩個(gè)階段(分別如下左圖和右圖所示):



左:預(yù)填充(Prefilling)階段:大語言模型計(jì)算并存儲(chǔ)輸入序列中詞塊的Key和Value向量,并生成第一個(gè)輸出詞塊。

右:解碼(Decoding)階段:大語言模型利用KV緩存技術(shù)逐個(gè)生成輸出詞塊,并在每步生成后存儲(chǔ)新詞塊的Key和Value向量。

數(shù)據(jù)層優(yōu)化技術(shù)

數(shù)據(jù)層優(yōu)化技術(shù)可以劃分為兩大類:輸入壓縮(Input Compression)和輸出規(guī)劃(Output Organization)。

輸入壓縮技術(shù)

在實(shí)際利用大語言模型做回答時(shí),通常會(huì)在輸入提示詞中加入一些輔助內(nèi)容來增強(qiáng)模型的回答質(zhì)量,例如,上下文學(xué)習(xí)技術(shù)(In-Context Learning,ICL)提出在輸入中加入多個(gè)相關(guān)的問答例子來教模型如何作答。然而,這些技術(shù)不可避免地會(huì)增長輸入詞提示的長度,導(dǎo)致模型推理的開銷增大。為了解決該問題,輸入壓縮技術(shù)通過直接減小輸入的長度來優(yōu)化模型的推理效率。

本綜述將該類技術(shù)進(jìn)一步劃分為四個(gè)小類,分別為:

  • 提示詞剪枝(Prompt Pruning):通常根據(jù)設(shè)計(jì)好的重要度評(píng)估指標(biāo)刪除輸入提示詞中不重要的詞塊、句子或文段,對(duì)被壓縮的輸入提示詞執(zhí)行在線壓縮。

  • 提示詞總結(jié)(Prompt Summary):通過對(duì)輸入提示詞做文本總結(jié)任務(wù),在保證其語義信息相同地情況下縮短輸入的長度。該壓縮過程通常也是在線執(zhí)行的。

  • 基于軟提示詞的壓縮(Soft Prompt-based Compression):通過微調(diào)訓(xùn)練的方式得到一個(gè)長度較短的軟提示詞,代替原先的輸入提示詞(在線執(zhí)行)或其中固定的一部分內(nèi)容(離線執(zhí)行)。其中,軟提示詞指連續(xù)的、可學(xué)習(xí)的詞塊序列,可以通過訓(xùn)練的方式學(xué)習(xí)得到。

  • 檢索增強(qiáng)生成(Retrieval-Augmented Generation):通過檢索和輸入相關(guān)的輔助內(nèi)容,并只將這些相關(guān)的內(nèi)容加入到輸入提示詞中,來降低原本的輸入長度(相比于加入所有輔助內(nèi)容)。

輸出規(guī)劃技術(shù)

傳統(tǒng)的生成解碼方式是完全串行的,輸出規(guī)劃技術(shù)通過規(guī)劃輸出內(nèi)容,并行生成某些部分的的輸出來降低端到端的推理延時(shí)。以該領(lǐng)域最早的工作“思維骨架”(Skeleton-of-Thought,以下簡稱SoT)為例,SoT技術(shù)的核心思想是讓大語言模型自行規(guī)劃輸出的并行結(jié)構(gòu),并基于該結(jié)構(gòu)進(jìn)行并行解碼,提升硬件利用率,減少端到端生成延時(shí)。

具體來說,如下圖所示,SoT將大語言模型的生成分為兩個(gè)階段:在提綱階段,SoT通過設(shè)計(jì)的提示詞讓大語言模型輸出答案的大綱;在分點(diǎn)擴(kuò)展階段,SoT讓大語言模型基于大綱中的每一個(gè)分點(diǎn)并行做擴(kuò)展,最后將所有分點(diǎn)擴(kuò)展的答案合并起來。SoT技術(shù)讓包含LLaMA-2、Vicuna模型在內(nèi)的9種主流大語言模型的生成過程加速1.9倍以上,最高可達(dá)2.39倍。在SoT技術(shù)發(fā)布后,一些研究工作通過微調(diào)大語言模型、前后端協(xié)同優(yōu)化等方式優(yōu)化輸出規(guī)劃技術(shù),達(dá)到了更好的加速比和回答質(zhì)量之間的權(quán)衡點(diǎn)。

未來方向

本文進(jìn)一步總結(jié)了未來的四個(gè)關(guān)鍵應(yīng)用場景,并討論了高效性研究在這些場景中的重要性:

  • 智能體和多模型框架。在最近的研究中,大語言模型智能體和多模型協(xié)同框架受到了許多關(guān)注,這類技術(shù)可以提升大語言模型的應(yīng)用能力,使得模型能更好地服務(wù)于人類。然而模型的數(shù)量增多,以及輸入到模型中的指令變長,都會(huì)使得智能體或框架系統(tǒng)的推理效率變低。因此需要面向這些框架和場景進(jìn)行大模型的推理效率優(yōu)化。

  • 長文本場景。隨著輸入模型文本變得越來越長,大語言模型的效率優(yōu)化需求變得愈發(fā)提升。目前在數(shù)據(jù)層、模型層和系統(tǒng)層均有相關(guān)的技術(shù)來優(yōu)化長文本場景下大語言模型的推理效率,其中設(shè)計(jì)Transformer的替代新架構(gòu)受到了許多關(guān)注,然而這類架構(gòu)還未被充分探索,其是否能匹敵傳統(tǒng)的Transformer模型仍未清楚。

  • 邊緣端部署。最近,許多研究工作開始關(guān)注于將大語言模型部署到邊緣設(shè)備上,例如移動(dòng)手機(jī)。一類工作致力于設(shè)計(jì)將大模型變小,通過直接訓(xùn)練小模型或模型壓縮等途徑達(dá)到該目的;另一類工作聚焦于系統(tǒng)層的優(yōu)化,通過算子融合、內(nèi)存管理等技術(shù),直接將70億參數(shù)規(guī)模的大模型成功部署到移動(dòng)手機(jī)上。

  • 安全-效率協(xié)同優(yōu)化。除了任務(wù)精度和推理效率外,大語言模型的安全性也是一個(gè)需要被考量的指標(biāo)。當(dāng)前的高效性研究均未考慮優(yōu)化技術(shù)對(duì)模型安全性的影響。若這些優(yōu)化技術(shù)對(duì)模型的安全性產(chǎn)生了負(fù)面影響,一個(gè)可能的研究方向就是設(shè)計(jì)新的優(yōu)化方法,或改進(jìn)已有的方法,使得模型的安全性和效率能一同被考量。


  • 推薦使用NVIDIA RTX 40 顯卡做模型推理:

    http://m.hztianpu.com/site/active/gpu.html?ytag=seo

    https://www.compshare.cn/?ytag=seo


    文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

    轉(zhuǎn)載請(qǐng)注明本文地址:http://m.hztianpu.com/yun/131114.html

    相關(guān)文章

    • 量化神經(jīng)網(wǎng)絡(luò)

      摘要:是第一個(gè)提出體積小,計(jì)算量少,適用于移動(dòng)設(shè)備的卷積神經(jīng)網(wǎng)絡(luò)。圖卷積運(yùn)算匯總參考圖與神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索卷積神經(jīng)網(wǎng)絡(luò)已被廣泛用于圖像分類人臉識(shí)別目標(biāo)檢測和其他領(lǐng)域。 1、基本卷積運(yùn)算手工設(shè)計(jì)輕量化模型主要思想在于設(shè)計(jì)更高效的網(wǎng)絡(luò)計(jì)算方式(主要針對(duì)卷積方式),從而使網(wǎng)絡(luò)參數(shù)減少,并且不損失網(wǎng)絡(luò)性能。本節(jié)概述了CNN模型(如MobileNet及其變體)中使用的基本卷積運(yùn)算單元,并基于空間維度和通道維度...

      curried 評(píng)論0 收藏0
    • Goodfellow回谷歌后首篇GAN論文:可遷移性對(duì)抗樣本空間

      摘要:論文可遷移性對(duì)抗樣本空間摘要對(duì)抗樣本是在正常的輸入樣本中故意添加細(xì)微的干擾,旨在測試時(shí)誤導(dǎo)機(jī)器學(xué)習(xí)模型。這種現(xiàn)象使得研究人員能夠利用對(duì)抗樣本攻擊部署的機(jī)器學(xué)習(xí)系統(tǒng)。 現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)(CNN)識(shí)別圖像的能力已經(jīng)到了出神入化的地步,你可能知道在 ImageNet 競賽中,神經(jīng)網(wǎng)絡(luò)對(duì)圖像識(shí)別的準(zhǔn)確率已經(jīng)超過了人。但同時(shí),另一種奇怪的情況也在發(fā)生。拿一張計(jì)算機(jī)已經(jīng)識(shí)別得比較準(zhǔn)確的圖像,稍作調(diào)整,...

      mtunique 評(píng)論0 收藏0
    • 阿里AI設(shè)計(jì)師一秒出圖,小撒連連驚呼,真相是...

      摘要:節(jié)目中,鹿班將接受設(shè)計(jì)領(lǐng)域的兩輪檢驗(yàn),如果鹿班的作品被現(xiàn)場觀眾成功找出,則認(rèn)為鹿班通過檢驗(yàn)。 近期,央視《機(jī)智過人》的舞臺(tái)上來了位三超設(shè)計(jì)師——設(shè)計(jì)能力超強(qiáng);出圖能力超快;抗壓能力超強(qiáng),成功迷惑嘉賓和現(xiàn)場觀眾,更讓撒貝寧出錯(cuò)三連。 節(jié)目一開場,這位設(shè)計(jì)師就為現(xiàn)場嘉賓:主持人撒貝寧、演員韓雪、神經(jīng)科學(xué)家魯白生成了三張獨(dú)具特色的海報(bào)。幾乎是說話的瞬間,海報(bào)立即生成,出圖速度之快讓撒貝寧驚呼...

      icattlecoder 評(píng)論0 收藏0
    • 深度學(xué)習(xí)在推薦領(lǐng)域應(yīng)用

      摘要:調(diào)研首先要確定微博領(lǐng)域的數(shù)據(jù),關(guān)于微博的數(shù)據(jù)可以這樣分類用戶基礎(chǔ)數(shù)據(jù)年齡性別公司郵箱地點(diǎn)公司等。這意味著深度學(xué)習(xí)在推薦領(lǐng)域應(yīng)用的關(guān)鍵技術(shù)點(diǎn)已被解決。 當(dāng)2012年Facebook在廣告領(lǐng)域開始應(yīng)用定制化受眾(Facebook Custom Audiences)功能后,受眾發(fā)現(xiàn)這個(gè)概念真正得到大規(guī)模應(yīng)用,什么叫受眾發(fā)現(xiàn)?如果你的企業(yè)已經(jīng)積累了一定的客戶,無論這些客戶是否關(guān)注你或者是否跟你在Fa...

      tanglijun 評(píng)論0 收藏0

    發(fā)表評(píng)論

    0條評(píng)論

    閱讀需要支付1元查看
    <