AI視頻生成賽道風(fēng)起云涌,國內(nèi)外新穎的文生、圖生視頻產(chǎn)品層出不窮。在各大廠商的“內(nèi)卷”之下,當(dāng)下的視頻生成模型各方面已經(jīng)接近“以假亂真”的效果。例如,OpenAI 的 Sora 和國內(nèi)的 Vidu、可靈等模型,通過利用 Diffusion Transformer 的擴(kuò)展特性,不僅能夠滿足各種分辨率、尺寸和時長的預(yù)測要求,同時生成的視頻更符合物理世界的表現(xiàn)。
但與此同時,大部分視頻生成模型的準(zhǔn)確程度、遵循指令的能力還有待提升,生成視頻仍然是一個“抽卡”的過程,往往需要用戶生成許多次,才能獲得符合需求的結(jié)果。這也造成算力成本過高、資源浪費等問題。
為了解決這些問題,阿里云提出了一種基于 DiT 架構(gòu)的軌跡可控視頻生成模型 Tora。Tora能夠根據(jù)任意數(shù)量的物體軌跡,圖像和文本條件生成不同分辨率和時長的視頻,在 720p分辨率下能夠生成長達(dá)204 幀的穩(wěn)定運動視頻。值得注意的是,Tora繼承了DiT的scaling特性,生成的運動模式更流暢,更符合物理世界。
Tora支持軌跡、文本、圖像三種模態(tài),或它們的組合輸入,可對不同時長、寬高比和分辨率的視頻內(nèi)容進(jìn)行動態(tài)精確控制。
軌跡輸入可以是各種各樣的直線、曲線,其具有方向,不同方向的多個軌跡也可以進(jìn)行組合。
例如,你可以用一條S型曲線控制漂浮物的運動軌跡,同時用文字描述來控制它的運動速度。下面這個視頻中,所使用的提示詞用到了“緩慢”、“優(yōu)雅”、“輕輕”等副詞。
與目前常見的運動筆刷功能有所不同的是,即使沒有輸入圖像,Tora也可以基于軌跡和文本的組合,生成對應(yīng)的視頻。
例如下面這個視頻中的1、3兩個視頻,就是在沒有初始幀,只有軌跡和文字的情況下生成的。
Tora也支持首尾幀控制,不過這個案例只以圖片形式出現(xiàn)在官方給出的論文里,并沒有提供視頻演示。
基于OpenSora框架,創(chuàng)新兩種運動處理模塊
如下圖所示,Tora包括一個Spatial-Temporal Denoising Diffusion Transformer,(ST-DiT,時空去噪擴(kuò)散變換器)、一個Trajectory Extractor(TE,軌跡提取器)和一個Motion-guidance Fuser(MGF,運動引導(dǎo)融合器)。
Tora 的 ST-DiT 繼承了 OpenSora v1.2 的設(shè)計,將輸入視頻在時空維度上壓縮成Spacetime visual patches(時空視覺補(bǔ)?。偻ㄟ^交替的spatial transformer block(空域變換器塊) 和temporal transformer block(時域變換器塊)進(jìn)行噪聲預(yù)測。
為了實現(xiàn)用戶友好的軌跡控制,TE 和 MGF 將用戶提供的軌跡編碼為多層次的Spacetime motion patches(時空運動補(bǔ)?。偻ㄟ^自適應(yīng)歸一化層將這些patches無縫整合到每個DiT block中,以確保生成視頻的運動與預(yù)定義的軌跡一致。
有了與visual patches共享特征空間的運動特征后,下一步需要將多層次的運動特征引入到相應(yīng)的 DiT 塊中,使生成的運動能夠遵循預(yù)定義的軌跡,同時不影響原有的視覺效果。
Tora 參考了transformer的多種特征注入結(jié)構(gòu),如上圖所示,Motion-guidance Fuser實驗了包括額外通道連接、自適應(yīng)歸一化和交叉注意力三種架構(gòu)。
實驗結(jié)果顯示,自適應(yīng)歸一化在視覺質(zhì)量和軌跡跟隨程度方面表現(xiàn)最佳,同時計算效率最高。自適應(yīng)歸一化層能夠根據(jù)多樣化的條件(文本&軌跡&圖像)動態(tài)調(diào)整特征,確保視頻生成的時間一致性。這在注入運動線索時尤為重要,能夠有效維持視頻運動的連續(xù)性和自然性。
實現(xiàn)細(xì)節(jié)與測試數(shù)據(jù)
Tora 基于 OpenSora v1.2 權(quán)重,使用分辨率從 144p 到 720p、幀數(shù)從 51 幀到 204 幀不等的視頻進(jìn)行訓(xùn)練。為平衡不同分辨率和幀數(shù)的訓(xùn)練 FLOP和所需內(nèi)存,批次大小調(diào)整為 1 到 25。
訓(xùn)練過程分為兩個階段,首先使用密集光流進(jìn)行 2 個 epoch 的訓(xùn)練,然后使用稀疏光流進(jìn)行 1 個 epoch 的微調(diào)。
在推理過程中,精選了 185 個包含多樣化運動軌跡和場景的長視頻片段,作為評估運動可控性的新基準(zhǔn)。
在AI視頻生成時長、質(zhì)量已經(jīng)達(dá)到一定程度之際,如何讓生成的視頻更可控、更符合需求,是當(dāng)下的重要命題。
在精準(zhǔn)度、可控性和資源利用效率等方面的持續(xù)優(yōu)化下,AI視頻生成產(chǎn)品的使用體驗將迎來新的階段,價格也會更加親民,讓更多創(chuàng)作者參與進(jìn)來。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/131146.html