Twelve Labs:專注視頻理解,像人類一樣理解視頻內(nèi)容

UCloud小助手發(fā)布于2024-07-12 14:31 / 670人閱讀

在當(dāng)今數(shù)字化世界中，視頻已成為人們獲取信息和娛樂的主要方式之一。AI視頻生成領(lǐng)域的競爭也很激烈，Pika、Sora、Luma AI以及國內(nèi)的可靈等，多模態(tài)、視頻生成甚至也被視為大模型發(fā)展的某種必經(jīng)之路。然而與文本生成相比，視頻生成模型場景似乎更遠(yuǎn)，Sora在二月份引起了重大關(guān)注但是至今還沒有面向公眾開放試用。

今天要介紹的Twelve Labs是一家標(biāo)志性的企業(yè)，它憑借其先進的技術(shù)，致力于打造多模態(tài)視頻搜索引擎，為用戶提供更智能、更高效的視頻搜索體驗。

產(chǎn)品介紹

Twelve Labs的目標(biāo)是，讓視頻的處理和搜索變得和文本一樣容易。

主要觀點

場景式視頻內(nèi)容理解是主流：增加視頻數(shù)據(jù)和高質(zhì)量視頻內(nèi)容是未來 AIGC 在媒體和娛樂領(lǐng)域規(guī)模化采用的基礎(chǔ)，場景式理解視頻內(nèi)容 (Context Understanding of Video) 將會成為技術(shù)主流。視頻內(nèi)容處理可以細(xì)化到每一個瞬間，大大提高了視頻內(nèi)容在不同社交平臺的傳播效率。

AI原生產(chǎn)品的絲滑體驗感：自動化視頻數(shù)據(jù)標(biāo)注和數(shù)據(jù)生成可以極大的降低成本，把勞動力從重復(fù)性的工作中解放出來。Twelve Labs 把標(biāo)注，搜索和生成端到端的設(shè)計起來，創(chuàng)造了極優(yōu)的產(chǎn)品體驗。

產(chǎn)品簡介：

Twelve Labs 是一個人工智能平臺，幫助開發(fā)者創(chuàng)建視頻搜索和生成能力。該產(chǎn)品可在視頻中提取特定視頻瞬間，包括視覺、音頻、文本和上下文信息，以實現(xiàn)語義搜索、分析和洞察。該公司的愿景是創(chuàng)建用于多模式視頻理解的基礎(chǔ)設(shè)施，其自研模型可用于媒體分析并自動生成精彩片段。目前已被從多個頂級風(fēng)投機構(gòu)投資。

產(chǎn)品功能

Twelve Labs的核心技術(shù)是開發(fā)多模態(tài)的AI大模型，能夠像人類一樣理解視頻內(nèi)容。它通過三個步驟自動搜索，分類和生成來簡化用戶的工作流程，但其中包括了幾種主要的產(chǎn)品功能，只需通過對接 API 就可以使用：

1、視頻搜索

此模型分析視頻的語義內(nèi)容（Sematic search)，包括視頻，音頻，Logo 等數(shù)字材料，文字等全面分析場景關(guān)聯(lián)性，以實現(xiàn)高效且準(zhǔn)確的特定視頻片段檢索，幫助用戶在無需觀看完整內(nèi)容的情況下精準(zhǔn)搜索到大量來自 Youtube, Tiktok，Reels 等視頻庫的材料。

傳統(tǒng)的視頻搜索主要都是基于標(biāo)題和特定標(biāo)簽信息來完成的，而 Twelve Labs 的產(chǎn)品可以根據(jù)對視頻包括音頻內(nèi)容的理解和用戶輸文字的語義來進行定位。

2、視頻分類

如果你是一個視頻內(nèi)容平臺如抖音，數(shù)據(jù)庫里有海量的視頻資源，你有很多的用戶，但是每個用戶可能只對其中一類或者幾類視頻感興趣。那如何只推送用戶喜歡的內(nèi)容呢？

傳統(tǒng)的內(nèi)容推薦大多都是根據(jù)用戶的偏好設(shè)置和用戶行為數(shù)據(jù)，根據(jù)視頻的標(biāo)題和標(biāo)簽進行匹配來進行的。這種推薦的結(jié)果一般初期效果比較差，并且?guī)в泻軓姷牟淮_定性。

這個基于AI大模型的分類功能除了能很好地完成個性化內(nèi)容推薦任務(wù)，還可以做精準(zhǔn)廣告投放，公司內(nèi)部視頻資源的整理。它通過分析視頻中的語義特征、對象和動作，將視頻自動分類為預(yù)定義的類別，如體育、新聞、娛樂或紀(jì)錄片。這增強了內(nèi)容發(fā)現(xiàn)能力，并提供個性化推薦。同時，此功能基于內(nèi)容相似性對視頻進行分組，而不需要標(biāo)簽數(shù)據(jù)。它使用視頻嵌入來捕捉視覺和時間信息，便于測量相似性并將相似視頻進行歸類。

3、視頻-語言建模

該功能集成文本描述和視頻內(nèi)容，使模型能夠理解并生成基于文本的摘要、描述或?qū)σ曨l內(nèi)容的響應(yīng)。它彌合了視覺和文本理解之間的差距。還可以在生成的視頻上自由修改和插入視頻內(nèi)容，有提供用戶利用細(xì)分賽道數(shù)據(jù)的微調(diào)模型的功能，例如客戶會需要微調(diào)「茄瓜沙律」為「雞胸肉沙律」。

Twelve Labs商業(yè)模式主要做ToB的業(yè)務(wù)，比如視頻內(nèi)容提供商，媒體資產(chǎn)管理，執(zhí)法部門的數(shù)字證據(jù)管理等，目前已經(jīng)與Vidispine、EMAM、Blackbird等公司建立深度合作。

4、視頻描述和摘要

這個模型能夠生成自然語言的描述以及視頻的簡潔摘要，從而捕獲關(guān)鍵的信息和重要的時刻。在此基礎(chǔ)上，結(jié)合深度學(xué)習(xí)算法實現(xiàn)對語義內(nèi)容進行理解分析，并以文本形式呈現(xiàn)給用戶。特別是對于那些有視覺問題或時間受限的用戶來說，這種方法增強了理解能力和參與度。

同時，該系統(tǒng)提供一種基于語音識別技術(shù)的個性化視頻分享平臺。你還可以利用自定義的prompt工具來創(chuàng)建具有不同重點的長篇視頻總結(jié)、故事或自媒體文章等內(nèi)容。

產(chǎn)品優(yōu)勢

為了實現(xiàn)大規(guī)模莫場景式視頻理解搜索和生成，Twelve Labs 建立了兩個視頻語言大模型，奠定了極大的技術(shù)優(yōu)勢：

Pegasus-1（800 億參數(shù)）是 Twelve Labs 的視頻語言模型（Video-to-Text)，通過「視頻優(yōu)先」策略確保卓越的視頻理解，具有高效的長視頻處理、多模態(tài)理解、原生視頻嵌入和深度視頻語言對齊的優(yōu)點。憑借 800 億參數(shù)并在 3 億視頻-文本對的大型數(shù)據(jù)集上進行訓(xùn)練，它顯著超越了之前的模型。在 MSR-VTT 數(shù)據(jù)集上顯示出 61% 的提升，在視頻描述數(shù)據(jù)集上提升了 47%。與 Whisper-ChatGPT 等 ASR+LLM 模型相比，Pegasus-1 的性能提升高達 188%，在視頻轉(zhuǎn)文本的準(zhǔn)確性和效率上設(shè)立了新標(biāo)準(zhǔn)。

Marengo-2.6 是一款最先進的多模態(tài)基礎(chǔ)模型，擅長執(zhí)行文本到視頻、文本到圖像和文本到音頻等任意搜索任務(wù)。它在 MSR-VTT 數(shù)據(jù)集上比 Google 的 VideoPrism-G 高出 10%，在 ActivityNet 數(shù)據(jù)集上高出 3%。具備先進的零樣本檢索能力，超越現(xiàn)有模型在理解和處理視覺內(nèi)容上的表現(xiàn)。其多功能性還包括跨模態(tài)任務(wù)，如音頻到視頻和圖像到視頻。該模型通過重新排序模型實現(xiàn)了增強的時間定位，確保更精確的搜索結(jié)果，展示了在多種模態(tài)下令人印象深刻的感知推理能力。

小結(jié)

除了Twelve Labs之外，谷歌以及微軟和亞馬遜也推出了能夠提供 API 級、人工智能驅(qū)動的服務(wù)的產(chǎn)品，這些服務(wù)可以識別視頻中的對象、位置和動作，并在幀級提取豐富的元數(shù)據(jù)。隨著這些技術(shù)的不斷進步，我們可以預(yù)見，未來在視頻理解領(lǐng)域的競爭將變得異常激烈。

我們正站在一個由 AI 技術(shù)引領(lǐng)的新時代的門檻上。在這個時代，視頻不再僅僅是動態(tài)的視覺記錄，而是智能理解與深度學(xué)習(xí)技術(shù)融合的前沿。

總之，Twelve Labs憑借其多模態(tài)視頻搜索引擎，正在改變我們處理和獲取視頻信息的方式，為數(shù)字世界帶來更為便捷、智能的體驗。

GPU算力平臺云服務(wù)器全面理解理解理解對象語義理解

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/131131.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

[雙ISP靜態(tài)住宅IP型輕量云主機] 上線啦！！

閱讀 10168·2025-06-19 16:48
U大使必看！！新手指引來啦

閱讀 2463·2025-05-12 19:38
7分鐘零代碼快速搭建電商獨立站！

閱讀 2518·2025-04-29 17:46
煥新季出海大促來襲！香港回內(nèi)地網(wǎng)絡(luò)大升級~海內(nèi)外云主機2C4G低至 27元/月！出海業(yè)務(wù)必選

閱讀 14291·2025-03-21 11:44
DeepSeek從入門到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識庫

閱讀 1398·2025-02-19 18:27
DeepSeek從入門到精通（1）：10分鐘用DeepSeek搭建私有化知識庫

閱讀 1497·2025-02-19 18:21
基于Ktransformers的DeepSeek-R1滿血版部署

閱讀 1310·2025-02-19 13:50
UCloud X DeepSeek V3、R1滿血版橫向大對比！

閱讀 2634·2025-02-13 22:35

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Twelve Labs:專注視頻理解,像人類一樣理解視頻內(nèi)容

相關(guān)文章

那些開創(chuàng)深度學(xué)習(xí)的大師們

螞蟻百靈大模型：多模態(tài)能力讓大模型像人一樣理解感知

深度學(xué)習(xí)鼻祖杰夫·辛頓及巨頭們的人才搶奪戰(zhàn)

[譯] 在 Twitch 代碼直播一年的總結(jié)

發(fā)表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

[雙ISP靜態(tài)住宅IP型輕量云主機] 上線啦！！

U大使必看！！新手指引來啦

7分鐘零代碼快速搭建電商獨立站！

煥新季出海大促來襲！香港回內(nèi)地網(wǎng)絡(luò)大升級~海內(nèi)外云主機2C4G低至 27元/月！出海業(yè)務(wù)必選

DeepSeek從入門到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識庫

DeepSeek從入門到精通（1）：10分鐘用DeepSeek搭建私有化知識庫

基于Ktransformers的DeepSeek-R1滿血版部署

UCloud X DeepSeek V3、R1滿血版橫向大對比！

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Twelve Labs:專注視頻理解,像人類一樣理解視頻內(nèi)容

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！