前幾個月OpenAI大名鼎鼎的Sora 一經(jīng)發(fā)布,似乎象征著視頻領(lǐng)域已經(jīng)進入了生成式 AI 時代。不過直到今天,我們?nèi)匀粵]有用上OpenAI 的官方視頻生成工具,等不及的人們已經(jīng)開始尋找其他的方法。其中不乏一些國內(nèi)的廠商如快手的可靈等等。而在近日,一款全新的開源...
在視頻中插入手繪動畫!傳統(tǒng)上這是一項非常困難的任務(wù),但 VideoDoodles 讓它成為可能。VideoDoodles是Adobe公司聯(lián)合多所大學推出的AI視頻編輯框架。支持用戶在視頻中輕松插入手繪動畫,實現(xiàn)與視頻內(nèi)容的無縫融合。通過預(yù)處理視頻幀,系統(tǒng)提供平面畫布,用戶...
檢查內(nèi)容是否用了ChatGPT,準確率高達99.9%!OpenAI又左右互搏上了,給AI生成的文本打水印,高達99.9%準確率抓「AI槍手」作弊代寫。其能夠精準識別出論文或研究報告是否由ChatGPT撰寫,甚至能追溯其使用的具體時間點。它能專門用來檢測是否用ChatGPT水了論文...
號稱地表最強人形機器人,來了。當?shù)貢r間周二早晨,獲得微軟、英偉達、OpenAI投資的硅谷著名智能創(chuàng)業(yè)公司 Figure 正式發(fā)布了自己的新一代人形機器人Figure 02?;跈C載算力和各個組件的全方位升級,AI人形機器人朝著進廠打工又邁進了一大步。據(jù)介紹...
隨著大型模型技術(shù)的持續(xù)發(fā)展,視頻生成技術(shù)正逐步走向成熟。以Sora、Gen-3等閉源視頻生成模型為代表的技術(shù),正在重新定義行業(yè)的未來格局。而近幾個月,國產(chǎn)的AI視頻生成模型也是層出不窮,像是快手可靈、字節(jié)即夢、智譜清影、Vidu、PixVerse V2 等。就在近日,...
AI視頻生成賽道風起云涌,國內(nèi)外新穎的文生、圖生視頻產(chǎn)品層出不窮。在各大廠商的內(nèi)卷之下,當下的視頻生成模型各方面已經(jīng)接近以假亂真的效果。例如,OpenAI 的 Sora 和國內(nèi)的 Vidu、可靈等模型,通過利用 Diffusion Transformer 的擴展特性,不僅能...
在人工智能領(lǐng)域,每一天都可能發(fā)生顛覆性的變革。就在Midjourney剛剛進行大更新的第二天,開源圖像生成領(lǐng)域就迎來了一匹令人矚目的黑馬——FLUX.1。這個突如其來的新玩家不僅在性能上聲稱大幅超越了DALL·E3、Midjourney V6等閉源模型,還將開源的SD3系列全線...
在最近的大模型戰(zhàn)爭中,OpenAI似乎很難維持霸主地位。雖然沒有具體的數(shù)據(jù)統(tǒng)計,但Claude3.5出現(xiàn)后,只是看網(wǎng)友們的反響,就能感覺到OpenAI訂閱用戶的流失:既然Claude3.5比GPT-4o好用,為什么我們不去訂閱Claude呢?而這長達數(shù)月的批評聲中,OpenAI似乎盡顯頹...
這可能會是AI技術(shù)形態(tài)的一個轉(zhuǎn)折點,大模型的下一個形態(tài),不再是人和模型一輪一輪的即時問答了。當?shù)貢r間 7 月 29 日,在美國丹佛舉行的第 51 屆 SIGGRAPH 計算機圖形學會議上,英偉達創(chuàng)始人、CEO 黃仁勛與 Meta 創(chuàng)始人、CEO 馬克?扎克伯格進行了一場全球矚目...
繼前幾日推出完開源大模型Llama 3.1后,就在剛剛,Meta在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 來了。在其前身的基礎(chǔ)上,SAM 2 的誕生代表了領(lǐng)域內(nèi)的一次重大進步 —— 為靜態(tài)圖像和動態(tài)視頻內(nèi)容提供實時、可提示的對象分割,將圖像和視頻...
在很長一段時間內(nèi),占據(jù)大模型評測榜單最前列的大多是一些閉源模型,直到Meta再次發(fā)布了最新的開源模型。就在近日,Meta和OpenAI打響了硅谷 AI 大模型保衛(wèi)戰(zhàn)。美國當?shù)貢r間7月23日,Meta正式發(fā)布Llama 3.1。其包含8B、70B 和405B三個規(guī)模,最大上下文提升到了...
在人工智能的浪潮中,個性化體驗已成為創(chuàng)新的關(guān)鍵。而隨著各種各樣的模型迭代更新,如何為AI應(yīng)用提供持久、智能的記憶系統(tǒng)逐漸成為了一個關(guān)鍵挑戰(zhàn)。最近開源的Mem0項目為我們提供了一個強大的解決方案。它為大型語言模型(LLM)提供了一個智能、自我優(yōu)化的記憶...
小模型,成為本周的AI爆點。與動輒上千億參數(shù)的大模型相比,小模型的優(yōu)勢是顯而易見的:它們不僅計算成本更低,訓練和部署也更為便捷,可以滿足計算資源受限、數(shù)據(jù)安全級別較高的各類場景。因此,在大筆投入大模型訓練之余,像 OpenAI、谷歌等科技巨頭也在積極...
OpenAI昨日發(fā)布了全新的小型AI模型GPT-4o mini,這一模型在性能和成本效益方面都取得了重大突破,Sam Altman驚呼:通往智能的成本,已變得如此低廉。性能與成本的完美平衡GPT-4o mini在性能上顯著超越了其前身GPT-3.5 Turbo,同時將成本降低了60%以上。每百萬...
近年來,大型語言模型(LLM)的誕生刺激了對即插即用人工智能系統(tǒng)的需求不斷增長,而在各種人工智能技術(shù)中,Prompt工程,即通過不斷調(diào)整給予大模型的指令以優(yōu)化大模型生成結(jié)果顯得尤為重要。然而,由于陡峭的學習曲線和大量的時間投入,用戶在編寫提示時經(jīng)常...
近日,當下炙手可熱的快手宣布開源旗下明星產(chǎn)品可靈中一項重要技術(shù)項目LivePortrait。,該框架能夠準確、實時地將驅(qū)動視頻的表情、姿態(tài)遷移到靜態(tài)或動態(tài)人像視頻上,生成極具表現(xiàn)力的視頻結(jié)果。如下動圖所示:LivePortrait的主要功能包括從單一圖像生成生動動...
在人工智能領(lǐng)域,我們深感技術(shù)發(fā)展的迅速和成就的巨大。其中,法國初創(chuàng)公司MistralAI在這方面尤為令人矚目。MistralAI成立于2023年5月,由DeepMind和Meta的前科學家創(chuàng)立,被稱為歐洲版OpenAI。這是一家創(chuàng)新而富有前景的公司,他們的雄心壯志和成績讓人嘆...
近期,快手平臺又又又成為了焦點。就在OpenAI 當家花旦 Sora 的公測還遙遙無期時,快手就率先祭出了對標的當家產(chǎn)品可靈。得益于其逼真、高清和與Sora不相上下的視覺表現(xiàn),它迅速贏得了全球網(wǎng)民的喜愛。據(jù)快手,可靈申請用戶已經(jīng)近70 萬,已超30 萬用戶使用趁...
簡介一周前,由紅杉投資的硅谷初創(chuàng)公司UTA AI推出了其核心產(chǎn)品Wanderboat AI,這是一個基于GPT-4技術(shù)的智能旅行規(guī)劃工具。該平臺允許用戶通過對話交互來明確旅行的偏好和需求,并提供包括目的地、活動和實用建議在內(nèi)的定制化旅行建議。Wanderboat AI整合了視...
簡介近年來,人工智能(AI)技術(shù)的進步極大地改變了人類與機器的互動方式,特別是在語音處理領(lǐng)域。阿里巴巴通義實驗室最近開源了一個名為FunAudioLLM的語音大模型項目,旨在促進人類與大型語言模型(LLMs)之間的自然語音交互。FunAudioLLM包含兩個核心模型:...
在當今數(shù)字化世界中,視頻已成為人們獲取信息和娛樂的主要方式之一。AI視頻生成領(lǐng)域的競爭也很激烈,Pika、Sora、Luma AI以及國內(nèi)的可靈等,多模態(tài)、視頻生成甚至也被視為大模型發(fā)展的某種必經(jīng)之路。然而與文本生成相比,視頻生成模型場景似乎更遠,Sora在二...
在深度學習和人工智能應(yīng)用,選最合的硬件對于模型訓練和推任務(wù)關(guān)。在大模型訓練,英偉達4090并不是最的選。訓練任務(wù)通常要更大的顯存容量、更的內(nèi)存帶寬的計算能。這些求,英偉達的高性能顯卡系列,比如A100和H100,更適合處理大數(shù)據(jù)集和復(fù)雜模型。,在推理任...
近日,今年備受矚目的Claude更新了它的相關(guān)功能,其中包括了一鍵生成、測試和評估prompt以及Artifacts 分享功能及可在別人基礎(chǔ)上修改混合。處理prompt的強大功能當我們構(gòu)建AI應(yīng)用時,prompt的質(zhì)量對最終的表現(xiàn)產(chǎn)生了巨大的影響。然而,打造高品質(zhì)的prompt項目...
項目介紹Code2prompt 是一個命令行工具,能將你的代碼庫轉(zhuǎn)化為單一的大型語言模型(LLM)提示,結(jié)合源碼樹結(jié)構(gòu),模板定制,以及令牌計數(shù)。它旨在簡化與高級上下文窗口模型如GPT或Claude的交互,助你在重寫代碼、查找bug、編寫文檔和實現(xiàn)新功能等方面提升效率...
7月5日,在2024世界人工智能大會可信大模型助力產(chǎn)業(yè)創(chuàng)新發(fā)展論壇上,螞蟻集團公布其自研百靈大模型最新研發(fā)進展:百靈大模型已具備能看會聽、能說會畫的原生多模態(tài)能力,可以直接理解并訓練音頻、視頻、圖、文等多模態(tài)數(shù)據(jù)。原生多模態(tài)被...