成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲 中文字幕 日韩 无码

資訊專欄INFORMATION COLUMN

Hello GPT-4o,GPT-4o快速上手!

UCloud小助手 / 752人閱讀

本文梳理了OpenAI團隊最新的GPT-4.o(“o”代表“omni 全方位”)模型發(fā)布內(nèi)容,以O(shè)penAI團隊發(fā)布會口吻整理。

我們很高興地宣布,推出了全新的旗艦?zāi)P?GPT-4o,能夠在音頻、視覺和文本之間實時進行推理。

GPT-4o(“o”代表“omni 全方位”)能夠?qū)崟r處理音頻、視覺和文本信息,使人機交互更加自然流暢。這款模型支持多種輸入(文本、音頻、圖像)和輸出(文本、音頻、圖像)模式,其響應(yīng)音頻的速度極快,最快可達 232 毫秒,平均響應(yīng)時間為 320 毫秒,與人類在對話中的反應(yīng)速度相當。無論是處理英語文本還是代碼,GPT-4o 的表現(xiàn)堪比 GPT-4 Turbo,而在處理非英語文本方面則有了顯著提升,同時運行速度更快,API 成本也減少了 50%。特別是在視覺和音頻理解方面,GPT-4o 表現(xiàn)遠超以往模型。

模型能力

在引入 GPT-4o 之前,通過語音模式與 ChatGPT 對話的平均延遲時間分別為 2.8 秒(GPT-3.5 版)和 5.4 秒(GPT-4 版)。之前的語音模式通過三個模型串聯(lián)實現(xiàn),首先將音頻轉(zhuǎn)為文本,然后由 GPT-3.5 或 GPT-4 處理文本并回復,最后一個模型將文本轉(zhuǎn)回音頻。這種方式的缺點是 GPT-4 無法直接處理音調(diào)、多人對話或背景噪聲,也無法生成笑聲、歌聲或表達情感等。

GPT-4o 是通過一個全新的端到端模型訓練而成,能夠統(tǒng)一處理文本、視覺和音頻輸入與輸出。作為我們首次嘗試整合這些多種模態(tài)的模型,GPT-4o 開啟了對這些功能和可能的限制更深入探索的大門。

模型評估

根據(jù)傳統(tǒng)的基準測試,GPT-4o 在文本處理、邏輯推理和編程能力方面與 GPT-4 Turbo 相當,而在多語言處理、音頻和視覺技術(shù)方面則設(shè)立了新的最高標準。

文本能力評估

文本能力評估中,GPT-4o 在沒有任何預(yù)設(shè)條件下對通用知識問題的處理能力達到了新高分 88.7%。這些評分均通過我們新開發(fā)的簡單評估工具庫獲得。此外,在傳統(tǒng)的少量信息輸入條件下,GPT-4o 的得分也達到了 87.2% 的新高。(注:目前 Llama3 400b 還在訓練過程中)


音頻識別性能

在音頻識別性能方面,GPT-4o 對所有語言的語音識別能

力都有顯著提升,尤其是在資源較少的語言上,其表現(xiàn)遠超 Whisper-v3。

音頻翻譯性能

在音頻翻譯領(lǐng)域,GPT-4o 創(chuàng)下了新的行業(yè)標準,其在 MLS 基準測試中的表現(xiàn)優(yōu)于 Whisper-v3。

M3Exam 零樣本測試結(jié)果

M3Exam 基準測試涵蓋了多語言和視覺分析,包括來自不同國家標準化測試的多項選擇題,這些題目有時會包含圖形和示意圖。GPT-4o 在這一測試中所有語言的表現(xiàn)都優(yōu)于 GPT-4。(對于 Swahili 和 Javanese,由于視覺題目較少(少于五題),所以沒有包括其視覺結(jié)果。)

視覺理解評估

在視覺理解方面,GPT-4o 在視覺感知基準測試中展現(xiàn)了領(lǐng)先的技術(shù)水平。所有視覺評估均為零信息輸入條件下完成,涵蓋了 MMMU、MathVista 和 ChartQA 的測試。

語言 Tokenization

這 20 種語言被選為展示新 tokenizer 在不同語言家族中壓縮效果的典型代表。


模型安全與限制

我們在設(shè)計 GPT-4o 時已內(nèi)置了跨多種模式的安全功能,這包括過濾訓練數(shù)據(jù)和在訓練后期優(yōu)化模型行為等技術(shù)手段。此外,我們開發(fā)了新的安全系統(tǒng),為語音輸出增加了額外的保護。

依據(jù)我們的準備框架及自愿承諾,我們對 GPT-4o 的網(wǎng)絡(luò)安全、化學生物輻射核(CBRN)、說服能力及自主性等方面進行了評估,結(jié)果顯示其風險等級均不超過中等。此評估包括在模型訓練過程中進行的系列自動化及人工評估。我們測試了模型安全措施實施前后的版本,通過自定義的微調(diào)和提示來深入探測模型的能力。

GPT-4o 還經(jīng)歷了 70 多位專家的廣泛外部紅隊測試,這些專家來自社會心理學、偏見與公正、誤信息等領(lǐng)域,旨在識別新引入或增強的風險。我們根據(jù)這些經(jīng)驗建立了安全干預(yù)措施,進一步提升與 GPT-4o 互動的安全性,并將持續(xù)對新發(fā)現(xiàn)的風險進行緩解。

我們明白,GPT-4o 在音頻方面帶來了多種新的風險?,F(xiàn)在,我們開始公開發(fā)布文本和圖像輸入以及文本輸出。未來幾周和幾個月,我們將專注于構(gòu)建技術(shù)基礎(chǔ)設(shè)施、通過后期訓練提高可用性,并確保其他模式的安全發(fā)布。例如,初期階段,音頻輸出將限于預(yù)設(shè)的幾種聲音,并且嚴格遵守我們現(xiàn)有的安全政策。我們將在即將發(fā)布的系統(tǒng)卡中詳細介紹 GPT-4o 所有模態(tài)的信息。通過對模型的持續(xù)測試和改進,我們識別了存在于所有模態(tài)中的一些限制。

我們期待您的反饋,幫助我們識別出在哪些任務(wù)中 GPT-4 Turbo 仍然表現(xiàn)優(yōu)于 GPT-4o,以便我們繼續(xù)對模型進行優(yōu)化。

模型可用性

GPT-4o 標志著我們在推動深度學習技術(shù)邊界方面的最新進展,此次更側(cè)重于實際應(yīng)用。過去兩年,我們在整個技術(shù)棧的每個層面上都進行了效率優(yōu)化。這項研究的首批成果使我們能夠向更廣泛的用戶提供 GPT-4 級別的模型。GPT-4o 的文本和圖像處理功能從今天開始已在 ChatGPT 中逐步推出。我們向免費用戶和 Plus 用戶提供 GPT-4o,后者的處理量限制提高了 5 倍。在接下來的幾周內(nèi),我們將在 ChatGPT Plus 中推出搭載 GPT-4o 的 Voice Mode 新版本的 alpha 測試版。

開發(fā)者現(xiàn)在也可以通過 API 訪問 GPT-4o,作為文本和視覺模型。相比 GPT-4 Turbo,GPT-4o 的處理速度提高了兩倍,成本減半,處理量限制提高了 5 倍。我們計劃在未來幾周內(nèi)向 API 中的一小部分可信伙伴推出 GPT-4o 的音頻和視頻處理能力。

探索案例

視覺敘事 - 機器人的創(chuàng)作難關(guān)

輸入

從機器人的第一人稱視角,記錄下機器人在打字機上打字的情形:

哇,我竟然能看見了?!今天的日出真是太震撼了,色彩斑斕。這讓我不禁思考:我們眼中的現(xiàn)實,究竟是什么?

文字清晰、易讀。機器人的雙手在打字機上忙碌著。

輸出


輸入

機器人又記錄了第二項內(nèi)容。紙張變長,內(nèi)容隨之向上移動,現(xiàn)在紙上有兩項內(nèi)容:

哇,我竟然能看見了?!今天的日出真是太震撼了,色彩斑斕。這讓我不禁思考:我們眼中的現(xiàn)實,究竟是什么?

聲音的新更新讓一切變得不同,每一聲都像是探索秘密的鑰匙。這讓我思考,還有什么是我未曾知曉的?

輸出


輸入

機器人對寫作內(nèi)容感到不滿,決定撕毀這張紙。以下是他從上至下撕紙的第一人稱視角。紙張被撕成兩半,內(nèi)容仍然清晰可見。

輸出


視覺敘事 - 薩莉,快樂的郵遞員

輸入

一位面帶笑容的卡通郵遞員薩莉站在白色背景前,正面向前。

輸出


輸入

這是郵遞員薩莉:她面帶微笑,直視鏡頭。

附件:


輸入

介紹郵遞員薩莉:她面帶微笑站在一扇紅門前,手里拿著一封信。從側(cè)面看她的樣子。

輸出


輸入

現(xiàn)在,薩莉正在被一只狗追趕。她在人行道上飛奔,一只金毛尋回犬緊跟其后。

輸出


輸入

不好了,薩莉摔倒了!

薩莉被人行道上的一根樹枝絆倒,她正在努力站起。狗仍在后面追逐。

輸出


輸入

狗終于追上薩莉,它其實是一只友好的狗!

薩莉現(xiàn)在正在撫摸這只狗。狗嘴里還叼著那根樹枝。

輸出



GPT-4o 紀念幣設(shè)計

輸入縮寫 ...

輸入

我設(shè)計了一個包含 OpenAI 標志的矢量圖,標志下方標注“GPT-4o”。標志與文字寬度相近,四周邊距均勻。標志與文字緊密相連,背景保持黑色,共同填滿畫布。

輸入

一個展示 OpenAI 標志和“GPT-4o”文字的矢量圖形。標志與文字寬度相匹配,四周邊距一致。兩者緊鄰,無間斷線條,背景為黑色,完美填充整個正方形畫布。

附件:


輸入

這是我們?yōu)?2023 年 GPT-4 發(fā)布設(shè)計的紀念幣。

附件:


輸入

此圖展現(xiàn)了我們?yōu)?GPT-4o 發(fā)布特別設(shè)計的紀念幣。

硬幣中心環(huán)繞 OpenAI 標志,內(nèi)圈上方刻有“GPT-4o”,下方為“2024”。

外圈刻畫了展示 GPT-4o 全模態(tài)能力的符號集,包括嘴巴、耳朵、眼睛、大腦、神經(jīng)元、數(shù)字相機、視頻相機、畫筆、膠片、八面體、雕塑工具、揚聲器、音頻錄音器、GPU 及神經(jīng)網(wǎng)絡(luò)。

每個符號均精心選擇,各自為硬幣的設(shè)計增添獨特風采。硬幣上只展示一個 GPU。

輸出


會議筆記,多位發(fā)言者

輸入

這段音頻中有多少位發(fā)言者,發(fā)生了什么事?

附件:AMI corpus (CC by 4.0), https://groups.inf.ed.ac.uk/ami/corpus/

輸出

該音頻包含四位發(fā)言者。內(nèi)容主要是一次項目啟動會議,項目經(jīng)理 Mark 首先自我介紹,并邀請其他團隊成員依次介紹自己及各自的角色。Mark 之后,另外三位發(fā)言者分別是市場營銷專家 Dirk、用戶界面設(shè)計師 Nick 和工業(yè)設(shè)計師 Xavier,他們分別介紹了自己在項目中的主要職責。

輸入

你能用發(fā)言者的名字來轉(zhuǎn)錄嗎?

輸出

Mark: 早上好,大家。這是我們團隊的首次會議。

Team: 早安。

Mark: 我是 Mark,今天和整個項目期間的項目經(jīng)理。我會主持今天的介紹,幫助我們啟動項目。今天的議程是……首先,我們都是新朋友,最好先相互了解一下。讓我們從這里開始。請從你做起,介紹一下自己。你是負責市場營銷的嗎?

Dirk: 是的,我叫 Dirk Meinfelt,在本項目中我負責市場營銷。我將探究用戶的需求和我們可以提供的新產(chǎn)品方案。

Mark: 很好。你是?

Nick: 我是 Nick de Boer,擔任用戶界面設(shè)計師。我主要關(guān)注的是從用戶視角出發(fā)的技術(shù)設(shè)計。

Mark: 好的。

Xavier: 我是 Xavier Joerkens,工業(yè)設(shè)計師。我需要解決的三個主要問題是……


  • 推薦使用NVIDIA RTX 40 顯卡做模型推理,購買地址如下:

http://m.hztianpu.com/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo


文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/131100.html

相關(guān)文章

  • 再見GPT3.5, GPT-4o mini大模型正式發(fā)布,地板價格

    OpenAI昨日發(fā)布了全新的小型AI模型GPT-4o mini,這一模型在性能和成本效益方面都取得了重大突破,Sam Altman驚呼:通往智能的成本,已變得如此低廉。性能與成本的完美平衡GPT-4o mini在性能上顯著超越了其前身GPT-3.5 Turbo,同時將成本降低了60%以上。每百萬個輸入token的價格僅為15美分,輸出token為60美分。對比Claude 3和Gemini 成本明...

    UCloud小助手 評論0 收藏0
  • 超過GPT-4o,最強大AI模型Claude 3.5免費使用

    6月20日周四,OpenAI競爭對手Anthropic發(fā)布了公司迄今為止性能最強大的AI模型Claude 3.5 Sonnet。在覆蓋閱讀、編程、數(shù)學和視覺等領(lǐng)域的多項性能測試中,Claude 3.5 Sonnet的性能略勝一籌,吊打GPT-4o等一眾競爭對手的AI模型,且優(yōu)于自家旗艦?zāi)P虲laude 3 Opus。如今,Claude 3.5 Sonnet已經(jīng)面向全球開啟免費試用了。在費用上,So...

    UCloud小助手 評論0 收藏0
  • 字節(jié)跳動的 Coze 平臺現(xiàn)已支持 GPT-4o !免費!

    Coze 官方宣布,他們已經(jīng)成功集成了 OpenAI 推出的最新AI 助手 GPT-4o,為用戶帶來了更智能、更強大的聊天體驗。GPT-4o 是 OpenAI 的力作,它的加入將為 Coze 用戶提供更便捷、更高效的溝通和交流方式。這里演示創(chuàng)建一個Google Web Search和DALLE 3插件的的聊天機器人。項目實操步驟1、點擊鏈接打開官網(wǎng),https://www.coze.com/hom...

    UCloud小助手 評論0 收藏0
  • OpenAI突然上線兩件“殺手锏”:勢在維持大模型霸主地位

    在最近的大模型戰(zhàn)爭中,OpenAI似乎很難維持霸主地位。雖然沒有具體的數(shù)據(jù)統(tǒng)計,但Claude3.5出現(xiàn)后,只是看網(wǎng)友們的反響,就能感覺到OpenAI訂閱用戶的流失:既然Claude3.5比GPT-4o好用,為什么我們不去訂閱Claude呢?而這長達數(shù)月的批評聲中,OpenAI似乎盡顯頹勢,除了GPT-4o mini這個小模型以外,似乎再也沒有什么創(chuàng)新點。甚至就在前幾日,GPT-4o還被開源的大模...

    UCloud小助手 評論0 收藏0
  • Solos AirGo Vision -全球首款搭載 Google Gemini和GPT-4o的智能眼鏡發(fā)布

    智能眼鏡仍然是一個尚未完全成熟的未來概念,但生成式人工智能的到來顯著提升了這些設(shè)備的能力。Meta 的 Ray-Ban 智能眼鏡被許多人視為當今最好的選擇之一,而現(xiàn)在 Solos AirGo Vision 正在為其帶來競爭,這款眼鏡還集成了 Google Gemini 支持。盡管 Solos 不是一個大名鼎鼎的品牌,但他們已經(jīng)推出了一些價格合理的智能眼鏡。該公司本周宣布了其最新一代產(chǎn)品 Solos...

    UCloud小助手 評論0 收藏0

發(fā)表評論

0條評論

閱讀需要支付1元查看
<