Hello GPT-4o，GPT-4o快速上手！

UCloud小助手發(fā)布于2024-05-22 15:40 / 752人閱讀

本文梳理了OpenAI團隊最新的GPT-4.o（“o”代表“omni 全方位”）模型發(fā)布內(nèi)容，以O(shè)penAI團隊發(fā)布會口吻整理。

我們很高興地宣布，推出了全新的旗艦?zāi)Ｐ?GPT-4o，能夠在音頻、視覺和文本之間實時進行推理。

GPT-4o（“o”代表“omni 全方位”）能夠?qū)崟r處理音頻、視覺和文本信息，使人機交互更加自然流暢。這款模型支持多種輸入（文本、音頻、圖像）和輸出（文本、音頻、圖像）模式，其響應(yīng)音頻的速度極快，最快可達 232 毫秒，平均響應(yīng)時間為 320 毫秒，與人類在對話中的反應(yīng)速度相當。無論是處理英語文本還是代碼，GPT-4o 的表現(xiàn)堪比 GPT-4 Turbo，而在處理非英語文本方面則有了顯著提升，同時運行速度更快，API 成本也減少了 50%。特別是在視覺和音頻理解方面，GPT-4o 表現(xiàn)遠超以往模型。

模型能力

在引入 GPT-4o 之前，通過語音模式與 ChatGPT 對話的平均延遲時間分別為 2.8 秒（GPT-3.5 版）和 5.4 秒（GPT-4 版）。之前的語音模式通過三個模型串聯(lián)實現(xiàn)，首先將音頻轉(zhuǎn)為文本，然后由 GPT-3.5 或 GPT-4 處理文本并回復，最后一個模型將文本轉(zhuǎn)回音頻。這種方式的缺點是 GPT-4 無法直接處理音調(diào)、多人對話或背景噪聲，也無法生成笑聲、歌聲或表達情感等。

GPT-4o 是通過一個全新的端到端模型訓練而成，能夠統(tǒng)一處理文本、視覺和音頻輸入與輸出。作為我們首次嘗試整合這些多種模態(tài)的模型，GPT-4o 開啟了對這些功能和可能的限制更深入探索的大門。

模型評估

根據(jù)傳統(tǒng)的基準測試，GPT-4o 在文本處理、邏輯推理和編程能力方面與 GPT-4 Turbo 相當，而在多語言處理、音頻和視覺技術(shù)方面則設(shè)立了新的最高標準。

文本能力評估

文本能力評估中，GPT-4o 在沒有任何預(yù)設(shè)條件下對通用知識問題的處理能力達到了新高分 88.7%。這些評分均通過我們新開發(fā)的簡單評估工具庫獲得。此外，在傳統(tǒng)的少量信息輸入條件下，GPT-4o 的得分也達到了 87.2% 的新高。（注：目前 Llama3 400b 還在訓練過程中）

音頻識別性能

在音頻識別性能方面，GPT-4o 對所有語言的語音識別能

力都有顯著提升，尤其是在資源較少的語言上，其表現(xiàn)遠超 Whisper-v3。

音頻翻譯性能

在音頻翻譯領(lǐng)域，GPT-4o 創(chuàng)下了新的行業(yè)標準，其在 MLS 基準測試中的表現(xiàn)優(yōu)于 Whisper-v3。

M3Exam 零樣本測試結(jié)果

M3Exam 基準測試涵蓋了多語言和視覺分析，包括來自不同國家標準化測試的多項選擇題，這些題目有時會包含圖形和示意圖。GPT-4o 在這一測試中所有語言的表現(xiàn)都優(yōu)于 GPT-4。（對于 Swahili 和 Javanese，由于視覺題目較少（少于五題），所以沒有包括其視覺結(jié)果。）

視覺理解評估

在視覺理解方面，GPT-4o 在視覺感知基準測試中展現(xiàn)了領(lǐng)先的技術(shù)水平。所有視覺評估均為零信息輸入條件下完成，涵蓋了 MMMU、MathVista 和 ChartQA 的測試。

語言 Tokenization

這 20 種語言被選為展示新 tokenizer 在不同語言家族中壓縮效果的典型代表。

模型安全與限制

我們在設(shè)計 GPT-4o 時已內(nèi)置了跨多種模式的安全功能，這包括過濾訓練數(shù)據(jù)和在訓練后期優(yōu)化模型行為等技術(shù)手段。此外，我們開發(fā)了新的安全系統(tǒng)，為語音輸出增加了額外的保護。

依據(jù)我們的準備框架及自愿承諾，我們對 GPT-4o 的網(wǎng)絡(luò)安全、化學生物輻射核（CBRN）、說服能力及自主性等方面進行了評估，結(jié)果顯示其風險等級均不超過中等。此評估包括在模型訓練過程中進行的系列自動化及人工評估。我們測試了模型安全措施實施前后的版本，通過自定義的微調(diào)和提示來深入探測模型的能力。

GPT-4o 還經(jīng)歷了 70 多位專家的廣泛外部紅隊測試，這些專家來自社會心理學、偏見與公正、誤信息等領(lǐng)域，旨在識別新引入或增強的風險。我們根據(jù)這些經(jīng)驗建立了安全干預(yù)措施，進一步提升與 GPT-4o 互動的安全性，并將持續(xù)對新發(fā)現(xiàn)的風險進行緩解。

我們明白，GPT-4o 在音頻方面帶來了多種新的風險?，F(xiàn)在，我們開始公開發(fā)布文本和圖像輸入以及文本輸出。未來幾周和幾個月，我們將專注于構(gòu)建技術(shù)基礎(chǔ)設(shè)施、通過后期訓練提高可用性，并確保其他模式的安全發(fā)布。例如，初期階段，音頻輸出將限于預(yù)設(shè)的幾種聲音，并且嚴格遵守我們現(xiàn)有的安全政策。我們將在即將發(fā)布的系統(tǒng)卡中詳細介紹 GPT-4o 所有模態(tài)的信息。通過對模型的持續(xù)測試和改進，我們識別了存在于所有模態(tài)中的一些限制。

我們期待您的反饋，幫助我們識別出在哪些任務(wù)中 GPT-4 Turbo 仍然表現(xiàn)優(yōu)于 GPT-4o，以便我們繼續(xù)對模型進行優(yōu)化。

模型可用性

GPT-4o 標志著我們在推動深度學習技術(shù)邊界方面的最新進展，此次更側(cè)重于實際應(yīng)用。過去兩年，我們在整個技術(shù)棧的每個層面上都進行了效率優(yōu)化。這項研究的首批成果使我們能夠向更廣泛的用戶提供 GPT-4 級別的模型。GPT-4o 的文本和圖像處理功能從今天開始已在 ChatGPT 中逐步推出。我們向免費用戶和 Plus 用戶提供 GPT-4o，后者的處理量限制提高了 5 倍。在接下來的幾周內(nèi)，我們將在 ChatGPT Plus 中推出搭載 GPT-4o 的 Voice Mode 新版本的 alpha 測試版。

開發(fā)者現(xiàn)在也可以通過 API 訪問 GPT-4o，作為文本和視覺模型。相比 GPT-4 Turbo，GPT-4o 的處理速度提高了兩倍，成本減半，處理量限制提高了 5 倍。我們計劃在未來幾周內(nèi)向 API 中的一小部分可信伙伴推出 GPT-4o 的音頻和視頻處理能力。

探索案例

視覺敘事 - 機器人的創(chuàng)作難關(guān)

輸入

從機器人的第一人稱視角，記錄下機器人在打字機上打字的情形：

哇，我竟然能看見了？！今天的日出真是太震撼了，色彩斑斕。這讓我不禁思考：我們眼中的現(xiàn)實，究竟是什么？

文字清晰、易讀。機器人的雙手在打字機上忙碌著。

輸出

輸入

機器人又記錄了第二項內(nèi)容。紙張變長，內(nèi)容隨之向上移動，現(xiàn)在紙上有兩項內(nèi)容：

哇，我竟然能看見了？！今天的日出真是太震撼了，色彩斑斕。這讓我不禁思考：我們眼中的現(xiàn)實，究竟是什么？

聲音的新更新讓一切變得不同，每一聲都像是探索秘密的鑰匙。這讓我思考，還有什么是我未曾知曉的？

輸出

輸入

機器人對寫作內(nèi)容感到不滿，決定撕毀這張紙。以下是他從上至下撕紙的第一人稱視角。紙張被撕成兩半，內(nèi)容仍然清晰可見。

輸出

視覺敘事 - 薩莉，快樂的郵遞員

輸入

一位面帶笑容的卡通郵遞員薩莉站在白色背景前，正面向前。

輸出

輸入

這是郵遞員薩莉：她面帶微笑，直視鏡頭。

附件：

輸入

介紹郵遞員薩莉：她面帶微笑站在一扇紅門前，手里拿著一封信。從側(cè)面看她的樣子。

輸出

輸入

現(xiàn)在，薩莉正在被一只狗追趕。她在人行道上飛奔，一只金毛尋回犬緊跟其后。

輸出

輸入

不好了，薩莉摔倒了！

薩莉被人行道上的一根樹枝絆倒，她正在努力站起。狗仍在后面追逐。

輸出

輸入

狗終于追上薩莉，它其實是一只友好的狗！

薩莉現(xiàn)在正在撫摸這只狗。狗嘴里還叼著那根樹枝。

輸出

GPT-4o 紀念幣設(shè)計

輸入縮寫 ...

輸入

我設(shè)計了一個包含 OpenAI 標志的矢量圖，標志下方標注“GPT-4o”。標志與文字寬度相近，四周邊距均勻。標志與文字緊密相連，背景保持黑色，共同填滿畫布。

輸入

一個展示 OpenAI 標志和“GPT-4o”文字的矢量圖形。標志與文字寬度相匹配，四周邊距一致。兩者緊鄰，無間斷線條，背景為黑色，完美填充整個正方形畫布。

附件：

輸入

這是我們?yōu)?2023 年 GPT-4 發(fā)布設(shè)計的紀念幣。

附件：

輸入

此圖展現(xiàn)了我們?yōu)?GPT-4o 發(fā)布特別設(shè)計的紀念幣。

硬幣中心環(huán)繞 OpenAI 標志，內(nèi)圈上方刻有“GPT-4o”，下方為“2024”。

外圈刻畫了展示 GPT-4o 全模態(tài)能力的符號集，包括嘴巴、耳朵、眼睛、大腦、神經(jīng)元、數(shù)字相機、視頻相機、畫筆、膠片、八面體、雕塑工具、揚聲器、音頻錄音器、GPU 及神經(jīng)網(wǎng)絡(luò)。

每個符號均精心選擇，各自為硬幣的設(shè)計增添獨特風采。硬幣上只展示一個 GPU。

輸出

會議筆記，多位發(fā)言者

輸入

這段音頻中有多少位發(fā)言者，發(fā)生了什么事？

附件：AMI corpus (CC by 4.0), https://groups.inf.ed.ac.uk/ami/corpus/

輸出

該音頻包含四位發(fā)言者。內(nèi)容主要是一次項目啟動會議，項目經(jīng)理 Mark 首先自我介紹，并邀請其他團隊成員依次介紹自己及各自的角色。Mark 之后，另外三位發(fā)言者分別是市場營銷專家 Dirk、用戶界面設(shè)計師 Nick 和工業(yè)設(shè)計師 Xavier，他們分別介紹了自己在項目中的主要職責。

輸入

你能用發(fā)言者的名字來轉(zhuǎn)錄嗎？

輸出

Mark: 早上好，大家。這是我們團隊的首次會議。

Team: 早安。

Mark: 我是 Mark，今天和整個項目期間的項目經(jīng)理。我會主持今天的介紹，幫助我們啟動項目。今天的議程是……首先，我們都是新朋友，最好先相互了解一下。讓我們從這里開始。請從你做起，介紹一下自己。你是負責市場營銷的嗎？

Dirk: 是的，我叫 Dirk Meinfelt，在本項目中我負責市場營銷。我將探究用戶的需求和我們可以提供的新產(chǎn)品方案。

Mark: 很好。你是？

Nick: 我是 Nick de Boer，擔任用戶界面設(shè)計師。我主要關(guān)注的是從用戶視角出發(fā)的技術(shù)設(shè)計。

Mark: 好的。

Xavier: 我是 Xavier Joerkens，工業(yè)設(shè)計師。我需要解決的三個主要問題是……

推薦使用NVIDIA RTX 40 顯卡做模型推理，購買地址如下：

http://m.hztianpu.com/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo

云服務(wù)器機器學習快速上手上手 python怎么上手 Hello

文章版權(quán)歸作者所有，未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為，您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請注明本文地址：http://m.hztianpu.com/yun/131100.html

發(fā)表評論

登陸后可評論

0條評論

UCloud小助手

男|高級講師

我要關(guān)注我要私信

TA的文章

U大使必看??！新入指引來啦

閱讀 2021·2025-05-12 19:38
7分鐘零代碼快速搭建電商獨立站！

閱讀 1530·2025-04-29 17:46
煥新季出海大促來襲！香港回內(nèi)地網(wǎng)絡(luò)大升級~海內(nèi)外云主機2C4G低至 27元/月！出海業(yè)務(wù)必選

閱讀 13977·2025-03-21 11:44
DeepSeek從入門到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識庫

閱讀 822·2025-02-19 18:27
DeepSeek從入門到精通（1）：10分鐘用DeepSeek搭建私有化知識庫

閱讀 1005·2025-02-19 18:21
基于Ktransformers的DeepSeek-R1滿血版部署

閱讀 1042·2025-02-19 13:50
UCloud X DeepSeek V3、R1滿血版橫向大對比！

閱讀 2035·2025-02-13 22:35
基于unsloth的DeepSeek-R1動態(tài)量化版本部署

閱讀 1710·2025-02-08 10:20

成人无码视频,亚洲精品久久久久av无码,午夜精品久久久久久毛片,亚洲中文字幕日韩无码

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Hello GPT-4o，GPT-4o快速上手！

相關(guān)文章

**再見GPT3.5, GPT-4o mini大模型正式發(fā)布，地板價格**

**超過GPT-4o,最強大AI模型Claude 3.5免費使用**

**字節(jié)跳動的 Coze 平臺現(xiàn)已支持 GPT-4o ！免費！**

OpenAI突然上線兩件“殺手锏”：勢在維持大模型霸主地位

**Solos AirGo Vision -全球首款搭載 Google Gemini和GPT-4o的智能眼鏡發(fā)布**

發(fā)表評論

0條評論

UCloud小助手

男|高級講師

TA的文章

U大使必看??！新入指引來啦

7分鐘零代碼快速搭建電商獨立站！

煥新季出海大促來襲！香港回內(nèi)地網(wǎng)絡(luò)大升級~海內(nèi)外云主機2C4G低至 27元/月！出海業(yè)務(wù)必選

DeepSeek從入門到精通（2）：0成本用DeepSeek（滿血版）搭建本地知識庫

DeepSeek從入門到精通（1）：10分鐘用DeepSeek搭建私有化知識庫

基于Ktransformers的DeepSeek-R1滿血版部署

UCloud X DeepSeek V3、R1滿血版橫向大對比！

基于unsloth的DeepSeek-R1動態(tài)量化版本部署

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Hello GPT-4o，GPT-4o快速上手！

相關(guān)文章

發(fā)表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務(wù)器低至59元/年，更有多臺、長期優(yōu)惠，快來選購！

Hello GPT-4o，GPT-4o快速上手！