未來已來：OpenAI一夜改變人機交互曆史，全新“類人模型”能力爆表，自然交流如真人

千呼萬喚的OpenAI發布會終于在谷歌I/O大會的前一天來了！

OpenAI放了那麽多煙霧彈，總算揭曉謎底了。

圖片：來自網絡

果然就像Sam Altman提前辟謠的一樣，不是OpenAI搜索引擎，不是GPT-5。

但Altman沒說的是，這場發布會，讓人類與計算機的交互進入到了一個新的時代!

發布會的主角是OpenAI的CTO Mira Murati。 ‍

圖片：來自網絡

她親自發布GPT-4的一個大升級版本——GPT-4o！

圖片：來自網絡

這個新模型的功能簡單一句話概括，它能像人一樣，可以原生利用語音，文字，圖像進行推理和交互。

就像這個後綴“o”代表的“omni”意味“全知”一樣，這個模型綜合了幾乎所有模態的智力，還能充分感知人類的情感。

幾乎就是把電影《Her》中的那個和主人公談戀愛的AI助手Samantha，從大熒幕裏搬到了現實。

圖片：來自網絡

除新模型之外，發布會的幾大亮點：

1. GPT-4地位往下順移一位，向所有用戶免費開放。

網頁截屏

2. GPT-4o API，比GPT 4-Turbo快2倍，價格還只有一半。

網頁截屏

3. 外界猜測的語音助手的演示：對話更像人、能實時翻譯，識別表情，可以通過攝像頭識別畫面寫代碼分析圖表等能力。

4. ChatGPT新UI，以及一個新的ChatGPT桌面應用程序，率先登錄macOS，Windows 版本晚些時候上線。

先通過幾個演示來看看這個新模型帶來的全新體驗：

平均320毫秒的語音交互延遲，讓這個模型能達到人類級別的交互體驗。

視頻中演示的實時翻譯，英語和西語的交互相當流暢，中間的延遲甚至比專業同聲傳譯還要低。

具備強大多模態能力與流暢交互，GPT-4o能化身一位親切的雙語老師——用戶指著蘋果、香蕉和毛絨玩具，用英文問GPT-4o對應的西班牙語表達，它都能在晃動的鏡頭中准確識別，實時譯成西語。

全新的原生多模態能力，又讓GPT-4o 能成爲視障人士的”眼”——不僅能看到白金漢宮上的旗幟，還能將背後的君主曆史娓娓道來；一只嬉戲的鴨子突然潛入水中，GPT-4o能生動描述；有車從面前經過，GPT-4o也能及時提醒。

而OpenAI的靈魂人物Sam Altman雖然沒有親自出鏡發布會，但是他在發布會之後在X上發表了一篇博客，和外界交流了他自己認爲的發布會背後自己最看重的地方。

地址：https://blog.samaltman.com/gpt-4o

主要內容總結起來就是以下兩點：

通過這次發布，OpenAI做到了，並將繼續堅持：

首先，讓全世界人都能在沒有廣告以及其他負擔的前提下使用這個世界上最好的AI服務，然後爲願意付錢的人提供其他的價值，讓OpenAI能作爲一家企業繼續向全世界的用戶免費提供這樣的服務。

然後，通過團隊的不斷努力，他們將人機交互的體驗推進到了前所未有的高度——GPT-4o的能力讓人類真正地能和計算機自然的交流，這一點將開拓一個新的時代。

最先推出原生多模態大模型的是谷歌，但是OpenAI卻用這個能力做出了第一個“像人類一樣的模型”。

現在OpenAI的肌肉秀出來了，谷歌I/O大會的工作人員准備好熬夜改PPT了嗎？

圖片：來自網絡

模型性能依舊保持SOTA，多模態能力創新高

根據傳統基准測試，GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能，同時在多語言、音頻和視覺功能上實現突破。

圖片：來自網絡

改進推理

GPT-4o 在 0-shot COT MMLU（常識問題）上創下了 88.7% 的新高。此外，在傳統的5-shot no-CoT MMLU上，GPT-4o創下了87.2%的新高分。（注：Llama3 400b還沒有正式發布）

圖片：來自網絡

音頻 ASR 性能

GPT-4o 比 Whisper-v3 顯著提高了所有語言的語音識別性能，特別是對于資源匮乏的語言。

圖片：來自網絡

音頻翻譯性能

GPT-4o 在語音翻譯方面樹立了新的最先進水平，並且在 MLS 基准測試中優于 Whisper-v3。

圖片：來自網絡

M3Exam

M3Exam 基准測試既是多語言評估也是視覺評估，由來自其他國家標准化測試的多項選擇題組成，有時還包括圖形和圖表。在所有語言的基准測試中，GPT-4o 都比 GPT-4 更強。（我們省略了斯瓦希裏語和爪哇語的視力結果，因爲這些語言的視力問題只有 5 個或更少。

圖片：來自網絡

視覺理解評估

GPT-4o 在視覺感知基准上實現了最先進的性能。

人類與計算機的交互，從未像今天一樣自然絲滑

GPT-4o此經推出，《Her》也成了紀錄片了。GPT-4o的女聲，聽上去和電影中類似，奧特曼首先啥也不說，就發了個“her”的推文，也算蹭了一波奧斯卡流量。

（溫馨提醒——得知AI能同時談成百上千個，男主表示很崩潰）

網頁截屏

光說不練假把式——OpenAI給出了GPT-4o的豐富實用的演示。

文章開始展示的視障人士用例，就是技術普惠的真實寫照。但GPT-4o不只“實用”，情緒價值也拉滿。從前用文本展現的多樣人格，GPT-4o能用聲音扮演。

唱生日歌之前，還會鄭重其事地清清嗓子：我要開始唱咯。

面試培訓，GPT-4o在提供實用建議的同時，做到畢恭畢敬。這位工作人員准備戴上漁夫帽去面試，GPT-4o先職業誇贊一番，然後才勸他換下。

GPT老師教子有方，循循善誘。孩子做錯題也不發火，補充背景知識和概念；回答正確也不忘誇誇—— “你做得太棒了”“偉大的推論”。

網友表示：給大學生家教搞錢留條活路吧，求求了！

網頁截屏

有意思的是，在多人會議的demo中，GPT-4o可以分出不同說話人 “易如反掌”，適時“插嘴”，融入聊天如德芙般絲滑，毫無壓力。

聽到有人說到自己和孩子養了只德牧，GPT-4o 還聲情並茂地描述了孩子與狗玩耍的場景，評論道，“非常可愛”。

多人小會後還能作總結。不如以後畢業生就拿它來練群面吧，秋招無壓力。

（有網友指出，會議居然是在Google Meets而非Microsoft Teams裏開的，是因爲Teams難用嗎?

GPT-4o厲害著呢，最會陰陽怪氣。比如輕松切換“嘲諷模式”後，真就mean girl本girl——聽過的人表示，已經在美國高中被啦啦隊長霸淩了。

網友的“嘲諷之嘲諷： fine，這個功能真的很實用呢（白眼）~謝謝你哦，OpenAI（微笑）

網頁截屏

在最新訪談中，奧特曼提到自己對智能體助理的要求：不只是執行，也要會“插嘴”，作能提供情緒價值打工人。

英偉達首席科學家Jim Fan評論，GPT-4o如此活潑，甚至有點調情的意味在裏頭，演得過于用力了。

他指出，這是在向更具情感及個性AI進行轉變，但OpenAI 過去似乎努力抑制這種傾向。OpenAI 正在蠶食 Character AI 的市場份額，因爲在産品形態及分銷渠道方面幾乎 100% 重疊。

又多又全的多模態能力，美工的飯碗還好嗎？

GPT-4o不但支持音視頻的上傳，在文生圖領域，GPT-4o輕松地繞過了Midjourney和Stable Diffusion的缺點，讓設計和美工的飯碗再次顫抖。

在官網給出的示例中，GPT-4o可以直接用文字生成類似手帳的手寫體排版，並支持改變顔色和紙張樣式。

圖片：來自網絡

在文生圖領域，令人诟病的另一點在于其“不可控”——開局一句話，出圖全靠搖。

然而GPT-4o在對話界面就能做到對上文中的圖像進行微調。

這是第一輪生成的海報圖片，可以看到畫面中人物的臉有較爲明顯的變形，且畫面質量不高。

圖片：來自網絡

使用者再次輸入指令：“這是同一張海報，但經過清理。文字更加清晰，顔色更加大膽、更具戲劇性。整個形象現在得到了改善。”

圖片：來自網絡

之後你就會得到一張經過明顯改善的海報，同時文字也是合理且清晰—— 沒有文字恐怖谷。

圖片：來自網絡

除了平面設計，GPT-4o也可以生成3D動態模型。

圖片：來自網絡

還可以生成産品圖示例，並且支持提供參考圖改變構圖和材質（海外電商的生産力工具）。

圖片：來自網絡

附上要求和參考圖，GPT-4o就可以根據2023年的紀念幣生成2024年新版本：

圖片：來自網絡

在藝術創作領域，GPT-4o的連貫性很高，在同一組對話和上下文中生成的漫畫風格和人物的臉都是統一的。

圖注：GPT-4o生成的人物設計任務- 郵遞員Sally部分圖片。

先別管AGI的事，可以肯定的是，GPT-4o實打實地讓AIGC生産力工具再上一個台階。

OpenAI也繼續保持著AI行業技術能力和産品化能力標杆的地位。

娛樂新聞吧

未來已來：OpenAI一夜改變人機交互曆史，全新“類人模型”能力爆表，自然交流如真人

36氪