狙擊谷歌？示好蘋果？OpenAI推出GPT-4o背後的遐想

作者｜賈桂鵬

北京時間5月14日淩晨，OpenAI在線上舉辦了“春季更新”活動，他們推出最新旗艦大模型GPT-4o，不僅免費可用，能力更是橫跨聽、看、說，絲滑流暢毫無延遲，就像在打一個視頻電話。

那麽，GPT-4o還具備怎樣的能力?爲什麽這次發布的是GPT-4o而不是GPT-5?OpenAI爲什麽會在谷歌I/O大會前發布該産品?我們看看能不能在這次活動中找到答案。

GPT-4o有什麽不一樣?

此次發布，GPT-4o最大的特點是增加了語音交互，並且號稱和一些同類競品相比，它的響應時間更快，可以減少延時，更接近和真人對話的節奏。

在GPT-4o之前，用戶使用語音模式與ChatGPT對話時，GPT-3.5的平均延遲爲2.8秒，GPT-4爲5.4秒，音頻在輸入時還會由于處理方式丟失大量信息，讓GPT-4無法直接觀察音調、說話的人和背景噪音，也無法輸出笑聲、歌唱聲和表達情感。

與之相比，GPT-4o可以在232毫秒內對音頻輸入作出反應，與人類在對話中的反應時間相近。在錄播視頻中，兩位高管作出了演示：機器人能夠從急促的喘氣聲中理解“緊張”的含義，並且指導他進行深呼吸，還可以根據用戶要求變換語調。

據OpenAI官網介紹，GPT-4o中的o代表omni(譯爲全能)，稱它向更自然的人機交互邁進了一步，因爲它接受文本、音頻和圖像的任意組合作爲輸入內容，並生成文本、音頻和圖像的任意組合輸出內容。

OpenAI技術負責人穆拉迪(Mira Murati)在直播活動中表示，新型號GPT-4o“速度快得多”，在文本、視頻和音頻方面都有改進，公司最終計劃讓用戶與ChatGPT進行視頻聊天。“這是我們第一次在易用性方面邁出巨大的一步。”

值得注意的是，新模型允許ChatGPT處理50種不同的語言，速度和質量都有所提高，它還將通過OpenAI的API提供支持，這樣開發者今天就可以開始使用新模型構建應用程序了。GPT-4o的速度是GPT-4 Turbo的兩倍，成本只有一半。

從性能來看，OpenAI表示，在傳統基准測試中，GPT-4o在文本、推理和代碼智能方面達到了GPT-4 Turbo級的性能，同時在多語言、音頻和視覺能力方面達到了新高度。它在英文文本和代碼上的性能與GPT-4 Turbo相當，在非英文文本上有顯著改善。

此外，通過過濾訓練數據和訓練後改進模型行爲等技術，GPT-4o在設計中內置了跨模式的安全性，並創建了新的安全系統，爲語音輸出提供護欄。GPT-4o還與來自社會心理學、偏見和公平、錯誤信息等領域的七十多名外部專家開展廣泛的外部團隊合作，以識別新增加的模式引入或放大的風險，提高與GPT-4o互動的安全性。

值得一提的是，OpenAI不僅將GPT-4o直接提供給用戶使用，還將其作爲API開放給開發者。這意味著開發者可以方便地利用GPT-4o的強大功能來構建自己的應用程序，從而在開發速度、成本控制以及功能實現等方面獲得顯著提升。

而且，OpenAI竟然直接將這個模型免費開放給用戶使用了。

元宇宙新聲認爲，語音能力再度提升，將使得GPT-4o有希望打破人與機器交互的“天花板”，未來的ChatGPT，可以無處不在——比如，它可以隨時隨地出現在人的身邊、可以嵌入到沒有屏幕的設備上與人交談。總之，GPT-4o可以讓人們更專注于與ChatGPT的協作，而不是受限于屏幕界面本身。

這個時間點放出GPT-4o，是狙擊谷歌還是示好蘋果?

相信OpenAI在這個時間點放出GPT-4o是有理由的，最直觀的體現就是，在其活動的後一天谷歌就將舉辦2024年I/O開發者大會，這次OpenAI再次精准狙擊谷歌。如果谷歌I/O大會上沒有驚人的發布，也許這次風頭又會被OpenAI搶走。

從曆史上來看，OpenAI每一次産品發布的時間都拿捏得非常准確。2024年2月15日，谷歌對外重磅發布了多模態大模型Gemini 1.5 Pro，官方測試結果顯示，這個最高支持100萬tokens的多模態大模型，性能遠超GPT-4 Turbo。

然而，就在同一天，OpenAI發布了文生視頻大模型Sora。

Sora的發布讓全網關注度再次聚焦到了OpenAI這一文生視頻産品上，搶走了本應屬于谷歌的高光時刻，也讓谷歌Gemini 1.5 Pro在大模型發展曆史上的意義再次被低估。

其實現在回頭看，Sora的發布這是一場徹頭徹尾的“表演”項目，因爲到目前爲止，Sora還是沒有開放給公衆使用。

除了狙擊谷歌外，我們發現在OpenAI這次活動中全程用iPhone和MacBook Pro進行演示，同時還發布了Mac桌面版的ChatGPT，這讓我們不得不懷疑，他們是不是在爲與蘋果的合作在鋪路?

近日，有消息爆出，蘋果公司與OpenAI敲定一項協議，今年將後者的部分技術引入iPhone。借此蘋果將能提供由ChatGPT支持的“聊天機器人”，作爲iOS 18中人工智能功能的一部分。

事實上，面對激烈的AI技術角逐，蘋果與OpenAI的合作使人們有理由期待一個更加智能、更加互動的Siri，對于蘋果來說，這可能也是鞏固其在全球科技領域領導地位的重要一步。

元宇宙新聲認爲，這次OpenAI推出GPT-4o時再次向大家印證了他們的營銷思維，既給競爭對手谷歌制造了壓力，又向潛在合作夥伴蘋果示好。但需要注意的是，谷歌的風頭並不容易被搶走，反而有可能被其反噬，而蘋果也絕不是一家長期依靠其他廠商生存的企業，OpenAI在最大賣點還是産品，比如傳說中的“GPT-5”。

爲什麽是GPT-4o不是GPT-5

在人們感歎于GPT-4o進一步提升大模型能力的時候，不禁要問，傳說中的GPT-5怎麽沒有推出?它現在研發到什麽進度了?

我們認爲，之所以現階段發布GPT-4o，是因爲GPT-5的研發肯定遇到了一些問題。如果不是這樣，OpenAI直接推出GPT-5就好了。一家科技企業發布新産品一定是越早越好，尤其在大模型這一領域中，各家的競爭非常激烈。因此，OpenAI在研發GPT-5時，不是有性能方面的危機就是有成本的問題。

但以大家對OpenAI的理解，即使成本再高，只要效果足夠驚豔，它一定會推出的，先震懾一下行業，哪怕GPT-5一天就能用3條，也希望吸引到所有人的目光。所以，我們認爲GPT-5的研發過程中可能還是遇到的性能或者安全問題會更多一些。

其實不止我們，網友們也在線紛紛催OpenAI，快點發GPT-5。

在此前的采訪中，OpenAI首席執行官Sam Altman也回答了關于GPT-5的問題，他表示：“關于GPT-5的發布時間，目前我們還沒有確定一個具體的日期。我們對新模型的推出持謹慎態度，致力于確保它在發布時能夠達到我們的高標准。我們正在考慮采用一種新的發布策略，這可能與以往的方式有所不同。我們對于GPT-5的命名和發布策略仍在討論之中，但可以肯定的是，我們致力于讓這款新模型在發布時能夠爲用戶帶來卓越的體驗。”

元宇宙新聲認爲，在發展過程中，OpenAI肯定會遇到不少挑戰。但，我們希望他們始終保持著堅定的信念和持續的創新精神，不斷突破自我，實現全球AI領軍企業的期望。特別是在GPT系列模型的推出上，OpenAI更是引領了AI領域的新一輪技術革命。

寫在最後

在人工智能領域，每一次技術的飛躍都標志著人類智慧與機器智能的深度融合。GPT-4o作爲OpenAI的最新旗艦模型，無疑在技術層面取得了顯著的進步。其新加入的音頻理解能力以及對易用性的重視，確實爲用戶提供了更爲自然、便捷的交互體驗。

當前的發展中，OpenAI依然面臨著更多的機遇和挑戰。然而，公司始終保持著堅定的信念和持續的創新精神，在未來的AI領域中，OpenAI將繼續發揮引領作用，爲人類社會的進步貢獻更多力量。

娛樂新聞吧

狙擊谷歌？示好蘋果？OpenAI推出GPT-4o背後的遐想

元宇宙新聲