假裝友好、陪你聊人生，還能實時“秒回”！它又升級了

據澎湃新聞報道，

當地時間5月13日，

OpenAI推出新旗艦模型GPT-4o，

可以實時對音頻、視覺和文本

進行推理。

據介紹，新版模型能夠帶著情感與用戶對話，還能假裝興奮、友好，甚至諷刺，其響應時間最短也來到了232毫秒，這與人類在對話中的響應時間相似。

報道稱，GPT-4o的“o”代表“omni”，該詞意爲“全能”，源自拉丁語“omnis”。在英語中“omni”常被用作詞根，用來表示“全部”或“所有”的概念。

發布會當天，OpenAI公司首席技術官米拉·穆拉蒂介紹稱，GPT-4o是邁向更自然人機交互的一步，它可以接受文本、音頻和圖像三者組合作爲輸入，並生成文本、音頻和圖像的任意組合輸出，“與現有模型相比，GPT-4o在圖像和音頻理解方面尤其出色。”

據了解，在GPT-4o之前，用戶使用語音模式與ChatGPT對話時，GPT-3.5的平均延遲爲2.8秒，GPT-4爲5.4秒，音頻在輸入時還會由于處理方式丟失大量信息，讓GPT-4無法直接觀察音調、說話的人和背景噪音，也無法輸出笑聲、歌唱聲和表達情感。

與之相比，GPT-4o可以在232毫秒內對音頻輸入做出反應，與人類在對話中的反應時間相近。在錄播視頻中，兩位高管做出了演示：機器人能夠從急促的喘氣聲中理解“緊張”的含義，並且指導他進行深呼吸，還可以根據用戶要求變換語調。“它對人類的情緒、語氣理解得十分自然精准，如同與一個真正的人類朋友或助理在聊天。”

在另一個演示場景下，工作人員手寫了一個方程，並打開攝像頭拍給ChatGPT，讓它扮演“在線導師”的角色幫助自己解題，而且只能給提示，不能直接說答案，此後，ChatGPT一步一步說出了解題步驟。

值得一提的是，手機版的GPT-4o不僅可以通過語音能力理解你當前的狀態，還能通過視覺識別你所處的環境和你正在做的事情，並對它作出反應。“幫你解數學題，沒問題，解完還能陪你聊聊人生。”

據商業內幕報道，它還能夠帶著情感說話，可以假裝興奮、友好，甚至諷刺。

OpenAI首席執行官山姆·奧特曼表示，新的語音和視頻模式是他用過的最好的電腦界面，感覺就像電影裏的AI。達到人類水平的反應時間和表達能力是一個很大的變化。“對我來說，與電腦交談從來都不是一件很自然的事，現在它做到了。隨著我們增加（可選的）個性化、訪問你的信息、代表你采取行動的能力等等，我真的可以看到一個令人興奮的未來，我們能夠使用計算機做比以往任何時候都多的事情。”

隨著能夠感知情感的人工智能出現，也引發了人們對于AI伴侶的討論。

清華大學人工智能國際治理研究院副院長梁正曾表示：“如果AI伴侶的出現不斷模糊虛擬與真實的界限，使用戶對其産生深度依賴，甚至把AI伴侶當作真實存在的人，那麽AI伴侶的存在或許會對使用者産生一定傷害。”

來源：極目新聞綜合澎湃新聞、北京日報、財聯社、環球網科技、科技日報

娛樂新聞吧

假裝友好、陪你聊人生，還能實時“秒回”！它又升級了

半島晨報