又是瘋狂的一周，全世界都「AI麻了」！

是因爲「勞動節」嗎？全世界所有的公司，都選擇在 5 月第三周，將最新的 AI 産品和技術，集中釋放。

喪心病狂的一周！

鋪墊了許久的「周一見」，OpenAI 用 GPT-4o 奪走了注意力。24 小時後的發布會上，谷歌也沒有「掉鏈子」，Veo 視頻模型、Project Astra、新版 AI 搜索都留下了驚豔的記憶點。

地表最強但風格迥異的兩場發布會，只在一點上達成共識——電影《Her》一般的超強語音助手（GPT-4o 和 Project Astra），這也變相公布了 2024 年大模型賽道的競賽點——GPT-4o 和 Astra 背後的多模態融合技術。

大洋彼岸的另一端，姗姗來遲的字節跳動發布了豆包大模型家族，騰訊終于交出了「GPTs」和大模型助手 App 的答卷。

今天看來，無論是「拖家帶口」的大廠，還是「沒有包袱」的創業公司，産品形態都一再擴展：從聊天機器人，到 AI 搜索、「GPTs」、多模態語音助手.... 玩得越來越花。

不知道你麻沒麻，反正我們是幸福地麻了。

5 月 13 日（周一） AI 化身/人形智能體正在快速演進：宇樹發布 Unitree G1 人形機器人

¥9.9 萬元起，遠低于行業售價

大語言模型出圈，讓可以實現具身智能的人形機器人火了。

2023 年 8 月，宇樹科技發布了人形機器人 H1，預售價爲 9 萬美元（約合 65 萬元人民幣）。本周，宇樹推出的新版人形機器人 Unitree G1 將價格降到 9.9 萬元人民幣起，便宜了超 80%。

與第一代産品相比，Unitree G1 能力顯著提升：開瓶蓋、砸核桃、顛鍋、跑步、舞棍、自我蜷縮……在宇樹科技發布的産品演示視頻裏，身體和雙腿能旋轉近 360°，Unitree G1 像人類一樣用機械雙臂靈活地完成一系列工作。

圖片來源：宇樹科技

開源閉源並進：零一萬物發布千億參數 Yi-Large 模型

開源構建生態，閉源探索 AI 上限

零一萬物成立一周年之際，其千億參數 Yi-Large 閉源模型正式亮相，在斯坦福最新的 AlpacaEval 2.0 達到全球大模型 Win Rate 第一。

同時，零一萬物將早先發布的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本升級爲 Yi-1.5 系列，每個版本達到同尺寸中 SOTA 性能最佳。

Yi 大模型 API 開放平台 | 圖片來源：零一萬物

5 月 14 日（周二）「Her」真的來了：「GPT-4o」將語音助手帶到了新高度

多模態融合模型，只是工程的進步嗎？

OpenAI 發布了新一代旗艦模型 GPT-4o，它可以讓人們在手機上與 ChatGPT 對話，就像他們與 Siri 和其他語音助手對話一樣。不同的是，ChatGPT 語音助手的理解能力有了質的飛躍，還可以分析和討論它所看到的圖像或視頻，並能識別用戶說話時的不同情緒。

有了 GPT-4o 的加持，ChatGPT 可以根據你的想法引導你做數學題目、按照你的實時要求講一個睡前故事。OpenAI 稱 GPT-4o 是爲了創建一個對音頻、圖像和文本有更深入、更自然理解的模型，這依舊是爲了向 AGI 目標行進。

OpenAI 的發布，也在 AI 圈引起了廣泛討論。業界普遍認爲，GPT-4o 的驚豔之處在于兩點：1）將語音交互延遲縮短到 300ms；2）端到端多模態原生大模型

P.S.: 留一個觀察作業：GPT-4o 會顯著提升 ChatGPT 的日活和用戶粘性嗎？有了更高 AI 能力的智能助手，2016 年的百箱大戰會席卷重來？Siri 一樣的語音助手會成爲入口級的必爭之地？

圖片來源：OpenAI

5 月 15 日（周三）沒有一款産品沒有被 AI 改造：谷歌全面進入 Gemini 時代

Sora 尚且是科技巨頭的選做題，但多模態融合就是大模型公司的必做題。

提了 121 次 AI，谷歌 I/O 2024 開發者大會發布了一籮筐，從搜索到 Gmail、TPU，再到語音助手 Astra 和多模態視頻模型 Veo 等。

三個産品值得關注：

Project Astra 的多模態 AI 助手。如果說 2023 年的競賽點是 Copilot，2024 年，賽點則進化爲多模態融合的 Agent，背後是從 LLM（大語言模型）到 One-network-multimodality（一個框架下的多模態大模型）的技術路徑遷移，最終邁向跟通用的人工智能。

多模態語音助手正在與用戶實時對話｜圖片來源：Google

Veo：Veo 可以根據文本、圖像和視頻提示創建 AI 生成的視頻，並且即將登陸 YouTube，幫助創作者快速制作更專業品質的視頻。 AI 搜索：谷歌展示了如何進一步將人工智能集成到搜索中，從而實現更複雜形式的研究和規劃（例如，根據查詢生成三天的素食計劃）。

圖片來源：谷歌黑板報

大模型之字節打法：沒准備好就不發，否則一次發布 9 個模型

模型發得晚，應用沒少做，怎麽想的？

字節跳動自研大模型豆包大模型（原雲雀大模型）家族帶著 9 個模型，首次對外亮相。字節跳動方面稱，之所以是這 9 個模型，是根據後台模型調用量和需求而來，做了最強通用模型、性價比之選、和場景優化模型。

豆包大模型的推理價格成爲一大亮點，其主力模型在企業市場的定價只有 0.0008 元/千 Tokens，0.8 厘就能處理 1500 多個漢字。

值得注意的是，字節發布會沒有介紹模型參數、數據和語料，甚至沒有給出豆包模型的評測數據，而是直接把模型能力在場景裏做了垂直細分。字節可能是在建立用戶反饋、數據反饋，從而做更精准地場景和服務。根據不同的數據鏈反饋，決定産品或者模型的下一步動作。

過去大半年，字節跳動推出的 AI 應用幾乎涵蓋了所有熱門賽道，「豆包」、AI 應用開發平台「扣子」、互動娛樂應用「貓箱」，以及星繪、即夢等。

圖片來源：字節跳動

大模型隊伍的隱秘玩家：DeepSeek Chat 通過大模型備案

降成本！我帶頭！

國內擁有超過 1 萬枚 GPU 的企業不超過 5 家，幻方這家千億規模的量化基金就是其中之一。意外地提前壓中大模型的入場券——囤卡，但幻方做大模型是認真的。

今年 1 月以來，幻方旗下公司的 DeepSeek 模型被頻繁作爲開源社區裏討論的對標對象。本月，幻方開源了第二代 MoE 模型：DeepSeek-V2，主打參數更多、能力更強、成本更低。其在能力逼近第一梯隊閉源模型的前提下，推理成本降到了 1 塊錢 per million token，也就是說，成本是 Llama3 70B 的七分之一，GPT-4 Turbo 的七十分之一。而且，DeepSeek v2 還有利潤。

DeepSeek v2 發布後，引來了大模型價格戰，智譜、面壁、字節相繼宣布了模型推理價格降低。這背後是模型架構、系統、工程的一系列進步。你有沒有發現，OpenAI 的價格也降低了 10 倍不止。

Anyway，現在，DeepSeek-V2 已經通過備案，你可以聯網體驗，隱秘玩家的隱秘實力究竟如何？

圖片來源：DeepSeek

5 月 16 日（周四）文生圖、文生視頻：DiT 架構正在被廣泛擁抱

開源力量大

騰訊旗下的混元文生圖大模型宣布對外開源，目前已在 Hugging Face 平台及 Github 上發布，包含模型權重、推理代碼、模型算法等完整模型，可供企業與個人開發者免費商用。

混元文生圖大模型是中文原生的 DiT（Diffusion Models with transformer）架構文生圖開源模型，這也是 Sora 和 Stable Diffusion 3 的同款架構和關鍵技術，是一種基于 Transformer 架構的擴散模型。過去，視覺生成擴散模型主要基于 U-Net 架構，但隨著參數量的提升，基于 Transformer 架構的擴散模型展現出了更好的擴展性，有助于進一步提升模型的生成質量及效率。

5 月 17 日（周五）「GPTs」和大模型助手 App：大廠必備，騰訊版來了

已接入 600 多個騰訊內部業務和場景

本周，騰訊公布了大模型研發、應用産品的系列進展。

騰訊混元大模型升級，推出在質量和成本上有不同特點的三個模型版本，其內部已經有 600 多個業務接入大模型。

在工具層，發布了騰訊雲大模型知識引擎、圖像創作引擎、視頻創作引擎三大 PaaS 工具鏈，簡化數據接入、模型精調、應用開發流程。

值得注意的是，騰訊終于推出了自家「GPTs」——元器，用戶可以使用騰訊官方的插件和知識庫直接創建智能體。開發完成後，將智能體一鍵分發到 QQ、微信客服、騰訊雲等渠道上。騰訊還將于月底推出基于混元大模型的全新助手 App「騰訊元寶」。

騰訊元器官網開放申請試用

寫在最後：

本周，與上述 AI 産品、技術發布一同進展的，還有各大 AI 公司的「水下操作」。

什麽都無法阻擋 Scaling Law 的腳步：

主導超級對齊的 OpenAI 聯合創始人兼首席科學家 Ilya Sutskever 在社交平台 X 上宣布，他將離開公司。隨後，超級對齊團隊負責人之一 Jan Leike 也宣布離職，並發推稱，超級對齊團隊在公司內部被邊緣化，無法獲取計算資源做研究。 AWS CEO Adam Selipsky 離職，或由于 AWS 錯失 AI 投資和研發的最佳時機。微軟宣布將在法國投資 40 億歐元，大部分將集中在 AI 領域馬斯克的 xAI 斥資近 100 億美元租用 Oracle 人工智能服務器

AI 應用正在拓展既有想象力：

企業級可用大模型的 Anthropic 從 Instagram 挖來了 CTO 做産品，或進軍 ToC APP。 Meta Platforms 正在開發的帶有攝像頭的人工智能耳機項目，攝像頭將使耳機能夠識別佩戴者周圍物理世界中的物體。Sam Altman 最近也被曝和前蘋果設計大師 Jony Ive 正在探索開發帶有攝像頭的 AI 耳機，「很快你的耳朵裏也會長出眼睛」。

微軟 Build 大會官網｜圖片來源：微軟

下周，北京時間 5 月 22 日淩晨，AI 的另一大玩家微軟，即將在西雅圖舉辦 Hybrid：Microsoft Build 大會。官方網頁上大大的「How will AI shape your future?」，強調了本次大會的主題。

金錢永不眠，AI 也是。

無限兄弟1296 9

2024-05-19 18:58

恭迎AI上帝主宰世界[點贊][點贊]
水天新月 1

2024-05-19 19:49

人工智能的發展是基于人類對宇宙認知能力的理解。所以人類在不斷的探索宇宙的過程中，會有很多的問題
用戶12xxx56

2024-05-20 07:54

反觀大國，可笑不？[笑著哭]

用戶10xxx68 回覆:

咱們有謠謠領先

05-20 09:23
新打工謠

2024-05-20 01:09

AI陪玩《我的世界》，這個創意真是太有趣了，期待看到更多AI在遊戲領域的應用
1018mao

2024-05-19 17:39

人工智能的發展速度是越來越慢，這是一個非常嚴重的問題，希望國家盡快解決
Tenderness

2024-05-20 00:47

人形機器人是未來戰爭的主力，人形機器人必興
花、清香ζ

2024-05-20 06:18

恭迎AI上帝主宰世界
D L M

2024-05-22 08:21

目前只關心每個月能不能按時發工資

娛樂新聞吧

又是瘋狂的一周，全世界都「AI麻了」！

極客公園