文|周鑫雨
編輯|蘇建勳
時隔半年,李開複再次以CEO的身份站在了大模型獨角獸“零一萬物”的發布會現場。
上一次李開複現身零一萬物發布會現場,還是在2023年11月16日。彼時,零一萬物首次秀了一把大模型肌肉:將中英雙語大模型“Yi”開源。
李開複的出現,往往標志著零一萬物新階段的開啓。顯然,用開源模型打磨半年後,零一萬物走進了拼産品和商業化的新戰場。
在大模型側,開源只能作爲口碑獲客的入口,商業化的飛輪只能靠閉源正式開啓。發布會上,零一萬物發布了首款千億參數的閉源模型Yi-Large。在Benchmark上,Yi-Large的6項指標優于GPT-4。
不過,如今的零一萬物將商業化的厚望,寄托在了産品端。
發布會上,零一萬物正式對外推出AI生産力應用“萬知”,李開複稱其爲“AI-First版Office”。這一款産品,在2023年九月已經在海外率先試水,在全球積累了數千萬用戶。
李開複表示,在AI生産力這個單一産品線上,今年能産生的營收可以達到1億人民幣。
如今,零一萬物呈現在大衆面前的業務版圖,是開源+閉源、ToB+ToC、出海+本土兩手抓的“雙軌”。
1
業務的版圖,折射的是李開複對技術信仰和市場落地“既要又要”的經營觀。他認爲,兩方的觀念都對,但並不完整。
在此基礎上,他認爲AI技術公司最重要的,是驗證TC-PMF。T爲技術,C爲成本,PMF則是産品與市場需求的適配度。
在李開複看來,TC-PMF的反面教材,就是OfO這樣的燒錢打法,産品、技術、成本相互脫節,並沒有找到“黃金配比”。也正是爲了驗證TC-PMF,零一萬物選擇先在海外用高性能模型的API試水“萬知”,時隔9個月後才在國內上線。
當然,作爲零一萬物的CEO,李開複也有了新的變化。爲了跟上短視頻時代的傳播新趨勢,這位“中國AI模型最高齡創業者”開通了抖音賬號,科普怎麽用AI。連這次的發布會,也選擇在抖音上直播。
不過,李開複也有自己的堅持。比如,不做直播帶貨,只做AI科普。再比如,他也對投資人承諾,自己創業,“十年不套現”。
閉源模型6項指標超過GPT-4,成本僅後者1/32023年,零一萬物切入大模型戰局的方式是開源。自2023年11月6日以來,零一萬物開源了6B、9B、34B三種尺寸的Yi大模型。
在本次發布會上,零一萬物增強了開源模型的能力,同時首次發布了閉源模型Yi-Large。
Yi-Large是零一萬物對標GPT-4所訓練的千億參數規模模型。在最新出爐的斯坦福評測機構AlpacaEval 2.0經官方認證的模型排行榜上,Yi-Large模型的英語能力主要指標LC Win Rate(控制回複的長度) 僅次于GPT-4 Turbo。
在中文榜單SuperCLUE對中文能力的測評上,Yi-Large跻身國産模型的榜首,在多項選擇題(GPQA)、人類對齊(AlignBench)等6項數據集的評測上超過GPT-4。
斯坦福評測機構AlpacaEval 2.0模型排行榜。
SuperCLUE排行榜。
與此同時,零一萬物也開啓了自己首個MoE(混合專家架構)大模型Yi-XLarge的訓練。目前在MMLU、GPQA、HumanEval、MATH等權威Benchmark上,處于訓練初期的Yi-XLarge,性能已經超過Yi-Large,並且與Claude-3-Opus、GPT4-0409等海外主流模型相比,已有上擂台的資格。
Yi-XLarge測評結果。
而在開源梯隊上,零一萬物將34B、9B、6B三款模型升級到了Yi-1.5版本,並提供了Base(預訓練版)和Chat(微調版)兩個版本。
1.5版本的Yi,主要在數學和代碼的短板上下了功夫。經過微調後,Yi-1.5-6B/9B-Chat在GSM-8K和MATH等數學能力評測集、HumanEval和MBPP等代碼能力評測集上,表現甚至優于Llama-3-8B。Yi-1.5-34B-Chat的代碼能力則與Mistral-8x22B-Instruct-v0.1 持平。
在模型服務層面,零一萬物發布了Yi-Large的6種不同尺寸、性能的模型API:
Yi-Large API:優勢在于文本生成及推理性能,適用于複雜推理、預測,深度內容創作等場景;
Yi-Large-Turbo API:根據性能和推理速度、成本,進行了平衡性高精度調優,適用于全場景、高品質的推理及文本生成等場景;
Yi-Medium API:優勢在于指令遵循能力,適用于常規場景下的聊天、對話、翻譯等場景;
Yi-Medium-200K API:可一次性解讀20萬字文本,適用于超長內容文檔處理場景;
Yi-Vision API:具備高性能圖片理解、分析能力,可服務基于圖片的聊天、分析等場景;
Yi-Spark API:聚焦輕量化極速響應,適用于輕量化數學分析、代碼生成、文本聊天等場景。
1
在API定價層面,零一萬物API平台負責人藍雨川表示,Yi-Large API目前的定價爲20元/100萬Tokens,這個數字不到GPT-4 Turbo(定價10美元/100萬Tokens)的1/3。
零一萬物API負責人藍雨川透露,未來,零一萬物也可能照著雲平台的思路,提供API工具和行業解決方案。
“AI版Office”發布,支持手機上一句話生成PPT單一産品2024年收入達1億人民幣,産品ROI接近1,上線9個月,用戶數近千萬。
在揭曉應用前,李開複先用了一組頗爲漂亮的海外成績單,宣告産品在海外對PMF(産品市場匹配度)的初步驗證。
有了這份海外成績單,零一萬物在國內上線了首款應用産品“萬知”。這款應用的定位是生産力工具,李開複稱之爲“AI-First版 Office”。
1
基于海外驗證的結果,零一萬物生産力産品負責人曹大鵬發現,原有以空白文檔開啓工作流的工具已經滿足不了用戶的需求,用戶想要的辦公産品,需要CUI(Chat UI,聊天界面)和GUI(Graphic UI,圖像界面)的結合。
除了最基礎的對話式搜索能力外,萬知的多模理解能力,可以支持各種圖表形式的結果生成。
比如思維導圖:
1
再比如PPT生成:
1
同時,萬知也支持圖表解析和長文檔理解。比如,我們用零一萬物發布會的速記稿牛刀小試,做一個重點總結:
1
萬知還能從文檔中搜索到零一萬物生産力産品負責人的信息:
1
區別于WPS和Windows AI Copilot,萬知在網頁版之外,推出了微信小程序端的應用,實現了“多端協同”。用戶在通勤等碎片化的時間裏,也可以用手機快速處理PPT,並且能將工作進程同步到PC端。
1
用未來的技術,做當下的産品李開複對零一萬物這一年的總結是:狂奔著趕上了美國最先進的模型。而如今,他覺得,大模型廠商要思考怎麽進入“長跑模式”。
TC-PMF,是他思考的結果。當産品處于0-1階段,企業要考慮的是獲客和提高粘性;而到了1-100的階段,任何産品想要實現大規模應用,需兼顧技術路徑和推理成本。
零一萬物模型訓練負責人黃文灏表示,Scaling Law給AGI指明了方向,當到了應用落地階段,模型的優化目標是給定計算條件下的計算水平,提高Infra對計算效率的提升,以及提高訓練數據的質量。
這也對大模型廠商的人才團隊建設,提出了更高的要求。黃文灏認爲,模型公司競爭力=人才質量×算力,TC-PMF的驗證更需要算法、Infra、工程三位一體的人才。
1
爲了實現TC-PMF,零一萬物總結了3個方法論:
全球化布局:知己知彼,把控區域商業節奏。比如用戶量較大的To C AI應用,主要集中在歐美;
模基共建:模型的訓練/服務/推理設計,與底層Infra架架構和模型結構必須高度適配;
模應一體:真實用戶體驗,和模型叠代形成正循環。
回到做産品的層面,一年以來,李開複見證了不少應用,在OpenAI等巨頭的技術叠代中淪爲炮灰:“和抖音時代不一樣的是,今天的模型在非常快速地基于Scaling Law在推進,GPT-4出來已經改寫了基于GPT-3.5的應用所具有的能力,所以要不斷預測未來技術會怎麽走。”
“做一個産品,不能考慮今天的技術,而是要考慮未來的技術。”他總結。
歡迎交流!
貌似不新鮮