零一萬物發布千億參數模型Yi-Large,李開複呼籲關注TC-PMF,拒絕Ofo式燒錢打法

光錐智能 2024-05-13 19:45:34

5月13日,在零一萬物成立一周年之際,零一萬物CEO李開複博士攜帶千億參數Yi-Large閉源模型正式亮相,正式進軍全球SOTA頂級大模型之首,在斯坦福最新的AlpacaEval 2.0達到全球大模型Win Rate第一。除此之外,零一萬物將早先發布的Yi-34B、Yi-9B/6B中小尺寸開源模型版本升級爲Yi-1.5系列,每個版本達到同尺寸中SOTA性能最佳。

在國際領先的底座模型之上,零一萬物本月同步官宣了從應用到生態的産品線:2C生産力應用“萬知”正式提供服務、賦能2B生態的“API開放平台”今日全球上線。借一周年發布會,零一萬物公開了開源閉源雙軌大模型的戰略布局,低調許久的創始人李開複也首度現身說法,親自拆解發展藍圖背後的戰略思路。

在中國大模型進入第二年之際,李開複博士提出,國內大模型賽道的競跑從狂奔到長跑,終局發展將取決于各個選手如何有效達到“TC-PMF”(Product-Market-Technology-Cost Fit,技術成本X産品市場契合度)。大模型從訓練到服務都很昂貴,算力緊缺是賽道的集體挑戰,行業應當共同避免陷入不理性的ofo式流血燒錢打法,讓大模型能夠用健康良性的ROI蓄能長跑,奔赴屬于中國的AI 2.0變革。

零一萬物以全球爲目標市場,基于全球領先的Yi系列模型做出符合TC-PMF的B端和C端優質應用,進而與行業攜手推進AI 2.0生態。中國市場的AI普惠必然到來,零一萬物將結合國際經驗,打造驚豔的國內AI-First應用生態,實現“讓通用人工智能普惠各地,人人受益”的公司願景。

Yi-Large進擊全球SOTA大模型極品,Win Rate全球第一

去年11月,零一萬物所發布的Yi-34B以開源社區“甜點級”尺寸就在權威榜單中超越了Llama2-70B、Falcon-180B等大幾倍的模型,成爲當時世界範圍內開源最強基礎模型之一,引發國際開發者社區的熱烈回響和采用,在國際開源圈破圈建立了全球化的技術品牌信任感。

半年後,零一萬物正式發布千億參數規模的Yi-Large,在第三方權威評測中,零一萬物Yi模型在全球頭部大模型的中英文雙語PK上表現出色。最新出爐的斯坦福評測機構AlpacaEval 2.0經官方認證的模型排行榜上,Yi-Large模型的英語能力主要指標LC Win Rate(控制回複的長度)排到了世界第二,僅次于GPT-4 Turbo,Win Rate更排到了世界第一,此前國內模型中僅有Yi和Qwen曾經登上此榜單的前20。

斯坦福AlpacaEval 2.0 Verified認證模型類別,英語能力評測(2024年5月12日)

在中文能力方面,SuperCLUE更新的四月基准表現中,Yi-Large也位列國産大模型之首,Yi-Large的綜合中英雙語能力皆展現了卓越的性能,可謂正式晉升全球大模型的“極品”。

在更全面的大模型綜合能力評測中,Yi-Large多數指標超越GPT4、Claude3、Google Gemini 1.5等同級模型,達到首位。在通用能力、代碼生成、數學推理、指令遵循方面都取得了優于全球領跑者的成績,穩穩跻身世界範圍內的第一梯隊。隨著各家大模型能力進入到力求對標GPT4的新階段,大模型評測的重點也開始由簡單的通用能力轉向數學、代碼等複雜推理能力。在針對代碼生成能力的HumanEval、針對數學推理能力的GSM-8K和MATH、以及針對領域專家能力的GPQA等評測集上,Yi-Large也取得了具有絕對優勢的成績。

國際中英文評測數據集(2024年5月12日)

值得注意的是,上述評測均是在零樣本(0-shot)或少樣本(4-shot/5-shot/8-shot)的前提下進行。在零樣本或少樣本的情況下,模型必須依賴于其在大量數據上訓練時獲得的知識和推理能力,而不是簡單地記憶訓練數據。這最大程度上避免了刷分的可能性,能更加客觀真實地考驗模型的深層次理解和推理能力。

此外,從行業落地的角度來看,理解人類指令、對齊人類偏好已經成爲大模型不可或缺的能力,指令遵循(Instruction Following)相關評測也越發受到全球大模型企業重視。斯坦福開源評測項目AlpacaEval和伯克利LM-SYS推出的MT-bench是兩組英文指令遵循評測集,AlignBench則是由清華大學的團隊推出的中文對齊評測基准。在中外權威指令遵循評測集中,Yi-Large的表現均優于國際前五大模型。

發布會上,李開複博士還宣布,零一萬物已啓動下一代Yi-XLarge MoE模型訓練,將沖擊GPT-5的性能與創新性。從MMLU、GPQA、HumanEval、MATH等權威評測集中,仍在初期訓練中的Yi-XLarge MoE已經與Claude-3-Opus、GPT4-0409等國際廠商的最新旗艦模型互有勝負,訓練完成後的性能令人期待。

Yi-XLarge初期訓練中評測(2024年5月12日)

Yi-1.5開源全面升級,開源閉源雙軌完善生態策略

此次發布會上,零一萬物Yi系列開源模型也迎來全面升級,Yi-1.5分爲34B、9B、6B三個版本,且提供了Yi-1.5-Chat微調模型可供開發者選擇。從評測數據來看,Yi-1.5系列延續了Yi系列開源模型的出色表現,數學邏輯、代碼能力全面增強的同時,語言能力方面也保持了原先的高水准。開源地址:Hugginf Face https://huggingface.co/01-ai及魔搭社區https://www.modelscope.cn/organization/01ai。

經過微調後的Yi-1.5-6B/9B/34B-Chat在數學推理、代碼能力、指令遵循等方面更上一層樓。Yi-1.5-6B/9B-Chat在GSM-8K和MATH等數學能力評測集、HumanEval和MBPP等代碼能力評測集上的表現遠同參數量級模型,也優于近期發布的Llama-3-8B-Instruct;在MT-Bench、AlignBench、AlpacaEval上的得分在同參數量級模型中也處于領先位置。

Yi-1.5-34B-Chat在數學能力同樣保持著大幅領先,代碼能力與超大參數量級的Mixtral-8x22B-Instruct-v0.1持平,指令遵循方面更是在MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0等多個權威評測集上完全超越了Mixtral-8x22B-Instruct-v0.1。

去年零一萬物選擇以開源首發Yi系列模型,其優異的性能受到國際開發者的高度認可。Yi開源版本2023年11月上線首月,便占據開源社區近5成熱門模型排行,發布一個月後Yi-34B被Nvidia大模型Playground收錄,成爲國內唯一獲選模型,也建立了Yi模型面向國際的科技品牌信任度。

以開源模型構建生態,以閉源模型展開AI-First探索,開源閉源雙軌模型策略使得零一萬物構建起了生態體系。開源模型服務于全球的科研院校、學生、開發者、創業者人群,推動百花齊放的應用滋長;API開放平台提供企業商用,協助企業實踐AI 2.0的智能化轉型。同時,零一萬物以優異的閉源模型能力,正在積極探索與世界500強企業的大型戰略合作。開源閉源相互助力,確保零一萬物本著TC-PMF的方法論,以更穩健的步伐奔向AGI。

Yi大模型API開放平台全球首發

全球開發者們對開源模型的品牌認可,成爲零一萬物API服務的強有力支撐。今天,零一萬物宣布面向國內市場一次性發布了包含Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark等多款模型API接口,保證客戶能夠在不同場景下都能找到最佳性能、最具性價比的方案,Yi API Platform英文站同步對全球開發者開放試用申請。

Yi大模型API開放平台(https://platform.lingyiwanwu.com/)

其中,千億參數規模的Yi-Large API具備超強文本生成及推理性能,適用于複雜推理、預測,深度內容創作等場景;Yi-Large-Turbo API則根據性能和推理速度、成本,進行了平衡性高精度調優,適用于全場景、高品質的推理及文本生成等場景。

Yi-Medium API優勢在于指令遵循能力,適用于常規場景下的聊天、對話、翻譯等場景;如果需要超長內容文檔相關應用,也可以選用Yi-Medium-200K API,一次性解讀20萬字不在話下;Yi-Vision API具備高性能圖片理解、分析能力,可服務基于圖片的聊天、分析等場景;Yi-Spark API則聚焦輕量化極速響應,適用于輕量化數學分析、代碼生成、文本聊天等場景。

小胰寶是一個在胰腺腫瘤患者群體中廣受關注的公益項目,正在尋求以開源方式運營和共建。通過問答的形式,小胰寶AI小助手可以7x24小時爲患者介紹綜合治療知識。這一助手背後的技術支持正是零一萬物的Yi大模型。使用Yi API調用AI大模型後,小胰寶突破了胰腺腫瘤治療信息壁壘,可將胰腺癌治療路線圖和治療方案精准且系統性地呈現給胰腺腫瘤病友。目前,該公益項目已經幫助了3000多位胰腺腫瘤病友,AI小助手在病曆和報告解讀的准確率也有顯著提升,已被某國家級權威三甲醫院推薦。

而這也是零一萬物的願景所及之處。能否實現價值落地是一切技術的試金石,模型能力不應當是空中樓閣,大模型公司不僅要放眼AGI,更重要的是要切實推動模型進入各行各業、進入日常生活,讓每個人都能享受到AI 2.0所帶來的便利。

萬知“AI-First版Office”幫你找、讀、寫

近期上線的一站式AI工作站“萬知”(wanzhi.com微信小程序“萬知AI”)則是零一萬物基于世界領先的閉源模型Yi-Large所做出的“模應一體” 2C生産力應用。依托零一萬物閉源模型的強大能力,萬知在通用問答、多模態、長文本方面都有著不俗表現。更令人驚喜的是,萬知成爲業內第一款真正實踐了“AI-First”理念、創新性地將模型能力與應用場景完美融合的2C應用産品。

以往發布的大模型2C應用大多定位于“聊天機器人”,萬知則針對找、讀、寫三大場景,將通用問答場景作爲交互方式,搭配長文檔解讀、PPT制作等功能,打造PC/手機多端協同、覆蓋工作生活全場景的“AI-First版Office”,爲用戶提供AI 2.0時代顛覆性的辦公體驗,創始人李開複也親自擔任“首席體驗官”聆聽網友反饋。

大模型賽道從狂奔到長跑,需有達到TC-PMF的方法論

在移動互聯網的鼎盛時期,PMF(Product-Market Fit,産品市場契合)曾是衆多初創企業追求的核心目標。然而,隨著大語言模型成爲新的創業焦點,僅僅追求産品與市場契合遠遠不夠。

兩個時代在創業基礎設施層面存在著決定性的差異——在移動互聯網時代,用戶規模增長所帶來的邊際成本很低,但是在大模型時代,模型訓練和推理成本構成了每一個創業公司必須要面臨的增長陷阱。用戶增長需要優質的應用,而優質應用離不開強大的基座模型,強大基座模型的背後往往是高昂的訓練成本,接著還需要考慮隨用戶規模增長的推理成本。這一普惠點如何達成、何時到來變得越發難以捉摸。

李開複博士認爲,PMF這一概念已經不能完整定義以大模型爲基礎的AI-First創業,應當引入Technology(技術)與Cost(成本)組成四維概念——TC-PMF。“做Technology-Cost Product-Market-Fit(TC-PMF),技術成本X産品市場契合度,尤其推理成本下降是個‘移動目標’,這比傳統PMF難上一百倍。”李開複博士表示。

隨著高性能計算硬件的叠代和模型優化技術的普及,大模型推理成本的大幅度下降已經成爲可預見的趨勢所在。在普惠點終將到來的前提下,能夠率先察覺、並達到TC-PMF這一普惠點的玩家無疑會占盡先機。要做到這一點,模型、AI Infra、應用這“三位一體”的優異能力缺一不可。基于此,零一萬物將“模基共建”、“模應一體”列爲公司的頂層核心戰略,在人才密度和協作方式上,也快速打磨出一整套能夠媒合不同專業的精英人才進行跨界共創的組織能力。

模基共建:依托AI Infra能力走出增長陷阱

在國內大模型賽道向前狂奔的第一年,模型結構成爲行業焦點,鮮少有人注意到AI Infra的重要性。

一個不容忽視的事實在于,中國大模型公司沒有美國大廠的GPU數量,所以必須采取更務實的戰術和戰略。AI Infra(AI Infrastructure人工智能基礎架構技術)主要涵蓋大模型訓練和部署提供各種底層技術設施,在李開複博士看來,自研AI Infra是零一萬物必然要走過的路,零一萬物也自成立起便將AI Infra設立爲重要方向。

“第一年大模型行業在卷算法,第二年大家在卷算法+ Infra。在國外一線大廠,最高效訓練模型的方式是算法與Infra共建,不僅僅關注模型架構,而是從優化底層訓練方法出發。”零一萬物模型訓練負責人黃文灏表示,“這對大模型人才的知識能力提出了全新要求。”

目前來看,模型研究人員只關注算法而忽視AI Infra是國內大模型行業現狀。而零一萬物選擇跟國際一線梯隊齊平,模型團隊和AI Infra團隊高度共建,人數比爲1比1。“我們要求做模型研究的人一定要‘往下沉澱’,具備工程能力。這也對齊我們倡導的TC-PMF的方法論。”黃文灏說。

零一萬物著力于實現計算效率的優化,經過多方面優化後,零一萬物千億參數模型的訓練成本同比降幅達一倍之多。今年3月,零一萬物推出了基于全導航圖的新型向量數據庫笛卡爾(Descartes),其搜索內核已包攬權威榜單ANN-Benchmarks 6項數據集評測第一名。同樣于3月,零一萬物成功在Nvidia GPU上進行了千億參數模型Yi-Large的端到端FP8訓練和推理,成爲全球率先落地該技術的三個案例之一。

底層技術的突破帶來了優化成本的新可能。接入自研向量數據庫後,零一萬物的C端應用在保證響應速率與准確性的前提下,成本大幅降至了原用第三方向量數據庫時的18%。在端到端FP8訓練的前提下,零一萬物能夠采用技術和工程手段得到與更高精度類型相媲美的訓練結果,與此同時模型訓練所需的顯存占用、通訊帶寬都極大降低。

訓練和推理成本的下降固然已經成爲行業趨勢,但在達標TC-PMF的激烈角逐中,AI Infra優化使得零一萬物能夠比行業更快、更精准地抵達普惠點。“模基共建”所帶來的絕對領先的成本優勢,爲零一萬物爭取到了更多時間,推出價廉物美的API和開源模型,進一步催化更多的AI-First應用生態。

模應一體:初步跑通TC-PMF,全球市場打磨造血能力

國內大模型領域陷入混戰的2023年初,各式各樣的評測榜單鋪天蓋地,跻身各大榜單TOP的模型不在少數。大模型進入第二年,行業進入更爲現實的商業落地階段,客戶/用戶都會按照應用側所展現的能力,用腳投票。如何基于基座模型能力,盡可能提升應用效果,是追趕TC-PMF的重要課題。

基座模型、AI Infra、API、C端應用,全棧式業務部署,使得零一萬物能夠以更全面的視野來看待大模型時代的增長陷阱,也爲零一萬物在應用層的商業落地帶來了更大的發揮空間。無論是2C還是2B,“模應一體”的思路始終貫穿零一萬物的商業實踐——模型團隊與産品團隊緊密結合,摸清模型能力邊界,針對某一應用場景去優化專有模型,並最終實現全球範圍內的彎道超車。

“AI-First不等于AI Only,”零一萬物生産力産品負責人曹大鵬表示,“模型、工程、算法、産品要基于場景深度結合,模型長板匹配剛需高價值場景,構建AI-First工作流,追求極致體驗、一站式解決用戶問題,而不是單純秀模型能力肌肉,拿錘子找釘子。”

“萬知”正是這一理念的最好證明。“找、讀、寫”職場人的三大需求精准切入辦公場景剛需,AI助力之下的文件撰寫提效超10倍,低專業判斷的日常白領任務節約時間超8成,聯網生成回答、PPT速率遠超行業平均水平。萬知還創新性地將多模態能力與PDF文檔閱讀場景相結合,解決PDF文檔中大量圖表無法識別的痛點。這一功能的實現離不開高性能的場景專屬模型——多模態模型Yi-VL-Plus在視覺模型盲測平台Vision Arena上的評測成績始終保持全球領先。

在行業普遍追求大項目、快增長的背景下,零一萬物選擇了冷靜克制的發展路徑,更關注能造血的“高質量增長”。在AI 1.0時代,人工智能還未展現出高泛化性和湧現能力,針對頭部客戶做私有化部署的模式成爲主流,但時間已經證明,偏項目制的重交付模式所帶來的營收增長存在上限,其可持續性挑戰嚴峻。

在零一萬物API平台負責人藍雨川看來,已經在海外充分得到商業模式驗證的API會是更好的選擇。作爲標准化産品的API複用性更強,商業模式也更趨近于雲服務。比起AI 1.0定制化重交付的模式,API能夠更快穿透千行百業,藍雨川表示,零一萬物提供世界第一梯隊的模型、最佳性價比的方案,聚焦企業如何用AI爲自身業務帶來增長。

API與萬知等C端應用共同構建起了零一萬物的商業落地版圖,也成爲零一萬物追逐TC-PMF的重要實踐。在李開複博士的規劃中,零一萬物將作爲具有前瞻性的務實者一步步實現落地,並最終達到TC-PMF,打造出AI 2.0時代的超級應用,實現讓通用人工智能普惠各地,人人受益。

在普惠各地的願景下,海外市場是零一萬物不可或缺的一部分。值得一提的是,無論是B端API還是C端應用,零一萬物都已開啓海外的落地嘗試。

去年9月開始,零一萬物便聚焦生産力、社交賽道于海外應用展開探索,已有4款産品陸續上線。目前零一萬物海外生産力應用總用戶接近千萬,營收今年預期過億人民幣,已實踐出大模型2C産品的TC-PMF——産品ROI爲1,初步擺脫燒錢獲客,成功驗證了AI-First産品的用戶訂閱制商業模式。API也將面向海外推出Yi-Large、Yi-Large-RAG、Yi-Medium等API,還未上線便已在開發者群體裏引發關注。

由于海外市場與國內市場在付費意願、市場環境方面存在差異,目前萬知采取限時免費模式。但據曹大鵬介紹,後續萬知會結合産品發展和用戶反饋推出收費模式。

TC-PMF所帶來的AI普惠點終將來臨,這一次市場競爭將不再支持共享單車式的燒錢大戰,采用以資金“跑馬圈地”商業模式的企業必然會率先力竭,冷靜判斷行業發展進程,腳踏實地打磨TC-PMF才是更符合長期主義的路線。這場較量將包含模型、AI Infra、産品應用等三位一體多個方面,零一萬物已經做足准備。

李開複博士表示,ofo式的補貼邏輯不再適用于AI 2.0,希望大模型賽道的競爭聚焦于達成TC-PMF。零一萬物將以全球爲目標市場,以更從容的姿態迎接必然被點燃的中國普惠AI市場。

0 阅读:1

光錐智能

簡介:AI産業第一媒體,關注千行百業的數智化。