國産最強大模型易主！Baichuan4霸榜SuperCLUE，擊敗GPT-4-Turbo，首款AI助手來了

作者 | 程茜

編輯 | 心緣

智東西5月22日報道，今天，百川智能發布新一代大模型Baichuan 4，以及首款AI助手“百小應”。Baichuan 4相較Baichuan 3，通用能力提升超過10%，數學和代碼能力分別提升14%和9%。

同日，SuperCLUE發布的通用大模型綜合性中文測評基准上，Baichuan 4得分80.64位列第一，在中文綜合能力測試中超過GPT-4-Turbo-0125。戲劇性的是，昨日，商湯科技日日新SenseNova 5.0大模型剛以總分80.03分的優異成績刷新國內最好成績，在中文綜合成績上超過GPT-4-Turbo-0125，今日評測表現中位列第二。

除大模型升級外，百川發布了首款AI助手百小應，基于Baichuan 4的能力，該助手具有定向搜索、多輪搜索能力，可以通過嵌入搜索結果、表格可視化搜索結果等爲用戶提供更加針對性的答案。王小川將百小應的能力定義爲懂搜索、會提問，懂搜索就是讓模型掌握專業的搜索技能，會提問就是讓模型引導用戶清晰表達自身的需求。

百小應現在已經在Web端（ying.ai）及移動端各大應用商店同步上線。

同時，百川智能宣布開放Baichuan 4、aichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API四款API。

開發者體驗中心：https://platform.baichuan-ai.com/playground

自去年4月成立以來，百川智能已經發布12款模型，王小川提到，百川智能之後會放慢模型的發布節奏，頻率爲按照季度發布，目前整體的思路爲超級應用+超級模型雙輪驅動，今年年內會有大的升級。

提及最近火爆的大模型價格戰話題，王小川談道，他現在抱著“吃瓜”心態，百川智能的思路就是超級應用+超級模型雙輪驅動，因此他們認爲百川智能的策略與面向B端的商業化價格降低問題無關，更多還是看模型夠不夠強、是否有超級應用産生。

他認爲降價熱潮可能是由于首先大家看好這個時代的發展前景，所以不惜免費也要入場；第二點爲To B廠商最後賣的不是模型而是整套雲服務，這類似于此前AI四小龍做To B的策略。百川智能不會將這樣的（降價）商業模式當作重點。

針對超級應用，王小川認爲，現在的應用基本都不是超級應用，超級應用主要體現在使用人數有數量級提升，同時能滿足用戶剛需，充分理解用戶意圖，具有更高的可靠性。對于使用人數的數量級提升，他提到，總體達到3000萬-3億用戶量之間可以稱作超級應用。

一、全方位領先國産大模型，多模態能力接近GPT-4V

在理科能力方面，Baichuan 4得分76.90分，國內模型中排名第一，略高于SenseChat V5，較GPT-4-Turbo-0125低4.23分。其中，邏輯推理（74.4）、工具使用（80.8）均刷新國內最好成績；在代碼能力上還有一定優化空間。

文科方面，Baichuan 4在文科任務上表現出色，取得83.12的高分，國內外模型中排名第一，較GPT-4-Turbo-0125高5.33分。其中，知識百科（89.8）、長文本（80.8）、生成創作（83.4）、傳統安全（90.2）均刷新國內最好成績；

與國內外主流模型相比，下圖左側圖片中Baichuan 4是圖中橙色線條，國內大模型的平均水平是藍色線條，百川智能已經全方位處于領先。

與國外模型相比，Baichuan 4在知識百科、長文本、生成創作等文科類中文任務上優于國外大模型。

在多模態能力方面，Baichuan 4評測結果接近GPT-4V。在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基准領先Gemini Pro、Claude3-Sonnet等多模態模型。

王小川介紹了Baichuan 4背後的技術創新點。

在數據方面，百川智能采用合成數據擴充訓練的數據量與提升質量，模型方面，從經驗科學走向數學化，他提到，此前與OpenAI技術人員交流時提到，GPT-4和GPT-3.5的主要區別在于，通過大量實驗將玄學問題變爲科學問題，通過實驗找到背後的規律，使得其調參時隨機性減少。因此在長窗口中，百川智能對各個尺寸進行嘗試，從而找出更合適的參數設置。

在對齊方面，百川智能優化了推理、規劃、多模態指令跟隨（Instruct Following）能力，通過Loss驅動的數據選取與訓練，多階段爬坡、多模型參數融合等方式提升模型的關鍵指標和穩定性。這種方式與MoE模型相似，都是將一個模型分成多個模型進行訓練再合成一個模型，使得整個模型能力穩定性得到提升。

強化學習使得機器在訓練之外能夠獲得外部反饋實現內部改進。因此，在這一階段，百川智能有兩個階段性目標。

第一個是針對于大模型安全的真實、無害、有用3H階段，制定三階段強化方法，使得三個目標分階段強化訓練。第二個是實現RLHF和RLAIF的融合，將人類反饋和機器反饋模型相結合，提升模型的指令遵循等能力。

在成本方面，Baichuan 4采用了新的投機采樣方案Clover，通過將序列知識與並行解碼結合，使得投機采樣的命中率提升至60%，成本降低30%以上。

二、支持多輪、定向搜索，分析長篇論文、一分鍾讀完公司財報

王小川提到，不同于信息時代工具屬性的産品，百川智能要讓AI從工具變爲夥伴，AI助手就是從工具到夥伴的過渡階段。

百小應融合了Baichuan 4與百川智能的搜索技術，擁有多步搜索、智能定向搜索等能力，具備懂搜索、會提問兩大獨特優勢。

演示案例中，在回答“引擎蓋打不開怎麽辦”這一問題，國內主流模型會籠統回答一些可能的處理方法。

百小應會先詢問車的型號，然後通過聯網搜索給出基本的打開方案，如果沒有解決會再次詢問用戶的所在地點推薦維修服務，並給出一些緊急情況的處理辦法。

百小應通過多輪搜索，可以在複雜的問題場景下有效獲取到更有價值的答案。其通過精准定位問題領域，然後訪問權威站點進行補充搜索，呈現結果中也會附加相應的網頁鏈接。

同時，其輸出內容會進行結構化呈現，通過表格對信息進行梳理，便于用戶在行業分析、調研時加快對數據的理解。爲了確保輸出信息的准確度，百小應的輸出結果有來源參考，用戶可以點擊引用角標快速校驗搜索結果。

會提問，就是引導用戶明確表述自身的需求。如一些用戶在提問時，問題過于籠統、抽象，百小應就會先與用戶進行互動，一步步明確具體的需求。

如向其提問婚禮策劃方案時，它不會直接給出答案，而是先詢問賓客的數量以及用戶的預算情況；在幫助用戶撰寫小紅書種草文案時，百小應會給出不同場景、風格的文案參考選項，用戶快速點選就能獲得答案。

除此以外，百小應還支持上傳PDF、word文檔，或者直接輸入網頁鏈接（URL），閱讀並分析書籍、報告、學術論文等長篇內容，僅用一分鍾便能讀完上市公司財報。

在Baichuan 4多模態能力的支持下，用戶在提問的同時還可以同步上傳圖片，對圖片內容進行解讀，或者將圖片作爲補充材料，獲取更精准的回答；並且支持語音交互。

三、MaaS新用戶可獲得1000萬免費token，AaaS服務可免費試用

百川智能推出了全新的MaaS+AaaS服務，MaaS版塊由基座模型組成，分爲旗艦版和專業版。

旗艦版將全量開放Baichuan 4的各項能力；專業版包含Baichuan3-Turbo和Baichuan3-Turbo-128K兩款模型，在價格方面相比旗艦版Baichuan 4更實惠，且均針對企業用的高頻場景進行了針對性優化，綜合測試相比GPT3.5整體效果提升8.9%。即日起，MaaS新用戶可以獲得1000萬免費token。

Assitants API是百川智能在Baichuan 4基礎上針對Agent構建推出的API接口，不僅支持Code interpreter、RAG內建工具，還支持自定義工具調用，方便企業接入各種豐富複雜的API。評測結果顯示其工具調用能力接近Open AI Assistants API，本次發布的Assitants API現已開啓公測。

未來，百川智能將推出零代碼Agent創建平台産品，讓業務人員通過自然語言的方式，也能創建Agent，更好地賦能企業智能化發展。

結語：“超級模型+超級應用”雙輪驅動，百川智能走出一條大模型應用獨特之路

作爲國內大模型産業中備受關注的明星創企，百川智能自王小川搭建團隊、籌備研發起，已經發布12個大模型並推出首款AI助手，可以看出不論在模型的發布速度、模型的能力表現以及AI應用的開發方面，百川智能已經走出了一條獨屬于自己的大模型産品落地、商業化應用之路。

目前來看，距離百川智能想要做“超級模型+超級應用”的願景仍然有一定距離，但從其剛發布的模型與應用來看，百川智能的模型表現霸榜國産大模型，綜合表現更強，在AI助手方面，百川智能沒有遵循其他搜索應用的思路，而是通過多輪搜索等將大模型與搜索技術相結合，真正朝著滿足用戶剛需的方向演進。

在衆多科技巨頭和創企紛紛推出各種大型AI模型應用的今天，百川智能基于其在大模型以及搜索技術方面的完整技術棧，同時擁有原先的搜狗搜索技術團隊做支撐，以AI搜索助手爲切入口，朝著打造擁有數億用戶、能滿足用戶剛需的超級應用沖刺。

娛樂新聞吧

國産最強大模型易主！Baichuan4霸榜SuperCLUE，擊敗GPT-4-Turbo，首款AI助手來了

智東西