國産最強大模型易主!Baichuan4霸榜SuperCLUE,擊敗GPT-4-Turbo,首款AI助手來了

智東西 2024-05-22 19:04:31

作者 | 程茜

編輯 | 心緣

智東西5月22日報道,今天,百川智能發布新一代大模型Baichuan 4,以及首款AI助手“百小應”。Baichuan 4相較Baichuan 3,通用能力提升超過10%,數學和代碼能力分別提升14%和9%。

同日,SuperCLUE發布的通用大模型綜合性中文測評基准上,Baichuan 4得分80.64位列第一,在中文綜合能力測試中超過GPT-4-Turbo-0125。戲劇性的是,昨日,商湯科技日日新SenseNova 5.0大模型剛以總分80.03分的優異成績刷新國內最好成績,在中文綜合成績上超過GPT-4-Turbo-0125,今日評測表現中位列第二。

除大模型升級外,百川發布了首款AI助手百小應,基于Baichuan 4的能力,該助手具有定向搜索、多輪搜索能力,可以通過嵌入搜索結果、表格可視化搜索結果等爲用戶提供更加針對性的答案。王小川將百小應的能力定義爲懂搜索、會提問,懂搜索就是讓模型掌握專業的搜索技能,會提問就是讓模型引導用戶清晰表達自身的需求。

百小應現在已經在Web端(ying.ai)及移動端各大應用商店同步上線。

同時,百川智能宣布開放Baichuan 4、aichuan3-Turbo、Baichuan3-Turbo-128k、Assistant API四款API。

開發者體驗中心:https://platform.baichuan-ai.com/playground

自去年4月成立以來,百川智能已經發布12款模型,王小川提到,百川智能之後會放慢模型的發布節奏,頻率爲按照季度發布,目前整體的思路爲超級應用+超級模型雙輪驅動,今年年內會有大的升級。

提及最近火爆的大模型價格戰話題,王小川談道,他現在抱著“吃瓜”心態,百川智能的思路就是超級應用+超級模型雙輪驅動,因此他們認爲百川智能的策略與面向B端的商業化價格降低問題無關,更多還是看模型夠不夠強、是否有超級應用産生。

他認爲降價熱潮可能是由于首先大家看好這個時代的發展前景,所以不惜免費也要入場;第二點爲To B廠商最後賣的不是模型而是整套雲服務,這類似于此前AI四小龍做To B的策略。百川智能不會將這樣的(降價)商業模式當作重點。

針對超級應用,王小川認爲,現在的應用基本都不是超級應用,超級應用主要體現在使用人數有數量級提升,同時能滿足用戶剛需,充分理解用戶意圖,具有更高的可靠性。對于使用人數的數量級提升,他提到,總體達到3000萬-3億用戶量之間可以稱作超級應用。

一、全方位領先國産大模型,多模態能力接近GPT-4V

在理科能力方面,Baichuan 4得分76.90分,國內模型中排名第一,略高于SenseChat V5,較GPT-4-Turbo-0125低4.23分。其中,邏輯推理(74.4)、工具使用(80.8)均刷新國內最好成績;在代碼能力上還有一定優化空間。

文科方面,Baichuan 4在文科任務上表現出色,取得83.12的高分,國內外模型中排名第一,較GPT-4-Turbo-0125高5.33分。其中,知識百科(89.8)、長文本(80.8)、生成創作(83.4)、傳統安全(90.2)均刷新國內最好成績;

與國內外主流模型相比,下圖左側圖片中Baichuan 4是圖中橙色線條,國內大模型的平均水平是藍色線條,百川智能已經全方位處于領先。

與國外模型相比,Baichuan 4在知識百科、長文本、生成創作等文科類中文任務上優于國外大模型。

在多模態能力方面,Baichuan 4評測結果接近GPT-4V。在MMMU、MMBench-EN、CMMMU、MMBench-CN、MathVista等評測基准領先Gemini Pro、Claude3-Sonnet等多模態模型。

王小川介紹了Baichuan 4背後的技術創新點。

在數據方面,百川智能采用合成數據擴充訓練的數據量與提升質量,模型方面,從經驗科學走向數學化,他提到,此前與OpenAI技術人員交流時提到,GPT-4和GPT-3.5的主要區別在于,通過大量實驗將玄學問題變爲科學問題,通過實驗找到背後的規律,使得其調參時隨機性減少。因此在長窗口中,百川智能對各個尺寸進行嘗試,從而找出更合適的參數設置。

在對齊方面,百川智能優化了推理、規劃、多模態指令跟隨(Instruct Following)能力,通過Loss驅動的數據選取與訓練,多階段爬坡、多模型參數融合等方式提升模型的關鍵指標和穩定性。這種方式與MoE模型相似,都是將一個模型分成多個模型進行訓練再合成一個模型,使得整個模型能力穩定性得到提升。

強化學習使得機器在訓練之外能夠獲得外部反饋實現內部改進。因此,在這一階段,百川智能有兩個階段性目標。

第一個是針對于大模型安全的真實、無害、有用3H階段,制定三階段強化方法,使得三個目標分階段強化訓練。第二個是實現RLHF和RLAIF的融合,將人類反饋和機器反饋模型相結合,提升模型的指令遵循等能力。

在成本方面,Baichuan 4采用了新的投機采樣方案Clover,通過將序列知識與並行解碼結合,使得投機采樣的命中率提升至60%,成本降低30%以上。

二、支持多輪、定向搜索,分析長篇論文、一分鍾讀完公司財報

王小川提到,不同于信息時代工具屬性的産品,百川智能要讓AI從工具變爲夥伴,AI助手就是從工具到夥伴的過渡階段。

百小應融合了Baichuan 4與百川智能的搜索技術,擁有多步搜索、智能定向搜索等能力,具備懂搜索、會提問兩大獨特優勢。

演示案例中,在回答“引擎蓋打不開怎麽辦”這一問題,國內主流模型會籠統回答一些可能的處理方法。

百小應會先詢問車的型號,然後通過聯網搜索給出基本的打開方案,如果沒有解決會再次詢問用戶的所在地點推薦維修服務,並給出一些緊急情況的處理辦法。

百小應通過多輪搜索,可以在複雜的問題場景下有效獲取到更有價值的答案。其通過精准定位問題領域,然後訪問權威站點進行補充搜索,呈現結果中也會附加相應的網頁鏈接。

同時,其輸出內容會進行結構化呈現,通過表格對信息進行梳理,便于用戶在行業分析、調研時加快對數據的理解。爲了確保輸出信息的准確度,百小應的輸出結果有來源參考,用戶可以點擊引用角標快速校驗搜索結果。

會提問,就是引導用戶明確表述自身的需求。如一些用戶在提問時,問題過于籠統、抽象,百小應就會先與用戶進行互動,一步步明確具體的需求。

如向其提問婚禮策劃方案時,它不會直接給出答案,而是先詢問賓客的數量以及用戶的預算情況;在幫助用戶撰寫小紅書種草文案時,百小應會給出不同場景、風格的文案參考選項,用戶快速點選就能獲得答案。

除此以外,百小應還支持上傳PDF、word文檔,或者直接輸入網頁鏈接(URL),閱讀並分析書籍、報告、學術論文等長篇內容,僅用一分鍾便能讀完上市公司財報。

在Baichuan 4多模態能力的支持下,用戶在提問的同時還可以同步上傳圖片,對圖片內容進行解讀,或者將圖片作爲補充材料,獲取更精准的回答;並且支持語音交互。

三、MaaS新用戶可獲得1000萬免費token,AaaS服務可免費試用

百川智能推出了全新的MaaS+AaaS服務,MaaS版塊由基座模型組成,分爲旗艦版和專業版。

旗艦版將全量開放Baichuan 4的各項能力;專業版包含Baichuan3-Turbo和Baichuan3-Turbo-128K兩款模型,在價格方面相比旗艦版Baichuan 4更實惠,且均針對企業用的高頻場景進行了針對性優化,綜合測試相比GPT3.5整體效果提升8.9%。即日起,MaaS新用戶可以獲得1000萬免費token。

Assitants API是百川智能在Baichuan 4基礎上針對Agent構建推出的API接口,不僅支持Code interpreter、RAG內建工具,還支持自定義工具調用,方便企業接入各種豐富複雜的API。評測結果顯示其工具調用能力接近Open AI Assistants API,本次發布的Assitants API現已開啓公測。

未來,百川智能將推出零代碼Agent創建平台産品,讓業務人員通過自然語言的方式,也能創建Agent,更好地賦能企業智能化發展。

結語:“超級模型+超級應用”雙輪驅動,百川智能走出一條大模型應用獨特之路

作爲國內大模型産業中備受關注的明星創企,百川智能自王小川搭建團隊、籌備研發起,已經發布12個大模型並推出首款AI助手,可以看出不論在模型的發布速度、模型的能力表現以及AI應用的開發方面,百川智能已經走出了一條獨屬于自己的大模型産品落地、商業化應用之路。

目前來看,距離百川智能想要做“超級模型+超級應用”的願景仍然有一定距離,但從其剛發布的模型與應用來看,百川智能的模型表現霸榜國産大模型,綜合表現更強,在AI助手方面,百川智能沒有遵循其他搜索應用的思路,而是通過多輪搜索等將大模型與搜索技術相結合,真正朝著滿足用戶剛需的方向演進。

在衆多科技巨頭和創企紛紛推出各種大型AI模型應用的今天,百川智能基于其在大模型以及搜索技術方面的完整技術棧,同時擁有原先的搜狗搜索技術團隊做支撐,以AI搜索助手爲切入口,朝著打造擁有數億用戶、能滿足用戶剛需的超級應用沖刺。

0 阅读:1

智東西

簡介:智能産業第一媒體!聚焦智能變革,服務産業升級。