大模型盲測榜單更新!Yi-Large跻身全球前七,李開複談價格戰影響

智東西 2024-05-22 08:25:19

作者 | ZeR0

編輯 | 漠影

智東西5月21日報道,今日,知名大模型競技場LMSYS Chatboat Arena盲測評測結果更新,國內大模型獨角獸零一萬物的千億參數閉源大模型Yi-Large在最新總榜中排名世界第七,中國大模型中第一,超過Llama-3-70B、Claude 3 Sonnet;其中文分榜更是與GPT-4o並列第一。

LMSYS Chatboat Arena由第三方非營利組織LMSYS Org發布,其盲測結果來自至今積累超過1170萬的全球用戶真實投票數。此次共有44款模型參賽,既包含了開源大模型Llama 3-70B,也包含了各家大廠的閉源模型。

Chatbot Arena評測過程涵蓋了從用戶直接參與投票到盲測,再到大規模的投票和動態更新的評分機制等多個方面,這些因素共同作用,確保了評測的客觀性、權威性和專業性,能夠更准確地反映出大模型在實際應用中的表現。

上周OpenAI的GPT-4o的測試版本便以“im-also-a-good-gpt2-chatbot”的馬甲闖進Chatbot Arena排行榜,排名超過GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b等一衆國際大廠當家基座模型。OpenAI CEO Sam Altman也在Gpt-4o發布後親自轉帖引用LMSYS arena盲測擂台的測試結果。

從最新公布的Elo評分來看,GPT-4o以1287分高居榜首,GPT-4-Turbo、Gemini 1 5 Pro、Claude 3 Opus、Yi-Large等模型則以1240左右的評分位居第二梯隊。

排名前6的模型分別來自海外巨頭OpenAI、Google、Anthropic,且GPT-4、Gemini 1.5 Pro等模型均爲萬億級別超大參數規模的旗艦模型,其他模型也都在大幾千億參數級別。

零一萬物是總榜上唯一一家自家模型進入排名前十的中國大模型企業,按機構排序位于OpenAI、Google、Anthropic之後,排名第四。Yi-Large大模型以僅千億參數量級排名第7,評分爲1236。

其後Bard(Gemini Pro)、Llama-3-70b-Instruct、Claude 3 Sonnet的成績則下滑至1200分左右;阿裏巴巴的Qwen-Max大模型Elo分數爲1186,排名第12;智譜AI的GLM-4大模型Elo分數爲1175,排名第15。

爲了提高Chatbot Arena查詢的整體質量,LMSYS還實施了重複數據刪除機制,並出具了去除冗余查詢後的榜單。這個新機制旨在消除過度冗余的用戶提示,如過度重複的“你好”。這類冗余提示可能會影響排行榜的准確性。LMSYS公開表示,去除冗余查詢後的榜單將在後續成爲默認榜單。

在去除冗余查詢後的總榜中, Yi-Large的Elo得分更進一步,與Claude 3 Opus、GPT-4-0125-preview並列第四。

LMSYS Chatbot Arena 盲測競技場公開投票地址:https://arena.lmsys.org/LMSYS Chatbot Leaderboard 評測排行(滾動更新):https://chat.lmsys.org/?leaderboard

一、把一張GPU擠出更多價值,李開複談大模型價格戰影響

據零一萬物CEO李開複博士透露,實現上述出色的成績,Yi-Large大模型尺寸不到谷歌、OpenAI的1/10,訓練用的GPU算力不到他們的1/10。在這背後,一年前零一萬物的GPU算力只有谷歌、OpenAI的5%;而這些海外頂級AI團隊都是千人級,零一萬物的模型加基礎設施團隊則總共不到百人。

“我們能夠把同樣的一張GPU擠出更多的價值來,這是今天我們能夠達到這些成果的一個重要理由。”李開複說,“如果只評估千億模型,至少在這個排行榜上是世界第一,這些點我們還是很自豪,在一年前,我們落後OpenAI跟Google開始做大模型研發的時間點有7到10年;現在,我們跟著他們差距在6個月左右,這個大大的降低。”

爲什麽追得這麽快?零一萬物模型訓練負責人黃文灏博士談道,零一萬物在模型訓練上的每一步決策都是正確的,包括花了很長時間提升數據質量、做scaling Law,接下來還會不斷提升數據質量和做scale up。

同時,零一萬物非常重視Infra的建設,算法Infra是一個協同設計的過程,這樣才能把算力發揮到比較好的水平。在此過程中,其人才團隊是工程、Infra、算法三位一體的。

李開複談道,零一萬物希望從最小到最大的模型都能夠做到中國最好,未來可能有更小的模型發布,都會力求在同樣尺寸達到業界第一梯隊,而且在代碼、中文、英文等很多方面表現出色;有各種較小的簡單應用機會,零一萬物的打法是“一個都不放過”。

他也關注到近期的大模型API價格戰。李開複認爲,零一萬物的定價還是非常合理的,也在花很大精力希望進一步降價。

“100萬個token,花十幾塊還是花幾塊錢有很大差別嗎?100萬個token對很大的應用、很難的應用,我覺得我們是必然之選。”他談道,零一萬物的API橫跨國內外,有信心在全球範疇是一個表現好、性價比合理的模型。“到今天爲止,我們剛宣布的性能肯定是國內性價比最高。大家可能有用千token、百萬token,大家可以自己測算一下。”

在他看來,整個行業每年推理成本降低到之前的1/10必然會發生,今天的API模型調用比例還非常低,如果能讓更多人用上,這是一個非常利好的消息。

李開複相信大模型公司不會做出不理智的雙輸打法,技術是最重要的,如果技術不行,就純粹靠貼錢賠錢去做生意。萬一中國以後就是這麽卷,大家甯可賠光通輸也不讓別人贏,那零一萬物就走外國市場。

黃文灏分享說,零一萬物沒有碰到數據荒的問題,看到數據有很多可挖掘的潛力,最近在多模態上有一些發現,能進一步增加一到兩個數量級的數據量。“弱智吧”數據對模型訓練質量和數據多樣性的幫助,便是來自零一萬物團隊的想法。

二、Yi-Large:中文榜與GPT-4o並列第一,挑戰性任務評測排名第二

國內大模型廠商中,智譜GLM4、阿裏Qwen Max、Qwen 1.5、零一萬物Yi-Large、Yi-34B-chat此次都有參與盲測。

在總榜之外,LMSYS的語言類別新增了英語、中文、法文三種語言評測。在中文語言分榜上,Yi-Large與OpenAI GPT-4o的排名並列第一,Qwen-Max和GLM-4也都排名靠前。

編程能力、長提問及最新推出的 “艱難提示詞” ,這三個評測是LMSYS所給出的針對性榜單,以專業性與高難度著稱。

在編程能力(Coding)排行榜上,Yi-Large的Elo分數超過Anthropic旗艦模型Claude 3 Opus,僅低于GPT-4o,與GPT-4-Turbo、GPT-4並列第二。

在長提問(Longer Query)榜單上,Yi-Large同樣位列全球第二,與GPT-4-Turbo、GPT-4、Claude 3 Opus並列。

艱難提示詞(Hard Prompts)類別包含來自Arena的用戶提交的提示,這些提示則經過專門設計,更加複雜、要求更高、更加嚴格。

LMSYS認爲這類提示能夠測試最新語言模型面臨挑戰性任務時的性能。在這一榜單上,Yi-Large與GPT-4-Turbo、GPT-4、Claude 3 Opus並列第二。

三、進入後benchmark時代,盲測機制提供更公正的大模型評估

如何爲大模型給出客觀公正的評測一直是業內廣泛關注的話題。在經過去年亂象叢生的大模型評測浪潮之後,業界對于評測集的專業性和客觀性更加重視。

像Chatbot Arena這樣能夠提供真實用戶反饋、采用盲測機制以避免操縱結果、並且能夠持續更新評分體系的評測平台,不僅能夠爲模型提供公正的評估,還能夠通過大規模的用戶參與,確保評測結果的真實性和權威性。

LMSYS Org發布的Chatbot Arena憑借其新穎的“競技場”形式、測試團隊的嚴謹性,成爲目前全球業界公認的基准標杆。

Google DeepMind首席科學家Jeff Dean曾引用LMSYS Chatbot Arena的排名數據,來佐證Bard産品的性能。

OpenAI創始團隊成員Andrej Karpathy發文誇贊說:“Chatbot Arena is awesome. ”

發布Chatbot Arena評測榜的LMSYS Org是一個開放的研究組織,由加州大學伯克利分校的學生和教師、加州大學聖地亞哥分校、卡耐基梅隆大學合作創立。

零一萬物模型訓練負責人黃文灏博士總結說,LMSYS評測機制的題來自真實用戶聊天,動態隨機變化,沒人能預測題目分布,也就無法對模型做單一能力的優化,客觀性更好;再加上它由用戶來打分,評測結果會更接近實際應用中用戶的偏好。

雖然主要人員出自高校,但LMSYS的研究項目十分貼近産業,他們不僅自己開發大語言模型,而且向業內輸出多種數據集(其推出的MT-Bench已是指令遵循方向的權威評測集)、評估工具,還開發用于加速大模型訓練和推理的分布式系統,提供線上live大模型打擂台測試所需的算力。

Chatbot Arena借鑒了搜索引擎時代的橫向對比評測思路。它首先將所有上傳評測的“參賽”模型隨機兩兩配對,以匿名模型的形式呈現在用戶面前;隨後號召真實用戶輸入自己的提示詞,在不知道模型型號名稱的前提下,由真實用戶對兩個模型産品的作答給出評價。

在盲測平台https://arena.lmsys.org/上,大模型們兩兩相比,用戶自主輸入對大模型的提問,模型A、模型B兩側分別生成兩PK模型的真實結果,用戶在結果下方做出投票四選一:A模型較佳、B模型較佳,兩者平手,或是兩者都不好。提交後,可進行下一輪PK。

通過衆籌真實用戶來進行線上實時盲測和匿名投票,Chatbot Arena既能減少偏見的影響,又能最大概率避免基于測試集進行刷榜的可能性,以此增加最終成績的客觀性。在經過清洗和匿名化處理後,Chatbot Arena會公開所有用戶投票數據。

在收集真實用戶投票數據後,LMSYS Chatbot Arena還使用Elo評分系統來量化模型的表現,進一步優化評分機制,保證排名的客觀公正。

Elo評分系統是一項基于統計學原理的權威性評價體系,由匈牙利裔美國物理學家Arpad Elo博士創立,旨在量化和評估各類對弈活動的競技水平。Elo等級分制度在國際象棋、圍棋、足球、籃球、電子競技等運動中都發揮著重要作用。

在Elo評分系統中,每個參與者都會獲得基准評分。每場比賽結束後,參與者的評分會基于比賽結果進行調整。系統會根據參與者評分來計算其贏得比賽的概率,一旦低分選手擊敗高分選手,那麽低分選手就會獲得較多的分數,反之則較少。

結語:後發有後發的優勢,中國人做産品強于美國

隨著大模型步入商業應用,模型的實際性能亟需通過具體應用場景的嚴格考驗。整個行業都在探索一種更爲客觀、公正且權威的評估體系。大模型廠商正積極參與到像Chatbot Arena這樣的評測平台中,通過實際的用戶反饋和專業的評測機制來證明其産品的競爭力。

李開複認爲,美國擅長做突破性科研,擁有創造力特別強的一批科學家,但中國人的聰明、勤奮、努力也不容忽視,零一萬物把7-10年差距降低到只有6個月,就驗證了做好一個模型絕對不只是看多能寫論文、多能發明新的東西、先做或後做。

“做得最好的,才是最強的,”在他看來,後發有後發的優勢,美國的創造性很值得學習,“但是比執行力、比做出一個很好的體驗、比做産品、比商業模式,我覺得我們強于美國公司。”

零一萬物的企業級模型方向初步用戶在國外,這是因爲其團隊判斷國外用戶的付費意願或金額比國內大很多。按國內現在To B卷的情況,生意做一單賠一單,這種情況在早期AI 1.0時代太多了,零一萬物團隊不想這樣做。

“今天可以看到的模型表現,我們超過其他模型,也歡迎不認同的友商來LMSYS打擂台,證明我是錯的。但是直到那一天發生,我們會繼續說我們是最好的模型。”李開複說。

0 阅读:5

智東西

簡介:智能産業第一媒體!聚焦智能變革,服務産業升級。