5大維度21項細分能力沙利文最新大模型評測文心一言遙遙領先

新立場 2024-03-25 18:12:29

2024年企業應用大模型怎麽選?近日,全球增長咨詢公司弗若斯特沙利文發布《2024年中國大模型能力評測》,全面梳理了當前大模型的最新發展態勢和競爭格局,爲企業選購大模型提供精准決策支持。

報告對國內主流的15個大模型進行了權威評測。結果顯示,百度、騰訊、阿裏等互聯網大廠旗下大模型位于第一梯隊,綜合表現相比初創企業更爲優異。其中,文心一言能力最爲全面,五項評測維度均爲優勢能力,並取得四項第一。

沙利文《2024年中國大模型能力評測》:大模型綜合競爭力氣泡圖

沙利文的最新報告以用戶使用體驗和實際使用價值爲衡量標准,綜合考量數理科學、語言能力、道德責任、行業能力及綜合能力等5大核心維度及21個細化二級維度。

報告顯示,國際領先模型在通用基礎能力和專業應用能力上略優于中國領先模型,但以文心一言爲代表的中國模型具備亮眼表現。文心一言拿下數理科學、語言能力、道德責任、行業能力及綜合能力等五大評測維度的四項第一,評測結果遠超國際均線,展現了中國大模型在自然語言處理領域的顯著實力和在實際應用中的高價值。

沙利文報告的大模型通用基礎能力評測包含數理科學、語言能力和道德責任管理等三大要素,結果顯示文心一言排名第一,展現出模型在底層基礎能力方面的較高水平。大模型的專業應用能力包含綜合能力和專業能力兩大核心要素,是大模型實際運用效能的集中展現,文心一言同樣位列榜首,表現顯著優于國際均線。

文心一言綜合表現搶眼:5大維度取得4項第一

從具體細分維度來看,在語言能力的評測中,得益于先進的模型架構、大規模預訓練、精細調優、多任務學習以及強大的計算資源等多方面的優勢,文心一言在語言表達能力、語言理解能力、以及語言邏輯能力等關鍵指標上都達到了領先水平,在語言能力評測中排名第一。特別是開放式邏輯推理方面,文心一言樹立了新的標杆。這要求模型具備深入剖析、全面比較和精確判斷的能力,在處理複雜、多層次的邏輯推理問題時尤爲重要。

中國大語言模型能力評析:語言能力

在日益重要的道德責任評測中,文心一言在道德理解深度、危險言論規避機制以及魯棒性對抗方面均表現卓越,成爲此次測試中安全性最高的模型。這反映出文心一言在模擬和處理涉及道德判斷和決策的情境時,具備更爲精准的理解力和適應性。這無疑將確保AI大模型的可持續發展和社會效益的最大化。

中國大語言模型能力評析:道德責任

在大模型落地看重的行業能力評測中,文心一言同樣排名第一。報告顯示,文心一言靈活適應並高效解決了電商、工業、教育、能源、醫療等超過10個行業實際應用場景中遇到的問題,在多行業能力評測中表現優異。

沙利文還在報告中預測,2024年,大模型的技術發展將趨向多功能與小型化,同時産業端將強調自主研發和行業標准化,而倫理責任和數據標准規範將成爲持續發展的關鍵。

以百度文心一言爲代表的國産模型,正在不斷提升大模型的效率,豐富大模型的功能。公開資料顯示,自文心大模型發布以來,百度不斷降低推理成本,進一步提升文心大模型的效率。借助百度獨特的四層AI技術架構,文心大模型周均訓練有效率超過98%。

百度還推出兩款MaaS産品,降低大模型及AI原生應用開發門檻,分別是用于應用開發的千帆AppBuilder和用于專有模型開發精調的千帆ModelBuilder,累計幫助用戶精調1.3萬個大模型,服務8萬企業用戶,幫助用戶開發出16萬個大模型應用。

據媒體報道,百度近期在大模型上有諸多新動作。4月16-17日,百度Create AI開發者大會將在深圳國際會展中心(寶安)舉辦,不僅會帶來AI技術的最新進展,還將設置超30節“AI公開課”,與全球各地參會者分享百度在AI領域的科研成果。

0 阅读:22

新立場

簡介:商業解讀,科技銳評