馬斯克開源全球最大規模大模型,性能仍不及GPT-4,需8張H100才能運行

旺旺屋 2024-03-18 21:11:50

說到做到,此前預告將開源大模型的馬斯克付諸行動。美當地時間3月17日,馬斯克旗下AI公司xAI正式宣布開源首款大模型Grok-1。

xAI在官方博客文章中宣布,將發布Grok-1的基礎模型權重和網絡架構。“這是我們的大型語言模型,擁有3140億參數,由xAI從零開始訓練。”

這是馬斯克對閉源的OpenAI的又一次反擊,也意味著馬斯克正式入局越發激烈的開源之戰。

迄今爲止最大的開源模型,

測試性能不及GPT-4

Grok-1遵照Apache 2.0協議開放模型權重和架構,其開源意味著模型的權重和網絡架構變得公開可用。

模型的權重主要指模型的參數,一般來說,參數越多,模型越複雜,性能也就更好。具有3140億參數的Grok-1是迄今爲止參數規模最大的開源大語言模型,遠超OpenAI GPT-3.5的1750億參數(未開源)。

同時,Grok-1遠超其它開源模型,包括Meta開源的700億參數的Llama 2,Mistral開源的120億參數的8x7B,谷歌開源的最高70億參數的Gemma,也遠高于國內阿裏、智譜、百川等公司開源的大模型。

Grok-1的架構是xAI在2023年10月使用自定義訓練堆棧在JAX和Rust上從頭開始訓練,采用了混合專家(Mixture-of-Experts,MOE)架構,同時利用了25%的權重來處理給定的標記,從而提高了大模型的訓練和推理效率。

xAI還表示,Grok-1基礎模型基于大量文本數據訓練,未針對特定任務進行微調。但Grok並未公布其訓練數據的全部語料庫,這也意味著用戶無法了解模型的學習來源,因此在開源程度上不如 Pythia、Bloom、OLMo等附帶可複現的數據集的模型。

目前,Grok-1的源權重數據大小大約爲300GB,其發布版本所使用的訓練數據來自截至2023年第三季度的互聯網數據和xAI的AI訓練師提供的數據。

在xAI將Grok-1上傳到開源社區Github後,任何個人或企業都可以下載其代碼,獲取Grok的權重和其他相關文檔,並使用副本進行各種應用,包括商業用途。

根據Grok-1遵循的Apache許可證2.0,其可以被允許商業使用、修改和分發,但不能注冊商標,使用者也不會收到任何責任或保證,但使用者必須複制原始許可證和版權聲明,並聲明他們所做的任何更改。

項目說明強調,Grok-1需要有足夠GPU內存的機器才能使用示例代碼測試模型。有網友分析稱,這可能需要一台有628 GB GPU內存的機器,即需要8張H100。

Grok-1在Github上也受到開發者比較大的關注,在發布大半天後已獲得超14萬顆星。但也有社區開發者對其開源的目的表達了疑惑:xAI團隊想利用Grok模型來公關,還是就是想爲社區做貢獻?

此次xAI並未公布Grok-1更多的模型細節,也沒有給出Grok-1的最新測試成績。去年11月,xAI正式推出Grok聊天機器人,背後正是基于用時4個月研發的大模型Grok-1,其由最初訓練的330億參數的原型Grok-0進化而來。

該早期模型LM基准上接近LLaMA 2(70B)能力,但僅使用其一半的訓練資源,隨後xAI團隊在推理和編碼能力持續優化後最終推出了Grok-1。

根據xAI當時公布的Gro-1大模型在衡量數學和推理能力的標准基准測試中,其在GSM8k、MMLU、HumanEval、MATH等測試集上均超過了GPT-3.5、Llama 2(70B)及Inflection-1,但不及谷歌的PaLM 2、Claude2和GPT-4,尤其是在GSM8k上遠不如GPT-4達到92%的表現。

Grok可以訪問搜索工具和實時信息,能從推特實時獲取信息,但不具備獨立搜索網絡的能力,同時跟所有大語言模型一樣,Grok-1仍具備大模型的通病——幻覺問題。

因此,xAI認爲,解決當前系統局限性最重要的方向,就是實現可靠的推理,包括開發可擴展的監督、長上下文理解和檢索、多模態功能等。相較GPT已具備語音、圖像、視頻等功能,Grok還未就多模態進行布局。

再次站到OpenAI對立面,

馬斯克曾稱開源落後閉源6-12月

Grok-1開源是馬斯克此前預告的既定動作。馬斯克上周宣布,將開放Grok的源代碼。這也意味著,馬斯克將正式入局美國大模型的開源之戰,並再次站到OpenAI的對立面。

在開源Grok-1後,馬斯克就在評論區對ChatGPT回怼到“我們想要了解OpenAI更多的Open部分”。而此次開源也是在馬斯克對OpenAI提起訴訟後不久做出,馬斯克認爲OpenAI違反了初始的非盈利開源的合同,是爲了最大利潤而不是爲了人類利益開發技術,對此提出了多項索賠要求,並要求OpenAI恢複開源。

OpenAI隨後對馬斯克的訴訟進行了首次司法回應,稱馬斯克試圖通過法律手段迫使OpenAI按照他虛構的合同條款來重組和部署其技術,並認爲馬斯克可能會利用這起訴訟獲取OpenAI的專有記錄和技術。

馬斯克最初是OpenAI的捐贈人,但後來在爭奪控制權的過程中出局。隨著OpenAI成立有限盈利實體開始從微軟等機構融資,馬斯克持續多年在批評OpenAI缺乏透明度,並在去年7月成立了xAI,此次開源也被視爲馬斯克對OpenAI的又一次複仇。

不過,從前述披露的信息來看,xAI目前在技術方面仍整體不及OpenAI,其想要靠開源對抗OpenAI仍有難度。目前,業內對開源與閉源誰能實現領先也存在不少爭議。

開源中國董事長馬越此前對旺旺屋表示,開源本身是一種研發模式,也是一種競爭策略,爲很多追趕者提供了超越的可能,但開源也要看模型的技術水平,絕對領先的技術不太可能會開源。

目前,有觀點認爲,開源很難追上閉源,甚至差距會擴大。但也有不同觀點,比如市場派代表——金沙江創投主管合夥人朱嘯虎就認爲,現在開源落後閉源一代,但隨著閉源技術叠代曲線放緩,開源一定會追上閉源。

同時,不少人也認爲開源會導致很多安全問題,比如“壞人”可以看到源代碼從而從事違法行爲。不過,馬斯克是堅定的開源支持者。他曾表示,開源是人工智能發展的重要途徑,通過共享代碼和知識,可以推動技術的快速創新和進步。

在去年11月英國舉辦的全球首屆人工智能安全峰會上,馬斯克也承認,開源算法和數據通常滯後于閉源6-12個月,如果閉源滯後,差距可能會進一步擴大,但開源AI最終也會接近人類智能水平。

“開源在某種程度上是不可避免的,因爲至少可以看到發生了什麽,但閉源就不知道發生了什麽。”因此,馬斯克也非常支持對AI進行監管。隨著Grok-1開源,xAI成爲對抗閉源的OpenAI的開源大軍中的一員,當然也會和開源的Meta、谷歌等形成競爭。

此前,有媒體報道稱,xAI在洽談籌集高達60億美元的資金,估值可能達到200億美元,後來馬斯克辟謠稱沒這回事。如果xAI要想借助開源追上OpenAI,恐怕還需要更多投入。

0 阅读:158

旺旺屋

簡介:旺旺屋官方賬號