富士通使用富嶽超級計算機訓練LLM

袁遺說科技 2024-05-12 04:53:05

本文由半導體産業縱橫(ID:ICVIEWS)綜合

在Monaka之前,富士通使用Fugaku來訓練LLM。

盡管富士通的富嶽超級計算機不再是超級計算機500強名單中最快的機器,但它仍然是一個非常強大的系統,A64FX處理器的多功能性允許將其用于各種工作負載,例如AI。本周,富士通發布了Fugaku-LLM,這是一個具有高級日語處理能力的大型語言模型,專爲研究和商業應用而設計。

富士通的Fugaku-LLM在富嶽超級計算機的13,824個節點上使用3800億個符記進行訓練,該超級計算機基于A64FX處理器,支持FP64、FP32、FP16和INT8模式,適用于各種AI和傳統超級計算機應用。Fugaku-LLM的訓練利用了針對超級計算機架構和互連優化的分布式並行學習技術。

Fugaku-LLM 有 130 億個參數,與 GPT-4 的 1750 億個參數相比顯得蒼白無力,不過,Fugaku-LLM是日本有史以來訓練量的最大 LLM。富士通表示,其130億參數的LLM不需要大量的計算資源來推理,這對日本的企業和研究人員來說是最佳選擇。大約 60% 的訓練數據是日語,40% 的數據是英語、數學和代碼數據。

這種廣泛的以日語爲中心的訓練使其有別于其它主要在英語數據集上訓練的日語模型。因此,Fugaku-LLM擁有卓越的日語水平,在日語MT-Bench上獲得了5.5的平均分,這是使用日本原始數據訓練的公開可用模型中的最高分。根據富士通的數據,它在人文和社會科學方面尤其出色,取得了令人印象深刻的 9.18 分的基准分數。

Fugaku-LLM計劃是由東京工業大學、東北大學、富士通株式會社、RIKEN、名古屋大學、CyberAgent和Kotoba Technologies等日本領先機構之間的合作推動的。他們合作的原因之一是通常用于訓練和推理 AI 模型的 GPU 短缺。另一個原因是,該模型可以與富士通的下一代 150 核 Monaka 數據中心 CPU 一起使用,該 CPU 針對 AI 和 HPC 工作負載進行了優化。

Fugaku-LLM現在可以在GitHub和Hugging Face的指定許可條款下用于學術和商業目的(盡管富士通沒有提供任何鏈接)。此外,它還將從2024年5月10日起通過富士通研究門戶網站提供。

富嶽超級計算機簡介

富嶽(Supercomputer Fugaku)是富士通與日本理化學研究所共同開發的超級計算機,作爲“京”的後繼機型。2014年開始研發,2021年正式激活。富嶽部署在兵庫縣神戶市中央區港灣人工島上的理化學研究所計算科學研究中心內,其運算能力爲京的100~120倍,耗電爲30百萬~40百萬瓦,京的耗電爲12.7百萬瓦。“富嶽”是富士山的別稱。

富嶽是全球首度奪冠的ARM架構超級計算機,采用富士通48核心A64FX SoC,與過往超級計算機大多采用的Intel或AMD的x86、x64主流平台不同。富嶽共有158,976個節點,尖峰性能可達到1 exaFLOPS(1,000 petaFLOPS)。富嶽除了在Linpack中拿到好成績,也在HPL-AI中獲得1.421 exaFLOPS。

2020年6月23日,富嶽正式獲認證,以415 PFLOPS計算速度成爲TOP500排名第一的超級計算機。之後同年11月17日發表的TOP 500排行榜成功蟬聯第一。

2023年5月22日,日本東京工業大學、富士通、理化學研究所和東北大學宣布將利用“富嶽”于研發日語生成式AI。未來,兩家機構將共同構建以日語爲中心的基礎技術,從2024年開始向日本國內企業無償提供。日本此舉是爲了與美國相抗衡,研發自主技術,避免美國OpenAI和谷歌的生成式AI壟斷市場。

官方表示,日本理化研究所和日本東北大學也將合作參與生成式AI的研發,自主開發作爲生成式AI基礎的大規模語言模型。這個項目的AI學習,將使用維基百科上公開的日語數據等資料,目的是提高日語對話能力。除此之外,該項目還將與日本最大的網絡廣告代理商CyberAgent合作,後者也在開發自主的生成式AI。

日經中文網表示,此前在日本,決定AI性能的語言模型參數往往僅爲數十億左右,CyberAgent于2023年5月17日公開的大規模語言模型最多爲68億個。作爲對比美國OpenAI的GPT-3語言模型參數爲1750億。未來,東京工業大學等將構建具有1000億左右參數的大規模語言模型。

富嶽跌至全球超算榜第四

2023年11月,日本理化學研究所宣布,與富士通共同開發的超級計算機“富嶽”在全球超算的運算速度排行榜“TOP500”中位列第四。在2023年5月發布的排行榜中,“富嶽”曾排名第二,但被美國陸續推出的最先進超級計算機超越。

據悉,全球超級計算機性能排行榜由專家組成的國際會議組織每年公布兩次。自2020年6月以來,“富嶽”曾連續四次排名世界第一。在2022年5月被美國“前沿”摘得桂冠之後,連續三次排名第二。但由于美國多家研究機構陸續推出了最先進超級計算機,因此來自美國的超算占據了本次榜單前三名。

據報道,連續四次排名世界第一的“前沿”達到了每秒119.4京(1京爲1萬億的1萬倍)次的運算速度,而排在第四位的“富嶽”爲每秒44.2京次。

*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅爲分享與討論,不代表我方贊成或認同,如有異議,請聯系後台。

0 阅读:16

袁遺說科技

簡介:感謝大家的關注