打破AI算力天花板,Meta超大規模AI基礎設施架構解讀

薪科技快評 2024-05-06 21:15:09

Meta超大規模AI智算基礎設施架構設計

摘要

雙重 GPU 集群,每群配備 2.4 萬個 H100 芯片,分別采用 RoCE 和 InfiniBand 網絡連接。LLaMA3 就是在這兩個集群上訓練出來的;Meta AI 將部署龐大算力集群,擁有 35 萬張 H100 GPU,相當于 60 萬張 H100 的總算力,助力突破性人工智能研究。

Meta打造兩個龐大AI集群,每個集群擁有2.4萬張GPU。該設計專注于計算、網絡和存儲的無縫集成,旨在推動人工智能的未來發展。

1 第一代 GPU 集群:1.6w A100(RSC)

Meta 自 2022 年起公開其強大的 AI 基礎設施,率先推出 Research SuperCluster (RSC),該集群由 16,000 個 A100 GPU 組成。RSC 爲 Meta 的 AI 研究和開發提供了無與倫比的計算能力。

RSC爲Meta AI開發提供技術支持,助力其構建將生成式AI融入各類應用,如計算機視覺、NLP、語音識別、圖像生成和編碼。RSC的先進能力顯著提升了Llama/llama2等AI模型的訓練效率。

2 第二代 GPU 集群:2.4w H100

精確數字是每個集群 24,576 張 H100 GPU。

Meta新一代 AI 集群充分吸收了 RSC 的成功和經驗教訓,這包括,

新集群能支持更大、更複雜的模型,爲GenAI産品開發和AI研究的進步鋪平了道路。

Meta 自研關鍵技術,搭建先進基礎設施,每天高效執行萬億級 AI 任務。端到端優化確保數據中心高效運行,支撐著 Meta 的 AI 創新。

左側:計算機櫃,包括GPU服務器機框、fabric交換機等等;右側:存儲機櫃。

2.1 計算:Grand TetonGPU 主機

雙新集群采用 Grand Teton,這是 Meta 開發的一種開放的 GPU 硬件平台,已貢獻給開放計算項目 (OCP)。

從2015年的Big Sur平台開始,Meta一直在開放設計GPU硬件平台。

Grand Teton 實物圖如下,

提供了快速可擴展性和靈活性,設計簡化,可以快速部署到數據中心,並易于維護和擴展。

創新的Open Rack電源和機架架構相結合,可迅速構建和定制Meta當前和未來的集群,滿足不斷增長的應用程序需求。

2.2 網絡

兩個集群使用了不同的網絡方案,但都是 400Gbps 接入。

2.2.1 集群一:400Gbps RoCE + 自研交換機

基于 RoCE 網絡,使用的交換機包括

自研置頂交換機(TOR)Wedge400 / Arista 7800 ,自研模塊化交換機 Minipack2。Minipack/Minipack2 多用途交換機,可靈活部署爲 Spine 交換機,滿足不同組網需求。Minipack 創新(2019 年),重塑 Facebook 數據中心網絡,爲下一代數據基礎設施樹立了新標杆。早期的數據中心網絡:

Facebook 的下一代數據中心網絡:“數據中心 Fabric”(2014 年)

2.2.2 集群二:400Gbps InfiniBand

使用NVIDIA Quantum2 InfiniBand fabric。

2.2.3 小結

在評估大規模訓練中的 RoCE/IB 適用性和可擴展性時,對比研究表明:

RoCE 和 IB 組網的集群均可處理大型生成式 AI 任務,例如 Llama 3 的訓練,且未遇網絡限制。

這些發現爲構建更大規模集群提供指導,有助于解決大型生成式 AI 訓練模型的網絡挑戰。

2.3 存儲

存儲在 AI 訓練中扮演著重要角色,然而相關的討論確非常少。

人工智能任務的多模態性推動了對高性能存儲的需求。理想的解決方案應提供卓越性能,並在處理圖像、視頻和文本時保持低能耗。

2.3.1 數據和 checkpoints 存儲:FUSE + Tectonic

AI 集群的數據和 checkpoint 的存儲方案:

上層是一個自研的 Linux 用戶空間文件系統(FUSE)Tectonic,Meta 的分布式存儲解決方案,專爲閃存優化,爲數據密集型應用程序提供無與倫比的性能和效率。

這個解決方案使得

同時還提供了 EB 級存儲系統所需的靈活性和高吞吐。2.3.2 交互式調試:Parallel NFS

與 Hammerspace 合作開發的並行 NFS 系統,可支持數千個 GPU 的交互式調試。代碼改動能瞬間同步到環境中的所有節點,顯著提升調試效率。

Tectonic 分布式存儲與 Hammerspace 相結合,釋放了企業數據快速叠代的潛能,同時打破了規模限制。

2.3.3 大容量 SSD + 定制每個機櫃的服務器數量

Tectonic 和 Hammerspace 解決方案均采用 YV3 Sierra Point 服務器平台,集成了市場上最先進的高容量 E1.S SSD,提供卓越的性能和存儲容量。

OCP 服務器如同樂高積木,賦予存儲層靈活擴展性,滿足未來 AI 集群的增長需求,且不影響日常維護和操作,爲數據中心提供敏捷高效的基礎架構。

3 性能3.1 原則:性能和易用性缺一不可

構建 AI 集群的關鍵是兼顧性能與易用性,避免顧此失彼。這種均衡至關重要,因爲它確保了訓練出卓越的 AI 模型。

優化大型系統設計的最佳方法是通過叠代構建和測試。小集群和大型集群的性能比較可以幫助識別瓶頸。下圖以消息大小爲橫軸,歸一化帶寬(0-100)爲縱軸,展示了當大量 GPU 交互時 AllGather 性能隨集群規模的變化。

優化前:小型集群性能優異(90%+),大型集群性能低下(10%-90%)。

優化後:通過系統化優化,大型集群性能飙升至理想的90%+,與小型集群齊頭並進。

3.2 大集群優化

優化大型集群性能:

* 通過減少wait time提升性能85%。

* 優化hash slot分配方式提升性能15%。

改進 job scheduler,使其具備網絡拓撲感知能力,這帶來的好處:延遲降低轉發到更上層網絡(交換機)的流量減少。結合 NVIDIA NCCL,優化了網絡路由策略,以實現最優的網絡利用率。

以上兩項優化使大集群的性能已經接近小集群。

與訓練框架和模型團隊密切合作,不斷改進基礎設施。例如,並行技術優化,存儲優化,可調試性是大型訓練的主要障礙,在大規模情況下難以追蹤拖慢訓練進程的卡頓原因。

爲此,正在開發 desync 調試和分布式飛行記錄等工具,用于跟蹤分布式訓練流程,快速識別問題。

PyTorch 優化顯著提升訓練速度:

通過優化進程組初始化,PyTorch 可支持數萬至數十萬 GPU 並行訓練。優化前,啓動時間可長達數小時,優化後縮減爲幾分鍾。

4 對Open AI innovation的承諾

Meta 堅信開源技術的力量,旨在通過開放創新來解決行業難題:

- Meta 堅定地致力于開源硬件和軟件。

- 相信開源社區可加速 AI 領域的進步。

持續支持開放硬件創新,成爲 OCP 創始成員,已將 Grand Teton 和 Open Rack 等設計貢獻給社區,共創未來。作爲PyTorch的最大和主要貢獻者,繼續推動這一AI軟件框架的開發和普及。繼續致力于 AI 研究社區的開放創新。彙聚 AI 先鋒,探索負責任的 AI 發展。我們倡導在開發大模型和大語言模型等技術時,堅持道德准則和社會影響考量。聯手 AI Alliance,一個領先 AI 組織組成的聯盟,加速負責任的 AI 創新,開啓開放社區的無限可能。

AI 工作建立在開放科學和協力合作的哲學之上。

5 未來展望

Meta爲其未來 AI 願景打造了兩個強大的 AI 訓練集群。到 2024 年底,Meta 將擁有 35 萬張 H100 GPU,總算力相當于 60 萬張 H100,爲其 AI 創新奠定了基礎。

持續優化基礎設施,從硬件到業務層面,確保靈活可靠。評估和改進流程以滿足不斷演變的需求,支持創新模型和研究,打造未來准備就緒的系統。

-對此,您有什麽看法見解?-

-歡迎在評論區留言探討和分享。-

0 阅读:70
评论列表

薪科技快評

簡介:薪科技評說,發現技術的點滴,記錄科學的飛躍!