打破AI算力天花板，Meta超大規模AI基礎設施架構解讀

Meta超大規模AI智算基礎設施架構設計

摘要

雙重 GPU 集群，每群配備 2.4 萬個 H100 芯片，分別采用 RoCE 和 InfiniBand 網絡連接。LLaMA3 就是在這兩個集群上訓練出來的；Meta AI 將部署龐大算力集群，擁有 35 萬張 H100 GPU，相當于 60 萬張 H100 的總算力，助力突破性人工智能研究。

Meta打造兩個龐大AI集群，每個集群擁有2.4萬張GPU。該設計專注于計算、網絡和存儲的無縫集成，旨在推動人工智能的未來發展。

1 第一代 GPU 集群：1.6w A100(RSC)

Meta 自 2022 年起公開其強大的 AI 基礎設施，率先推出 Research SuperCluster (RSC)，該集群由 16,000 個 A100 GPU 組成。RSC 爲 Meta 的 AI 研究和開發提供了無與倫比的計算能力。

RSC爲Meta AI開發提供技術支持，助力其構建將生成式AI融入各類應用，如計算機視覺、NLP、語音識別、圖像生成和編碼。RSC的先進能力顯著提升了Llama/llama2等AI模型的訓練效率。

2 第二代 GPU 集群：2.4w H100

精確數字是每個集群 24,576 張 H100 GPU。

Meta新一代 AI 集群充分吸收了 RSC 的成功和經驗教訓，這包括，

新集群能支持更大、更複雜的模型，爲GenAI産品開發和AI研究的進步鋪平了道路。

Meta 自研關鍵技術，搭建先進基礎設施，每天高效執行萬億級 AI 任務。端到端優化確保數據中心高效運行，支撐著 Meta 的 AI 創新。

左側：計算機櫃，包括GPU服務器機框、fabric交換機等等；右側：存儲機櫃。

2.1 計算：Grand TetonGPU 主機

雙新集群采用 Grand Teton，這是 Meta 開發的一種開放的 GPU 硬件平台，已貢獻給開放計算項目 (OCP)。

從2015年的Big Sur平台開始，Meta一直在開放設計GPU硬件平台。

Grand Teton 實物圖如下，

提供了快速可擴展性和靈活性，設計簡化，可以快速部署到數據中心，並易于維護和擴展。

創新的Open Rack電源和機架架構相結合，可迅速構建和定制Meta當前和未來的集群，滿足不斷增長的應用程序需求。

2.2 網絡

兩個集群使用了不同的網絡方案，但都是 400Gbps 接入。

2.2.1 集群一：400Gbps RoCE + 自研交換機

基于 RoCE 網絡，使用的交換機包括

自研置頂交換機（TOR）Wedge400 / Arista 7800 ，自研模塊化交換機 Minipack2。Minipack/Minipack2 多用途交換機，可靈活部署爲 Spine 交換機，滿足不同組網需求。Minipack 創新（2019 年），重塑 Facebook 數據中心網絡，爲下一代數據基礎設施樹立了新標杆。早期的數據中心網絡：

Facebook 的下一代數據中心網絡：“數據中心 Fabric”（2014 年）

2.2.2 集群二：400Gbps InfiniBand

使用NVIDIA Quantum2 InfiniBand fabric。

2.2.3 小結

在評估大規模訓練中的 RoCE/IB 適用性和可擴展性時，對比研究表明：

RoCE 和 IB 組網的集群均可處理大型生成式 AI 任務，例如 Llama 3 的訓練，且未遇網絡限制。

這些發現爲構建更大規模集群提供指導，有助于解決大型生成式 AI 訓練模型的網絡挑戰。

2.3 存儲

存儲在 AI 訓練中扮演著重要角色，然而相關的討論確非常少。

人工智能任務的多模態性推動了對高性能存儲的需求。理想的解決方案應提供卓越性能，並在處理圖像、視頻和文本時保持低能耗。

2.3.1 數據和 checkpoints 存儲：FUSE + Tectonic

AI 集群的數據和 checkpoint 的存儲方案：

上層是一個自研的 Linux 用戶空間文件系統（FUSE）Tectonic，Meta 的分布式存儲解決方案，專爲閃存優化，爲數據密集型應用程序提供無與倫比的性能和效率。

這個解決方案使得

同時還提供了 EB 級存儲系統所需的靈活性和高吞吐。2.3.2 交互式調試：Parallel NFS

與 Hammerspace 合作開發的並行 NFS 系統，可支持數千個 GPU 的交互式調試。代碼改動能瞬間同步到環境中的所有節點，顯著提升調試效率。

Tectonic 分布式存儲與 Hammerspace 相結合，釋放了企業數據快速叠代的潛能，同時打破了規模限制。

2.3.3 大容量 SSD + 定制每個機櫃的服務器數量

Tectonic 和 Hammerspace 解決方案均采用 YV3 Sierra Point 服務器平台，集成了市場上最先進的高容量 E1.S SSD，提供卓越的性能和存儲容量。

OCP 服務器如同樂高積木，賦予存儲層靈活擴展性，滿足未來 AI 集群的增長需求，且不影響日常維護和操作，爲數據中心提供敏捷高效的基礎架構。

3 性能3.1 原則：性能和易用性缺一不可

構建 AI 集群的關鍵是兼顧性能與易用性，避免顧此失彼。這種均衡至關重要，因爲它確保了訓練出卓越的 AI 模型。

優化大型系統設計的最佳方法是通過叠代構建和測試。小集群和大型集群的性能比較可以幫助識別瓶頸。下圖以消息大小爲橫軸，歸一化帶寬（0-100）爲縱軸，展示了當大量 GPU 交互時 AllGather 性能隨集群規模的變化。

優化前：小型集群性能優異（90%+），大型集群性能低下（10%-90%）。

優化後：通過系統化優化，大型集群性能飙升至理想的90%+，與小型集群齊頭並進。

3.2 大集群優化

優化大型集群性能：

* 通過減少wait time提升性能85%。

* 優化hash slot分配方式提升性能15%。

改進 job scheduler，使其具備網絡拓撲感知能力，這帶來的好處：延遲降低轉發到更上層網絡（交換機）的流量減少。結合 NVIDIA NCCL，優化了網絡路由策略，以實現最優的網絡利用率。

以上兩項優化使大集群的性能已經接近小集群。

與訓練框架和模型團隊密切合作，不斷改進基礎設施。例如，並行技術優化，存儲優化，可調試性是大型訓練的主要障礙，在大規模情況下難以追蹤拖慢訓練進程的卡頓原因。

爲此，正在開發 desync 調試和分布式飛行記錄等工具，用于跟蹤分布式訓練流程，快速識別問題。

PyTorch 優化顯著提升訓練速度：

通過優化進程組初始化，PyTorch 可支持數萬至數十萬 GPU 並行訓練。優化前，啓動時間可長達數小時，優化後縮減爲幾分鍾。

4 對Open AI innovation的承諾

Meta 堅信開源技術的力量，旨在通過開放創新來解決行業難題：

- Meta 堅定地致力于開源硬件和軟件。

- 相信開源社區可加速 AI 領域的進步。

持續支持開放硬件創新，成爲 OCP 創始成員，已將 Grand Teton 和 Open Rack 等設計貢獻給社區，共創未來。作爲PyTorch的最大和主要貢獻者，繼續推動這一AI軟件框架的開發和普及。繼續致力于 AI 研究社區的開放創新。彙聚 AI 先鋒，探索負責任的 AI 發展。我們倡導在開發大模型和大語言模型等技術時，堅持道德准則和社會影響考量。聯手 AI Alliance，一個領先 AI 組織組成的聯盟，加速負責任的 AI 創新，開啓開放社區的無限可能。

AI 工作建立在開放科學和協力合作的哲學之上。

5 未來展望

Meta爲其未來 AI 願景打造了兩個強大的 AI 訓練集群。到 2024 年底，Meta 將擁有 35 萬張 H100 GPU，總算力相當于 60 萬張 H100，爲其 AI 創新奠定了基礎。

持續優化基礎設施，從硬件到業務層面，確保靈活可靠。評估和改進流程以滿足不斷演變的需求，支持創新模型和研究，打造未來准備就緒的系統。

-對此，您有什麽看法見解？-

-歡迎在評論區留言探討和分享。-

娛樂新聞吧

打破AI算力天花板，Meta超大規模AI基礎設施架構解讀

薪科技快評