華爲李冰：昇騰深耕算力底座，構建AI産業生態，打造世界第二標准

4月26日，由艾笛網 iData主辦、華爲技術有限公司聯合主辦，以“大算力·新節能”爲主題的2024GIDC互聯網數據大會在上海成功召開。本次大會上，華爲上海代表處大企業解決方案總監李冰受邀出席並帶來《共建智能根基，加速行業智能化升級》的主題演講。

李冰表示，對于未來，華爲的觀點是算力增長主要通過人工智能帶動算力增長，可能會增長到500倍，通用計算可能只有10倍，人工智能算力是未來發展的大趨勢。

關于比較火的大模型，國內走的路線和國外不一樣。國外更多以聊天、視頻生成爲主，國內深入到各個行業、各個場景，中國是制造業大國，工業生産的場景比較豐富也適合國內廠商大模型深耕。

隨著大模型的火爆，産業鏈布局整體來看分爲三個方面：

一是金融、企業，頭部客戶通過算力提升自己的工作效率和産品競爭力；

二是IDC企業，包括幾大運營商正在做的事，通過算力升級向中小企業提供人工智能算力。

三是政府積極投入，建設一些普惠性算力爲教科研機構和中小企業提供服務。

面向IDC，華爲提供業界最完善的算力解決方案，人工智能公共算力硬件平台，包括AI服務器、網絡交換機、存儲服務器及安全設備，以及相應的資源監控、告警日志等運維平台，由華爲提供。管理計算、存儲、網絡等基礎設施硬件，並提供AI訓練環境，由華爲或夥伴提供。基礎大模型以及具有特定行業特征的行業大模型。基礎大模型可由華爲或夥伴提供。實現産品管理，價格管理、營銷策略、銷售分析、配額控制等功能，通過夥伴提供相應能力。數據中心機房及相應的供電制冷等，由IDC企業提供。

李冰表示，底座裏最重要的環節就是昇騰算力底座，並且與英偉達的差距也在一步步縮小。華爲已經形成和英偉達相匹配的一系列解決方案，對應英偉達的處理器有昇騰處理器，對應英偉達的異構計算架構有昇騰異構計算架構，能力在逐漸補齊。面向大模型，昇騰已經適配業界主流的大模型。面向AI計算框架，昇思支持Pytorch等，實際上昇騰的産品和昇思同時使用時，整個性能實際比通常的算力性能提升20%左右。面向算子生態，CANN能力重構，使能極簡開發、極致性能。

目前，昇騰已支持國內外開源開放大模型，也是國內唯一已完成訓練千億參數大模型的技術路線，業界主流大模型PyTorch實測性能均達到0.8~1.1倍A800。

針對AI算力華爲主推的訓練服務器——Atlas 800T A2，標准尺寸，通用電源，整個服務器算力2.5P，安裝部署及機房維護歸一，一鍵接入客戶網絡，支持8張卡，200G Roce網絡。

李冰提到，大模型的發展有幾個明顯的趨勢，模型向千億稠密/萬億稀疏的模型架構演進，超長序列——Sora已支持60秒的長視頻或是1兆的文本理解，以及多模態，可以看到，大模型技術發展帶來對超大規模組網、多級存儲等技術的需求。

在計算方面，不同的需求、不同的算力精度在持續增加。另外隨著模型量的變化、樣本的增加，越來越多的要求指向並行計算，所以更大規模的集群要求明顯越來越多。一旦達到千卡、萬卡，網絡的高性能、零丟包是必不可少的，網絡如何做到零丟包、高帶寬，支持模型長時間高強度訓練也是一個比較複雜的問題。在存儲方面主要體現在更大數據量存儲和讀寫。

針對以上這些情況，華爲公司提供AI大集群的RoCE的網絡方案，0丟包，高吞吐，全自智：

超大集群：計算、網絡、存儲一體化網絡規劃建設。超融合網絡四平面分離設計、統一承載、集中管控運維、獨立擴展、故障隔離，極簡化二層組網架構，減少光模塊和線纜消耗，快速交付、維護簡化，大規模組網極簡架構，平滑擴展，集群半徑可達2km以上。

智能無損：徹底解決以太丟包問題。基于AI算法實時感知網絡流量模型，自適應調整ECN水線；PFC deadlock free 自動預防PFC死鎖。

此外，大模型開發應用面臨四大挑戰，其中高性能AI存儲成爲必選項。華爲的華爲AI存儲解決方案，使算力釋放更徹底，AI全業務流程加速60%以上，毫秒級推理響應，行業推理更精准。華爲CCAE集群運維管理系統，集群管理從“單域” 走向“集中”，訓練作業路徑全局可視可管。

娛樂新聞吧

華爲李冰：昇騰深耕算力底座，構建AI産業生態，打造世界第二標准

我是艾迪說數據