華爲李冰:昇騰深耕算力底座,構建AI産業生態,打造世界第二標准

我是艾迪說數據 2024-04-29 20:00:32

4月26日,由艾笛網 iData主辦、華爲技術有限公司聯合主辦,以“大算力·新節能”爲主題的2024GIDC互聯網數據大會在上海成功召開。本次大會上,華爲上海代表處大企業解決方案總監李冰受邀出席並帶來《共建智能根基,加速行業智能化升級》的主題演講。

李冰表示,對于未來,華爲的觀點是算力增長主要通過人工智能帶動算力增長,可能會增長到500倍,通用計算可能只有10倍,人工智能算力是未來發展的大趨勢。

關于比較火的大模型,國內走的路線和國外不一樣。國外更多以聊天、視頻生成爲主,國內深入到各個行業、各個場景,中國是制造業大國,工業生産的場景比較豐富也適合國內廠商大模型深耕。

隨著大模型的火爆,産業鏈布局整體來看分爲三個方面:

一是金融、企業,頭部客戶通過算力提升自己的工作效率和産品競爭力;

二是IDC企業,包括幾大運營商正在做的事,通過算力升級向中小企業提供人工智能算力。

三是政府積極投入,建設一些普惠性算力爲教科研機構和中小企業提供服務。

面向IDC,華爲提供業界最完善的算力解決方案,人工智能公共算力硬件平台,包括AI服務器、網絡交換機、存儲服務器及安全設備,以及相應的資源監控、告警日志等運維平台,由華爲提供。管理計算、存儲、網絡等基礎設施硬件,並提供AI訓練環境,由華爲或夥伴提供。基礎大模型以及具有特定行業特征的行業大模型。基礎大模型可由華爲或夥伴提供。實現産品管理,價格管理、營銷策略、銷售分析、配額控制等功能,通過夥伴提供相應能力。數據中心機房及相應的供電制冷等,由IDC企業提供。

李冰表示,底座裏最重要的環節就是昇騰算力底座,並且與英偉達的差距也在一步步縮小。華爲已經形成和英偉達相匹配的一系列解決方案,對應英偉達的處理器有昇騰處理器,對應英偉達的異構計算架構有昇騰異構計算架構,能力在逐漸補齊。面向大模型,昇騰已經適配業界主流的大模型。面向AI計算框架,昇思支持Pytorch等,實際上昇騰的産品和昇思同時使用時,整個性能實際比通常的算力性能提升20%左右。面向算子生態,CANN能力重構,使能極簡開發、極致性能。

目前,昇騰已支持國內外開源開放大模型,也是國內唯一已完成訓練千億參數大模型的技術路線,業界主流大模型PyTorch實測性能均達到0.8~1.1倍A800。

針對AI算力華爲主推的訓練服務器——Atlas 800T A2,標准尺寸,通用電源,整個服務器算力2.5P,安裝部署及機房維護歸一,一鍵接入客戶網絡,支持8張卡,200G Roce網絡。

李冰提到,大模型的發展有幾個明顯的趨勢,模型向千億稠密/萬億稀疏的模型架構演進,超長序列——Sora已支持60秒的長視頻或是1兆的文本理解,以及多模態,可以看到,大模型技術發展帶來對超大規模組網、多級存儲等技術的需求。

在計算方面,不同的需求、不同的算力精度在持續增加。另外隨著模型量的變化、樣本的增加,越來越多的要求指向並行計算,所以更大規模的集群要求明顯越來越多。一旦達到千卡、萬卡,網絡的高性能、零丟包是必不可少的,網絡如何做到零丟包、高帶寬,支持模型長時間高強度訓練也是一個比較複雜的問題。在存儲方面主要體現在更大數據量存儲和讀寫。

針對以上這些情況,華爲公司提供AI大集群的RoCE的網絡方案,0丟包,高吞吐,全自智:

超大集群:計算、網絡、存儲一體化網絡規劃建設。超融合網絡四平面分離設計、統一承載、集中管控運維、獨立擴展、故障隔離,極簡化二層組網架構,減少光模塊和線纜消耗,快速交付、維護簡化,大規模組網極簡架構,平滑擴展,集群半徑可達2km以上。

智能無損:徹底解決以太丟包問題。基于AI算法實時感知網絡流量模型,自適應調整ECN水線;PFC deadlock free 自動預防PFC死鎖。

此外,大模型開發應用面臨四大挑戰,其中高性能AI存儲成爲必選項。華爲的華爲AI存儲解決方案,使算力釋放更徹底,AI全業務流程加速60%以上,毫秒級推理響應,行業推理更精准。華爲CCAE集群運維管理系統,集群管理從“單域” 走向“集中”,訓練作業路徑全局可視可管。

0 阅读:48

我是艾迪說數據

簡介:感謝大家的關注