通義千問首次落地天玑9300移動平台!離線也可流暢運行多輪AI對話

芯智訊 2024-03-28 12:52:44

3月28日,阿裏雲與知名半導體公司MediaTek聯合宣布,通義千問18億、40億參數大模型已成功部署進天玑9300移動平台,可離線流暢運行即時且精准的多輪AI對話應用,連續推理功耗增量不到3W,實現手機AI體驗的大幅提升。這是通義大模型首次完成芯片級的軟硬適配,僅依靠終端算力便能擁有極佳的推理性能及功耗表現,標志著Model-on-Chip的探索正式從驗證走向商業化落地新階段。

端側AI是大模型落地的極具潛力的場景之一。利用終端算力進行AI推理,可大幅降低推理成本、保證數據安全並提升AI響應速度,讓大模型可以更好地爲用戶提供個性化體驗。然而,要將大模型部署並運行在終端,需完成從底層芯片到上層操作系統及應用開發的軟硬一體深度適配,存在技術未打通、算子不支持、開發待完善等諸多挑戰。

據了解,通義千問18億參數開源大模型,在多個權威測試集上性能表現遠超此前SOTA模型,且推理2048 token最低僅用1.8G內存,是一款低成本、易于部署、商業化友好的小尺寸模型。天玑9300集成MediaTek第七代AI處理器APU790,生成式AI處理速度是上一代AI處理器的8倍。

阿裏巴巴通義實驗室業務負責人徐棟介紹稱,阿裏雲與MediaTek在模型瘦身、工具鏈優化、推理優化、內存優化、算子優化等多個維度展開合作,實現了基于AI處理器的高效異構加速,真正把大模型“裝進”並運行在手機芯片中,給業界成功打樣端側AI的Model-on-Chip部署新模式。

圖:在天玑9300設備上,可離線完成基于通義千問大模型的AI多輪會話

基于天玑9300芯片,通義千問18億參數大模型在推理方面表現出了極佳的性能與功耗表現,推理時CPU占有率僅爲30%左右,RAM占用少于2GB,推理速度超過20tokens/秒,系列指標均達到業界領先水平,可在離線環境下流暢實現多輪AI對話。據了解,相關成果將以SDK的形式提供給手機廠商和開發者。

此外,雙方團隊也已完成了通義千問40億參數大模型與天玑9300的適配,未來還將基于天玑適配70億等更多尺寸大模型,“打樣”並支持開發更多AI智能體及應用。

MediaTek無線通信事業部副總經理李彥輯博士表示:“阿裏雲的通義系列大模型是AI領域的佼佼者,我們期待通過雙方的合作可以爲應用開發者和終端客戶提供更強大的硬件和軟件解決方案,同時促進生成式AI的端側部署以及AI應用、AI智能體生態的快速發展,爲用戶帶來更多令人興奮的AI産品體驗。”

當天,阿裏雲與MediaTek宣布啓動聯合探索AI智能體解決方案計劃,整合MediaTek天玑移動平台的AI算力及阿裏雲通義千問的大模型能力,爲開發者和企業提供更完善的軟硬聯合開發平台,以更好支持智能終端在端側高能效地實現自然語言理解、複雜決策制定以及個性化服務生成,探索打造真正具備情境感知、自主學習和實時交互功能的下一代智能終端應用生態。

通義大模型已在各行業廣泛落地,包括釘釘、淘寶、一汽紅旗、央視網、浙江大學等衆多應用、企業及機構。“淘寶問問”基于通義千問實現了全新的交互體驗以及更精准的推薦;阿裏雲與中國一汽聯合打造的大模型應用GPT-BI已率先落地,可結合企業數據自動生成分析圖表。

0 阅读:0

芯智訊

簡介:專注于手機、芯片、智能硬件等相關領域的行業資訊報道。