“天工音樂大模型”開啓公測,綜合性能超越SunoV3

速途網 2024-04-17 15:09:09

速途網4月17日消息 在“天工”大模型一周年之際,昆侖萬維“天工3.0”基座大模型與“天工SkyMusic”音樂大模型正式開啓公測。據介紹,“天工3.0”擁有4000億參數,超越了3140億參數的Grok-1,是全球最大的開源MoE大模型,在MMBench等多項權威多模態測評結果中,“天工3.0”超越GPT-4V,全球領先;“天工SkyMusic”是中國首個音樂SOTA模型,綜合性能超越Suno V3,是中國自研大模型技術第一次在AIGC領域領跑全球。

天工3.0多模態性能超越GPT-4V,全球領先

昆侖萬維董事長兼CEO方漢在接受采訪時表示,昆侖萬維較早投入算力采買,目前已經擁有接近萬卡的訓練資源,這些算力足夠支撐天工的持續叠代,以及文生視頻的模型訓練;同時,方漢也對大模型開閉源之爭發表了自己的看法,他認爲:開源大模型是一種生態的構建器,它更利于滿足用戶的長尾需求,開源和閉源大模型是一個生態的組成部分,大家都有自己的生存空間,也都有更好的明天。

中國首個音樂AIGC SOTA模型,“天工SkyMusic”綜合性能超越Suno V3

一直以來,AI音樂行業大量研究都集中在符號音樂生成技術路線上,並且大多只能實現無人聲背景音樂(Background Music,BGM)的生成,音樂的質量、效果、審美都遠遠達不到可用水平。所以,在AI音樂生成領域,全球始終在期待“音樂ChatGPT時刻”。

“天工SkyMusic”自研AI音樂大模型技術架構

與行業主流路徑不同,“天工SkyMusic”采用自研大模型音樂音頻生成技術路線。這一路線直接通過大模型技術實現樂器、人聲、旋律、音量、音符的一體化端到端音樂生成,技術難度極大,全球只有包括昆侖萬維在內的極少數頂尖玩家參與。

在與海外頂尖的AI音樂大模型Suno V3的橫向測評中,“天工SkyMusic”在人聲&BGM音質、人聲自然度、發音可懂度等領域顯著領先對手,並以6.65分的綜合得分超越Suno V3,成爲全球AI音樂SOTA模型(SOTA全稱是state of the art,是指在特定任務中目前表現最好的方法或模型)。

(天工SkyMusic綜合性能超越Suno V3,取得音樂大模型SOTA,領跑全球)

此外,“天工SkyMusic”還擁有獨創的參考音樂生成與方言歌曲生成能力。即用戶可上傳參考音樂,生成風格、唱腔類似的歌曲,大大降低降低了音樂大模型的使用門檻;同時支持粵語、成都話、北京話等衆多方言。

天工3.0:4000億參數,全球最大開源MoE大模型

“天工3.0”實現了全面的性能升級,采用了4000億級參數MoE混合專家模型架構,是目前全球模型參數最大、性能最強的開源MoE模型。

據介紹,“天工3.0”的邏輯推理能力、語義理解能力、應對複雜需求能力、內容創作能力全面升級,並新增了多輪搜索與綜合工具調用、圖表繪制、研究模式、增強模式、改圖擴圖等多項AI能力,爲用戶帶來全新AI體驗。

多輪搜索與綜合工具調用:“天工3.0”針對模型獨立規劃、調用、組合外部工具及整合信息的能力進行了專項訓練,使其能夠獨立生成並調用代碼,完成包括産業研究、産品橫評、信息分析、圖片生成、圖表繪制等多種複雜用戶需求。

同時,“天工3.0”能夠通過強大的語義理解能力將用戶任務拆解成細分環節,實時判斷是否需要聯網或調用工具,進行單輪或多輪的聯網搜索、工具調用,完成包括多輪搜索、熱點信息分析、圖片生成等複雜用戶需求。

昆侖萬維董事長兼CEO方漢:開閉源大模型都有生存空間,公司算力已達萬卡

據了解,昆侖萬維已圍繞“天工”系列大模型建起AI大模型、AI搜索、AI音樂、AI視頻、AI社交、AI遊戲等AI業務矩陣,是國內模型技術與工程能力最強、布局最全面的人工智能科技企業之一。

對于昆侖萬維的算力儲備,昆侖萬維董事長兼CEO方漢表示:“昆侖萬維已經投入了足夠的資金去進行GPU采買,而且啓動GPU采買比較早,從2022年七八月份就已經開始采買,價格比較合適,目前可以公開宣布的數字是我們大概有接近萬卡的訓練資源,我覺得在中國應該來算是位于前列的。而且這些算力足夠支撐天工的叠代,以及文生視頻的模型訓練。”

對于開源和閉源大模型路線,方漢認爲,“開源模型同閉源模型的差距其實是在縮短的,2023年到今年這一年間,從落後兩年以上已經進化到落後只剩4至6個月以上。閉源的一些産品在特性以及長尾需求的滿足上反而落後于開源大模型,所以我們認爲開源大模型它實際上是一種生態的構建器,它更利于滿足用戶的長尾需求,所以我個人認爲開源和閉源大模型是一個生態的組成部分,不能說誰壓倒誰,而是說大家都有自己的生存空間,也都有更好的明天。”

據悉,昆侖萬維還推出了國內第一款AI搜索引擎“天工AI搜索”、開源了百億級大語言模型“天工Skywork-13B”、推出國內領先的AI Agent開發平台“天工SkyAgents”等一系列前沿大模型産品。此次公測的“天工3.0”在語義理解、邏輯推理、通用性、泛化性、不確定性知識、學習能力等領域擁有突破性的性能提升,數學/推理/代碼/文創能力提升超過30%。

0 阅读:2

速途網

簡介:中國互聯網行業門戶網站和輿論、社交陣地