走獨立自主研發之路,「天工SkyMusic」打造本土最強AI音樂大模型

曉東科技秀 2024-04-12 17:32:10

最近這段時間,SUNO刷屏了全球科技圈。

這是國外一家AI初創公司研發的一款文本生成音樂工具,用戶只需輸入幾句歌詞,選擇自己喜歡的音樂風格,便可創作出屬于自己的一首歌。很多網友把它稱爲AI音樂的CHATGPT時刻。

但事實上,在大洋彼岸的中國科技界,同樣精彩的故事也正在發生。

自從4月2日推出以後,國內首款AI音樂生成大模型「天工SkyMusic」産品體驗廣受關注。

和SUNO一樣,「天工SkyMusic」的操作門檻也非常低,用戶只需輸入歌詞,再參考一些音頻,一首AI音樂就搞定了。

目前,「天工SkyMusic」是國內唯一公開可用的AI音樂生成大模型。

我們來看看「天工SkyMusic」的用戶們都整了哪些花活兒~

周傑倫不出新專輯,好,那就用AI寫一首歌催更吧!話說這首參考《哪裏都是你》生成的AI歌曲還真有點周氏情歌那味道了~

下班的鍾聲敲響,老板卻通知要開會。還能怎麽辦呢,不如用AI寫一首歌表達一下自己的精神狀態~!

突然想起中學時期最難背的《滕王閣序》,何不唱詩爲歌,寓教于樂?

選擇一條難卻值得的路

或許有人會問,CHATGPT爆紅後,國內很快就如雨後春筍出現了各種類似的産品。

但爲何在AI音樂生成領域,國內卻只有「天工SkyMusic」一枝獨秀?爲什麽沒有別的公司來做這件事?

當面對一條少有人選擇的路時,可能意味著這條路上會有更多的困難和挑戰。

其實,做AI音樂生成,原本是還有一條路可以走的——符號音樂生成,我們簡稱爲“符號派”。

符號派以MIDI爲主流,全稱是Musical Instrument Digital Interface。

它的基本原理是將音樂轉化爲一系列符號或代碼,比如音符、音高、音量、音色信息,然後通過對這些符號進行處理和組合來生成新的音樂作品。

要注意,MIDI是不能直接生成歌曲的,仍然需要後期加入樂器、旋律、音色以及人聲等元素。

然而,「天工SkyMusic」選擇了一條更難的路——大模型音樂音頻生成路線。

它是怎麽做到的?「天工SkyMusic」公開了自己的技術路徑,我們在這裏可以找到答案。

在「天工SkyMusic」的架構中,一部分叫Large-scale Transformer,它負責把音樂串起來,學習音樂片段之間的聯系,確保音樂聽起來順暢;

另一部分叫Diffusion Transformer,它負責唱歌,把音樂片段變成高質量的聲音。

這樣一來,「天工SkyMusic」能夠生成80秒長、44100Hz 采樣率雙聲道立體聲歌曲。

巧合的是,「天工SkyMusic」框架與Sora非常類似,不過別誤會,但「天工SkyMusic」在研發的時候Sora還沒出現呢。

總而言之,「天工SkyMusic」不但把它選擇的路走通了,還走到了“國內唯一公開可用”的行業地位。

它不僅讓音樂創作變得更加簡單、高效,也爲音樂産業注入了新的活力。

通過「天工SkyMusic」,任何人都可以成爲音樂創作者,都可以創作出高質量的音樂作品。

這不僅爲音樂愛好者提供了一個展示自己創作才華的平台,也爲專業音樂人提供了一個快速實現創意的工具。

做中文歌,還得是看本土大模型

「天工SkyMusic」最突出的功能亮點之一,就是其“以假亂真”的清晰人聲。

它能夠創作出極高中文水平的清晰人聲音樂作品,音頻質量和逼真的演唱效果,秒殺同一賽道內幾個國外選手。

這源于其根植于中國本土文化的誕生背景。相對于海外對手,「天工SkyMusic」對中文語言的理解和處理有天然的優勢,更准確地把握語言的韻律、節奏以及中文獨有的意境。

舉例來說,如近期火到連上熱搜的#成都迪士尼#,網友可以用「天工SkyMusic」輕松玩梗,創作不同風格版本的“迪士尼”神曲,其“造梗、玩梗”的潛力和創意實力,深受用戶喜歡,用戶玩得越開心,「天工SkyMusic」就能湧現更多的創作熱情,並且激發全民音樂創作的高潮。

「天工SkyMusic」還能通過歌詞來控制歌曲,生成的歌曲能夠明確分辨出不同歌詞段落的情緒變化,恰好與中文本身自帶節奏和韻律的特點,完美地融合,因此,一首歌也能明顯地體現出主歌和副歌、前奏和主歌之間的差別。

此外,「天工SkyMusic」能支持說唱、民謠、放克、古風、電子等多種音樂風格,最大化的滿足用戶的創作嘗鮮的樂趣。

用戶可以通過參考特定音頻,創作想要的音樂風格,則對沒有專業背景的小白用戶極爲友好。

未來,隨著「天工SkyMusic」等技術的不斷發展和完善,我們有理由相信,人工智能將會成爲音樂創作的重要助手,爲音樂産業帶來更多的驚喜和創新。

0 阅读:10

曉東科技秀

簡介:謹小慎微評手機,放心大膽聊風月、聯想吧小吧主。