短視頻AI技術再突破!支持在線直播!蒙娜麗莎唱饒舌太魔性了!

小布科技展 2024-04-19 12:56:55

微軟亞洲研究院最近發表了最新論文。介紹了所謂的最新VASA-1模型。只需要一張靜態肖像圖片就可以讓圖中的人物自動說話。這項技術其實已經面世了。只不過現在還不成熟。

而VASA-1模型就彌補了這項技術方面的一些缺點。首先是在表情細節方面。這款模型能模擬是非常自然的。而且情緒表情能和唇部進行同步。最重要的是通過VASA-1模型做出來的視頻基本上是沒有人工痕迹的。如果不是玩梗。那麽很難分辨出來。

但是這樣的一個頂尖模型並不是十全十美的。首先就有一個最大的缺點就是在處理頭發方面。這種非必要性的因素目前這款模型還是無法妥善處理,不過比起來其他同類型的AI來說。這款模型做出來的視頻顯然更加優秀。

而且這款模型能做到的地步遠遠不止于此。甚至它還可以生成動態短視頻。比如我們只需要一張張學友的照片和張學友唱歌的音頻。就可以完美的呈現出來一個完整的短視頻。當然,這種行爲是不可取的。畢竟還是侵犯了別人的肖像權的。

但是顯然微軟沒有這方面的顧忌,不僅使用了別人的肖像權。還使用了意大利蒙娜麗莎的畫像進行了AI生成。咱這個腦子是完全想象不到蒙娜麗莎唱饒舌到底是個什麽畫面。而且微軟實在是太大膽了。真的不怕意大利舉國吐槽你們啊!

這款模型除了支持在線生成,還支持離線。在離線模式下可以生成45FPS,分辨率爲512*512的短視頻。如果這還不夠驚豔你的話!這款模型還支持在線直播!而還能達到40FPS。延遲才僅僅170ms。而如果想要達到這種效果的話。只需要在電腦上加裝一台RTX4090顯卡就可以做到了。

這種事情對于整個短視頻行業,甚至直播行業都有著深遠的影響。不得不說這種簡單的操作如果真的應用到現實上。估計國內的那些抖音用戶們真的會把這款模型給玩出來花。當然,目前這款模型距離大規模投入使用還有一段時日。不過大家也不要太不當回事了。

個人觀點:前有讓古人說話,今有蒙娜麗莎唱繞舌。祖宗輩的人算是讓你們玩明白了。小編覺得現在科技發展的太厲害了。而且有心之人也會拿這種視頻去做壞事的。也希望大家警惕,不知道各位對于這種情況如何看待呢?歡迎評論區留言討論!!

1 阅读:39

小布科技展

簡介:一個喜歡科技,追求科技的小豆包