國産神級AI登場！高啓強化身羅翔，蔡徐坤變Rap之王，還跟Sora聯動

作者|香草

編輯| 心緣

開局一張圖，後期可以全靠AI了！

智東西2月29日報道，繼視頻生成模型Sora橫空出世、語音克隆創企ElevenLabs用AI爲Sora演示視頻配音相繼爆火全網後，國産AI模型又在視頻生成領域整了個大事！

只用輸入一張圖+一段音頻，就能讓照片裏的人物動起來並開口說話：比如讓張國榮翻唱陳奕迅的歌，讓高啓強用羅翔的聲音講普法課，把蔡徐坤變成“Rap之王”，還跟Sora生成的超逼真東京街頭散步女子視頻玩起了聯動。

▲EMO生成的Sora東京街頭散步女子唱歌的視頻

這是阿裏通義實驗室團隊亮出的新絕活——肖像視頻生成框架EMO（Emote Portrait Alive）。

用單張照片+任意語速的人聲音頻，EMO就能根據音頻時長，生成對應時長的視頻，並保持角色身份的一致性，讓照片裏的人物開口說話唱歌，語言涵蓋普通話、粵語、日語、韓語、英語等，而且表情自然、聲畫同步，頭部姿勢也很靈活，細節處理細致到連頭發絲都會隨之晃動。

別的不說，對AI視頻解說、AI動漫制作、短視頻制作、讓逝去人物複活等應用場景而言，這可是妥妥的生産力工具！

效果多以假亂真呢？比如輸入一張高啓強的照片和厚大法考講解音頻，這位黑幫大佬就能立馬化身羅翔，搖頭晃腦地爲你講起法來。

▲EMO生成高啓強化身羅翔普法的視頻

讓蔡徐坤唱姆爺的快嘴Rap，EMO也能輕松拿捏，嘴型匹配度強到離譜。

▲EMO生成蔡徐坤演繹美國說唱歌手埃米納姆《Rap God》的視頻

雖然細看之下，人物表情還做不到百分百自然，但能實現這麽流暢、表現力逼真的圖片轉動態視頻效果，已經是相當強的AI進化。這讓會動會說話的照片，不再是哈利波特魔法世界的專屬。

這麽強的音頻驅動視頻效果，是怎麽做到的？

目前該項目還未開源代碼，我們僅能從項目簡介和論文中一探究竟。

項目主頁：https://humanaigc.github.io/emote-portrait-alive/

論文地址：https://arxiv.org/abs/2402.17485

一、AI“複活”赫本、張國榮，中英日韓語都能拿捏

EMO支持不同語言的歌曲輸入，能直觀地識別音頻中的音調變化，從而生成動態的、表情豐富的肖像。

你可以讓奧黛麗·赫本演唱一曲英國歌手艾德·希蘭的《Perfect》，隨著歌曲旋律，她會做出挑眉、皺眉等細微的表情變化。

第二條唱歌的演示視頻由一個繪畫模型ChilloutMix繪制的女孩來示範，她生動地表演了一首陶喆的《Melody》，音頻來自藝人甯藝卓翻唱的版本。在唱到一些高音部分時，她甚至還會做出皺鼻子等發力的表情。

除了普通話，粵語歌也能輕松對上口型。下面這條演示視頻是張國榮翻唱陳奕迅的《無條件》，音頻來源于網絡，也是由AI生成的。

二次元風格的人像也能動起來。比如，你可以讓動畫《進擊的巨人》中的角色Ymir Fritz親自演唱動畫片尾曲《衝撃》。與真人和三維人物相比，她的表情管理更沉穩一些。

在翻唱Kpop名曲《SOLO》時，這位AI生成的女孩十分投入，臉上的輪廓線條也會隨著口型變化而變化。

唱到動情處，AI生成的蒙娜麗莎還會閉上雙眼，仿佛沉浸在音樂中。

如果想聽Rap，小李子可以用還沒發福的臉爲你演繹埃米納姆的《GODZILLA》。雖然中間偶爾會出現“翻白眼”等瑕疵，但總體擬合程度還是很高的。

在談話任務上，EMO同樣能爲角色注入逼真的動作和神態。

例如這條蒙娜麗莎講話的視頻，開頭一清嗓子，那個神韻就立馬拿捏住了。雖然蒙娜麗莎沒有眉毛，但EMO還是讓她的眉骨部位隨著語調做出不同表情，連雙下巴都靈動了起來。

下面這條Ymir Fritz說話視頻中的音頻來自遊戲《尼爾：機械紀元》。AI生成二次元頭像，再輸進EMO讓其開口說話，如果穩定性再高一些，或許能直接形成工作流，用在遊戲或動畫制作中。

EMO擴大了不同文化背景下人物塑造的可能性，例如你可以看到高啓強講法，也可以看到經典電影角色小醜表演《蝙蝠俠：黑暗騎士》中的台詞。

EMO還讓Sora生成視頻中的女子直接化身OpenAI CTO米拉·穆拉蒂。

同一段采訪剪輯，可以由赫本本人來重現，也能由AI生成的《底特律：成爲人類》遊戲角色克洛伊（Chloe）來展示。

最後一個演示視頻，EMO讓一個AI生成的女生表演了不同語氣的幾句話，她展現出豐富的表情：撇嘴無奈、挑眉震驚，還有尴尬而不失禮貌的微笑。不過最後在做一些較爲誇張的表情時，其面部出現一些失真。

總的來看，EMO框架實現了面部表情、頭部姿勢的豐富性和自然性，雖然有時也會出現翻白眼、口型對不准等失誤，但瑕不掩瑜，整體效果十分驚豔。

二、EMO技術解讀：基于穩定擴散模型，兩種注意力機制交叉執行

EMO框架提供了一種新穎的方法，采用直接從音頻到視頻的合成方式，不需要複雜的3D模型或面部標記，即可生成富有表現力的視頻。

▲EMO工作流程（圖源：論文）

爲了建立一個新的說話頭像框架，作者提出一種利用擴散模型生成能力的方法，該方法消除了中間表示或複雜預處理，簡化了創建具有高度視覺和情感保真度的肖像視頻的過程。

EMO采用穩定擴散（Stable Diffusion，SD）模型作爲基礎框架，它的優勢在于既能降低計算成本，又能保持較高的視覺保真度。

EMO框架主要分爲兩個階段，整體工作流程如下圖所示：

▲EMO整體框架（圖源：論文）

第一個階段名爲幀編碼（Frames Encoding），利用ReferenceNet從參考圖像和運動幀中提取特征，旨在保持視頻中角色的一致性。

第二個階段是擴散處理（Diffusion Process），雲訓練的音頻編碼器處理音頻嵌入，面部區域掩碼與多幀噪聲相結合，用來控制面部圖像的生成，隨後利用主幹網絡（Backbone Network）進行去噪。

主幹網絡具有與SD 1.5類似的UNet結構，其中交叉執行了兩種形式的注意力機制：參考注意力（Reference-Attention）和音頻注意力（Audio-Attention）。這兩種機制在潛在編碼和語音特征之間交叉執行，分別用于保持人物身份和調節人物動作。此外，時序模塊（Temporal Modules）用于操控時間維度和調整運動速度。

參考注意層中，ReferenceNet具有與主幹網絡相同的結構，用于從輸入圖像中提取詳細特征。目標角色的圖像被輸入ReferenceNet，以提取自注意層輸出的參考特征圖。由于ReferenceNet主要用于處理單個圖像，因此不含主幹網絡中的時間層。

語音中的發音和語調是生成肖像運動的主要驅動信號。在音頻注意層，從輸入音頻中提取出的特征通過預訓練的語音識別模型Wav2vec進行連接，得到每一幀的音頻表示嵌入。爲了計算運動受未來/過去音頻片段的影響，例如說話前的張嘴和吸氣，作者通過串聯附近幀的特征來定義每個生成幀的語音特征。

大多數模型都會在預訓練的文本到圖像架構中插入時序混合層，以促進對連續視頻幀之間時間關系的理解和編碼。受文生視頻框架AnimateDiff架構概念的啓發，EMO將自關注時序層應用于幀內特征。具體來說，EMO將輸入特征圖重構，在時序維度上進行自我關注，以有效捕捉視頻的動態內容，時序層被插入主幹網絡的每個分辨率層。

在視頻時長方面，受一些方法采用前一個片段結尾的幀作爲後續生成初始幀的啓發，EMO采用了前一個生成片段的最後n個幀，稱之爲“運動幀”（Motion frames），將其輸入參考網絡，以預提取多分辨率運動特征圖。在主幹網絡的去噪過程中，EMO會將時序層輸入與預提取的運動特征圖進行合並，從而有效確保不同片段之間的一致性。

值得注意的是，雖然主幹網絡可能會反複多次對噪聲幀進行去噪處理，但目標圖像和運動幀只需連接一次並輸入參考網絡。因此，提取的特征會在整個過程中重複使用，確保推理過程中的計算時間不會大幅增加。

爲了訓練模型，作者構建了一個龐大而多樣化的音視頻數據集，收集了超過250小時的視頻素材和超過1.5億張圖像，涵蓋多種語言的演講、電影、影視剪輯及歌唱表演，此外還補充了大型戶外高分辨率視聽數據集HDTF和高質量的視頻人臉數據集VFHQ的內容。

在與同類型方法DreamTalk、SadTalker、Wav2Lip等的比較中，EMO在FID、FVD、E-FID等3個指標上表現最佳，它們分別衡量視頻質量、單幀質量和面部表情生動度。

▲EMO與其他肖像視頻生成方法的定量比較（圖源：論文）

不足方面，作者稱一是與不依賴于擴散模型的方法相比，EMO更耗時；其次，由于模型訓練過程中沒有使用任何明確的控制信號來控制角色的運動，可能會導致無意中生成其他身體部位，從而在視頻中産生僞影。

三、4個月連發6個項目，阿裏全方位布局AI視頻

近期，阿裏持續圍攻AI視頻賽道，短短4個月內連發至少6個新項目。比起Sora等主攻視頻生成長度和質量的模型，阿裏團隊的項目似乎更注重于算法在不同視頻生成形式上的具體應用。今年1月，通義千問上線了“全民舞王”，憑借“兵馬俑跳科目三”出圈了一把。

1、I2VGen-XL：圖像+文字生成高質量視頻

該算法發布于2023年11月8日，利用靜態圖像作爲關鍵指導形式來確保輸入數據的對齊，代碼和模型已開源。I2VGen-XL由兩個階段組成，一是基礎階段，通過使用兩個分層編碼器保證連貫的語義並保留輸入圖像的內容；二是細化階段，通過合並額外的簡短文本來增強視頻的細節，並將分辨率提高到1280×720。

項目主頁：https://i2vgen-xl.github.io/

2、AnimateAnyone：一張圖讓任何角色跳舞

AnimateAnyone發布于2023年11月29日，能夠通過角色照片生成受姿勢序列控制的動畫視頻，“全民舞王”功能背後用到的技術正是這一算法。

據論文介紹，AnimateAnyone也是基于SD基礎模型，同時引入了ReferenceNet來保持細節特征的一致性，Pose Guider來控制角色的動作，以及Temporal-Attention來保證視頻幀之間的平滑過渡。

項目主頁：https://humanaigc.github.io/animate-anyone/

3、DreaMoving：一張圖讓角色在任意地點跳舞

DreaMoving發布于2023年12月9日，是一個基于SD的可控視頻生成框架，用于生成高質量的定制人物視頻。它在AnimateAnyone的基礎上，增加了對文本輸入的支持，通過輸入一張圖像和一段描述文字，能夠生成目標人物穿著不同衣物在不同背景上跳舞的視頻。

項目主頁：https://dreamoving.github.io/dreamoving/

4、DreamTalk：EMO前身？跨風格生成說話肖像

2023年12月16日，阿裏與清華大學、華中科技大學等聯合發布了DreamTalk，與EMO一樣針對富有表現力的頭像生成。DreamTalk由三個關鍵組件組成：降噪網絡、風格感知唇部專家和風格預測器，分別用于合成一致的由音頻驅動的面部運動、指導唇部同步和說話風格，以及直接從音頻預測目標表情。

相較于DreamTalk給出的演示，可以看出在2個多月的時間內，EMO在技術上實現了巨大的突破。

項目主頁：https://dreamtalk-project.github.io/

5、TF-T2V：使用無文本視頻擴大文本到視頻生成

2023年12月26日，阿裏發布了TF-T2V，它可以直接使用無文本視頻學習，擴展了現有的視頻生成技術，其背後的基本原理是將文本解碼過程與時間建模過程分開。代碼和模型已公開。

項目主頁：https://tf-t2v.github.io

6、Motionshop：使用3D模型替換視頻角色

Motionshop發布于今年1月16日，是一個用3D模型替換視頻中角色的框架。該框架由兩部分組成，分別是用于提取修複背景視頻序列的視頻處理管道，以及用于生成頭像視頻序列的姿勢估計和渲染管道。據稱，通過並行兩條管線並使用高性能光線追蹤渲染器TIDE，整個過程可以在幾分鍾內完成。

項目主頁：https://aigc3d.github.io/motionshop/

結語：AI視頻賽道湧現更多新玩法

在AI視頻這個賽道上，阿裏另辟蹊徑，從新玩法、新形式上開發了不少有趣的項目，這也給國內其他玩家提供了一條新思路：不一定非要死磕AI生成的視頻時長或分辨率等參數，從應用的角度出發也能讓人眼前一亮。

目前，這些項目大多還處于“期貨”階段，暫未開放代碼或試用入口。不過可以預見到的是，EMO等項目一旦落地産品，在影視、遊戲、社交媒體等行業都大有可爲。

它可以用于創建角色動畫和虛擬演員，爲遊戲角色創建動態表情和動作，降低成本並提高創作靈活性；或者像“兵馬俑跳科目三”一樣刷屏短視頻平台，爲創作者提供新形態的創作方式。

任何技術都有兩面性，EMO、Sora等AI視頻生成算法也帶來關于隱私、版權和倫理的新討論。如果眼見不再爲實，我們該如何分辨真實和虛擬？AI電信詐騙、AI造謠等都是可能存在的風險。

未來我們期待看到更多像“全民舞王”一樣好玩的應用落地，讓AI視頻賽道百花齊放。隨著這類音頻驅動圖像的AI工具走向普及，內容創作和娛樂産業將迎來全新可能。

娛樂新聞吧

國産神級AI登場！高啓強化身羅翔，蔡徐坤變Rap之王，還跟Sora聯動

智東西