【眼觀】AI視頻大模型持續湧現，中國真的沒有機會了？

頂級AI視頻大模型陸續翻車，阿裏竟然扳回一城？

谷歌的視頻大模型Gemini 1.5 Pro前腳剛上線，Open AI的視頻大模型Sora後腳便一夜刷屏，順便搶了原本屬于谷歌的風頭。結果第一階段的較量還沒結束，雙方便陸續翻車。

近期，外媒通過搶先實測Sora，發現其跟之前的革命性表現存在巨大差距，用“大翻車”來形容，毫不爲過。有記者表示，由于對算力需求巨大，Sora生成的視頻，鹦鹉、猴子傻傻分不清，而且生成的速度還巨慢。

初看視頻沒什麽問題，但細節經不起，並且即便反複調整提示語（prompt），也難以達到完美的效果。變幻莫測的爪子，猴子嫁接鹦鹉尾巴，鹦鹉脖子忽然“卡斷”等等，各種違背生物常識的事情接連出現。

另外，交叉腿、6根手指的情況也未能避免。

谷歌也好不到哪去，盡管其新發布的基礎世界模型Genie，可根據合成圖像、照片、草圖生成動作可控的2D“遊戲”世界。但低像素的“遊戲”畫質，距離現實還有很長的路要走。

而其另一個備受矚目的Gemini大模型，也一言難盡。在宣傳視頻引發造假的爭議後，Gemini又因給出具有種族偏見的反饋，遭到包括馬斯克在內的諸多名人以及衆多網友的怒怼。

Sora有Sora的不足，Gemini有Gemini的問題，與初亮相時的高光不同，兩位頭部玩家的接連翻車，多少會讓其他玩家松了一口氣。

而趁這個空檔，不少AI玩家苦戰數日後，也陸續拿出了一些驚人成果，比如PIKA。

在沉寂3個月之後，PIKA終于上新，上線了唇形同步，加上AI音頻廠商的賦能，意在給AI視頻融入真實發音，讓生成的視頻更具真實性和沉浸感。

從演示效果看，確實不錯。但有搶先體驗的用戶表示，PIKA仍有很多可改進的空間。總的來看，人物正面的成功率較大，一旦人物轉換角度，比如側著臉，失敗的概率便大幅提升。

當然，由于目前産品還處在測試階段，有各種各樣的翻車表現也是可以理解的。PIKA在模擬真實人物發音方面還有很長的路要走，不過量變總會慢慢引起質變。

除了PIKA，以色列初創公司Lightricks也于近日推出一款生成式AI電影制作平台—LTX Studio。這款軟件的推出，讓人人皆可制作電影的夢想更進了一步。

據悉，只需要輸入相應文本，就能生成超過25秒的微電影視頻，同時可對鏡頭切換、角色、場景一致性、攝像機、燈光等進行可視化精准控制——簡直有顛覆整個電影工業體系的架勢。

從內容展示看，這款軟件無疑更具革命性。但礙于時長限制，依然存在叠代的空間。

LTX Studio 3月27日將開啓第一批測試，實際成色幾何，我們不妨持續關注。

國內這邊，AI視頻大模型似乎確實慢了不止一拍，但好在也不是集體沉默。比如最近，阿裏發布的AI大模型EMO（Emote Portrait Alive）便在網上引起一陣騷動。

僅需一張人物肖像照片和音頻，EMO就可以讓照片中的人物開口唱歌或說話，口型的吻合度很高，面部表情和姿勢也很自然，並且視頻時長的自由度也很高。

如果說之前的Animate Anyone只是小試牛刀，那麽這次阿裏便結結實實的讓外界刮目相看了。

EMO的思路和PIKA異曲同工，從視頻效果看，其自然程度較PIKA有過之而無不及，這多少可以讓我們國人在AI大模型界挺直腰杆。

PIKA在人物側臉方面已經表現出一些不如人意的地方，EMO會不會有同樣的問題，我們不得而知。鑒于目前EMO尚在技術報告階段，普通人暫時無法親測體驗，對其真實表現我們還是要保持謹慎期待。

Sora的熱度和影響持續蔓延，在靴子落地之前，其他玩家仍有不少機會。只是，面對AI市場競爭提速，留給其他玩家的時間窗口越來越小。

反倒是百度、阿裏、蘋果等有一些基礎的互聯網大玩家，有機會在未來的AI市場競爭格局中占有一席之地。當然，這個可能性也是相對的。一來需要有差異化優勢，二來考驗占領市場的先機。

隨著資本市場看衰類Sora的項目，大玩家反而有了更多挑肥揀瘦、瓜分市場的機會。而此時，也是大玩家收購有潛力小玩家的絕佳契機。

結語：

谷歌和Open AI的翻車似乎可以讓我們人類稍微松一口氣——原來所謂的最強AI不過如此，距離現實還差的很遠。

但正如筆者之前所言，這種“長舒一口氣，然後繼續蒙頭大睡”的做法其實是最不可取的。AI正在你看不見的地方，瘋狂生長，超越人類不過是時間問題。

而這個時間看似漫長，卻不過是眨眼之間。

娛樂新聞吧