【眼觀】AI視頻大模型持續湧現,中國真的沒有機會了?

第三眼界 2024-03-03 22:40:36

頂級AI視頻大模型陸續翻車,阿裏竟然扳回一城?

谷歌的視頻大模型Gemini 1.5 Pro前腳剛上線,Open AI的視頻大模型Sora後腳便一夜刷屏,順便搶了原本屬于谷歌的風頭。結果第一階段的較量還沒結束,雙方便陸續翻車。

近期,外媒通過搶先實測Sora,發現其跟之前的革命性表現存在巨大差距,用“大翻車”來形容,毫不爲過。有記者表示,由于對算力需求巨大,Sora生成的視頻,鹦鹉、猴子傻傻分不清,而且生成的速度還巨慢。

初看視頻沒什麽問題,但細節經不起,並且即便反複調整提示語(prompt),也難以達到完美的效果。變幻莫測的爪子,猴子嫁接鹦鹉尾巴,鹦鹉脖子忽然“卡斷”等等,各種違背生物常識的事情接連出現。

另外,交叉腿、6根手指的情況也未能避免。

谷歌也好不到哪去,盡管其新發布的基礎世界模型Genie,可根據合成圖像、照片、草圖生成動作可控的2D“遊戲”世界。但低像素的“遊戲”畫質,距離現實還有很長的路要走。

而其另一個備受矚目的Gemini大模型,也一言難盡。在宣傳視頻引發造假的爭議後,Gemini又因給出具有種族偏見的反饋,遭到包括馬斯克在內的諸多名人以及衆多網友的怒怼。

Sora有Sora的不足,Gemini有Gemini的問題,與初亮相時的高光不同,兩位頭部玩家的接連翻車,多少會讓其他玩家松了一口氣。

而趁這個空檔,不少AI玩家苦戰數日後,也陸續拿出了一些驚人成果,比如PIKA。

在沉寂3個月之後,PIKA終于上新,上線了唇形同步,加上AI音頻廠商的賦能,意在給AI視頻融入真實發音,讓生成的視頻更具真實性和沉浸感。

從演示效果看,確實不錯。但有搶先體驗的用戶表示,PIKA仍有很多可改進的空間。總的來看,人物正面的成功率較大,一旦人物轉換角度,比如側著臉,失敗的概率便大幅提升。

當然,由于目前産品還處在測試階段,有各種各樣的翻車表現也是可以理解的。PIKA在模擬真實人物發音方面還有很長的路要走,不過量變總會慢慢引起質變。

除了PIKA,以色列初創公司Lightricks也于近日推出一款生成式AI電影制作平台—LTX Studio。這款軟件的推出,讓人人皆可制作電影的夢想更進了一步。

據悉,只需要輸入相應文本,就能生成超過25秒的微電影視頻,同時可對鏡頭切換、角色、場景一致性、攝像機、燈光等進行可視化精准控制——簡直有顛覆整個電影工業體系的架勢。

從內容展示看,這款軟件無疑更具革命性。但礙于時長限制,依然存在叠代的空間。

LTX Studio 3月27日將開啓第一批測試,實際成色幾何,我們不妨持續關注。

國內這邊,AI視頻大模型似乎確實慢了不止一拍,但好在也不是集體沉默。比如最近,阿裏發布的AI大模型EMO(Emote Portrait Alive)便在網上引起一陣騷動。

僅需一張人物肖像照片和音頻,EMO就可以讓照片中的人物開口唱歌或說話,口型的吻合度很高,面部表情和姿勢也很自然,並且視頻時長的自由度也很高。

如果說之前的Animate Anyone只是小試牛刀,那麽這次阿裏便結結實實的讓外界刮目相看了。

EMO的思路和PIKA異曲同工,從視頻效果看,其自然程度較PIKA有過之而無不及,這多少可以讓我們國人在AI大模型界挺直腰杆。

PIKA在人物側臉方面已經表現出一些不如人意的地方,EMO會不會有同樣的問題,我們不得而知。鑒于目前EMO尚在技術報告階段,普通人暫時無法親測體驗,對其真實表現我們還是要保持謹慎期待。

Sora的熱度和影響持續蔓延,在靴子落地之前,其他玩家仍有不少機會。只是,面對AI市場競爭提速,留給其他玩家的時間窗口越來越小。

反倒是百度、阿裏、蘋果等有一些基礎的互聯網大玩家,有機會在未來的AI市場競爭格局中占有一席之地。當然,這個可能性也是相對的。一來需要有差異化優勢,二來考驗占領市場的先機。

隨著資本市場看衰類Sora的項目,大玩家反而有了更多挑肥揀瘦、瓜分市場的機會。而此時,也是大玩家收購有潛力小玩家的絕佳契機。

結語:

谷歌和Open AI的翻車似乎可以讓我們人類稍微松一口氣——原來所謂的最強AI不過如此,距離現實還差的很遠。

但正如筆者之前所言,這種“長舒一口氣,然後繼續蒙頭大睡”的做法其實是最不可取的。AI正在你看不見的地方,瘋狂生長,超越人類不過是時間問題。

而這個時間看似漫長,卻不過是眨眼之間。

0 阅读:55

第三眼界

簡介:分享商業洞察,開拓思想新知