新火種AI|中國首個自研視頻大模型Vidu上線！中國人也有了自己的Sora...

作者：小岩

編輯：彩雲

4月27日，未來人工智能先鋒論壇在2024中關村論壇年會人工智能主題日舉辦。在本次論壇上，有一件裏程碑式的事件發生：生數科技聯合清華大學正式發布中國首個長時長，高一致性，高動態性視頻大模型Vidu。

國內首個純自研的視頻大模型，究竟有何特別之處？

根據介紹，該模型采用了團隊原創的Diffusion與Transformer融合的架構U-VT，支持一鍵生成長達16秒，分辦率高達1080P的高清視頻內容。Vidu不僅能夠模擬真實物理世界，還擁有豐富想象力，具備多鏡頭生成，時空一致性高等特點。

值得一提的是，Vidu是自Sora發布之後，全球率先取得重大突破的視頻大模型，性能全面對標國際頂尖水平，並在加速叠代提升中，完全有能力與Sora抗衡。

根據現場演示的效果，Vidu能夠模擬真實的物理世界，生成細節複雜且符合真實物理規律的場景，諸如合理的光影效果，細膩的人物表情等。此外，它還具有豐富的想象力，能夠生成真實世界不存在的虛構畫面，創造出具有深度和複雜性的超現實主義內容，譬如“畫室裏的一艘船正在海浪中駛向鏡頭”。

Vidu還能夠生成複雜的動態鏡頭，不只局限于簡單的推，拉，移等鏡頭，而是能夠圍繞統一主體在一段畫面裏實現遠景，近景，中景，特寫等不同鏡頭的切換，直接生成長鏡頭，追焦，轉場等效果也不在話下，給視頻注入豐富的鏡頭語言。

需要說明的是，短片中的片段都是從頭到尾的連續生成，沒有明顯的插幀現象。通過這種“一鏡到底”的表現能夠推測出，Vidu采用的是“一步到位”的生成方式，從文本到視頻的轉換是直接且連續的，在底層算法實現上是基于單一模型完全端到端生成，不涉及中間的插幀和其他多步驟的處理。

Sora推出兩月後迎頭趕上，Vidu的未來大有可爲。

Sora在今年2月剛剛上線，2個月之後國內便有了Vidu，可見Vidu技術團隊的效率之高。

Vidu 發布後，清華大學 AI 研究院副院長，生數科技首席科學家表示，“在今年2月，文生視頻大模型Sora發布後，我們發現其剛好和我們的技術路線是高度一致的，這也讓我們堅定地進一步推進了自己的研究”。

據悉，Sora發布推出後，Vidu團隊基于對U-ViT架構的深入理解以及長期積累的工程與數據經驗，在短短兩個月進一步突破長視頻表示與處理關鍵技術，研發推出Vidu視頻大模型，顯著提升視頻的連貫性與動態性。

更難得的是，Vidu能夠深刻理解並展現中國元素，特別注重文化適應性，能夠生成具有中國特色的元素，諸如熊貓、龍等等。既爲跨文化交流與傳播提供了有力支持，也爲我們的文化自信注入了新的活力。

概括說來，Vidu的快速突破，離不開算法原理，模型架構，算力資源，數據治理，工程實現這5大要素的完美結合。如今的Vidu正在加速叠代，未來還將兼容更廣泛的多模態能力，爲我們帶來更多驚喜。而Vidu的孵化者生數科技，自成立以來已經獲得了多家知名産業機構的投資，完成了數億元的融資，成爲國內多模態大模型賽道的佼佼者。

從某種程度上說，Vidu很可能先走了一步...

“Vidu，we do, we did, we do together”，這是在Vidu發布後，朱軍教授在朋友圈寫下的一段話。

乍一看上去，Vidu是清華大學聯合大模型創業公司生數科技用兩個半月交出的一份新答卷。但事實上，任何一次驚豔全場都離不開長時間的深耕細作。

根據生數科技的官方介紹， Vidu 模型之所以取得快速突破，源自于該團隊在貝葉斯機器學習和多模態大模型的長期積累和多項原創性成果。早在 2022 年 9 月，出于對標當時剛剛開源的 Stable Diffusion，清華團隊提交了一篇名爲《All are Worth Words: A ViT Backbone for Diffusion Models》的論文，裏面提出了全球首個 Diffusion 與 Transformer 融合的架構，比 Sora 采用的 DiT 架構還要再早兩個月。到了去年 3 月，團隊開源了全球首個基于 U-ViT 融合架構的多模態擴散模型 UniDiffuser，率先完成了 U-ViT 架構的大規模可擴展性驗證，一舉實現了從簡單的文生圖擴展到圖生文，圖文改寫等多種功能。正是基于對 U-ViT 架構的深入理解以及長期積累的工程與數據經驗，團隊才能在短短兩個月裏進一步突破了長視頻表示與處理的多項關鍵技術，成功研發出 Vidu 視頻大模型。

3 月份的 Vidu還只能生成 8 秒的視頻，就連生數科技的CEO都認爲想要達到Sora的版本效果，至少需要3個月的時間。但如今，僅僅一個月的時間，Vidu 就在技術上迎來突破，不僅畫面效果逼近 Sora 的水准，視頻生成的時長也擴展到了 16 秒。

反觀當初被外界一致叫好的Sora，其實也存在著巨大的短板和漏洞。與 Sora 合作的加拿大制作公司Shy Kids就對外界爆料，聲稱“從 Sora 生成的素材到最終成品之間的差距，不亞于買家秀和買家秀的區別。具體來說，生成的原始素材與最終使用素材的比例高達300：1，也就是說，爲得到一秒的有效畫面，制作團隊需要並審查長達 300 秒的原始素材，對篩選和判斷能力提出極高的要求。

這意味著OpenAI的研究人員最初在開發 Sora 的時候，更多地將注意力集中在圖像生成的技術層面，卻沒有考慮到創作者在實際應用中對鏡頭語言的需求。

從某種程度上說，Sora這些尚且存在的短板恰恰給其他競爭者，尤其是咱們國內的研發團隊提供了迎頭趕上寶貴的時間窗口。不光是Vidu，其他一大批有望對標，乃至超越 Sora 的大模型也正在湧現。

跑領先只是一時之快，大模型之戰笑到最後才是贏家。我們相信，Vidu或許會成爲國內第一個有希望追趕 Sora 的視頻生成大模型，但絕不會是唯一的那一個。

娛樂新聞吧

新火種AI|中國首個自研視頻大模型Vidu上線！中國人也有了自己的Sora...

新火種