投下文生視頻“炸彈”,Sora是鲇魚還是鲨魚

新京報貝殼財經 2024-03-04 15:10:44

OpenAI首個AI文生視頻模型“Sora”。圖/IC

AI再度帶給人們一次震撼,不過,去年的主角是ChatGPT,今年則換成了Sora。

它們均出自OpenAI(美國開放人工智能研究中心),又都擁有足以“以假亂真”的先進技術。不同的是,去年AI學會人類語言,而今年則掌握了人類看到的畫面。

2023年被稱爲“人工智能元年”,在大語言模型ChatGPT的助推之下,2023年掀起了生成式人工智能的熱潮,活躍的開源環境和多模態模型一同推動了人工智能研究的進步。“如果說2023年是人們意識到人工智能的一年,那麽2024年將是人工智能整合的一年。”美國西北大學計算機科學教授克裏斯蒂安·哈蒙德(Kristian Hammond)對新京報記者指出,人們將想辦法把這些新奇的玩具運用到生活中。

Sora“懂物理”?

2月16日早上,王祚的手機裏收到了一條公衆號推送,文章標題直白且不加掩飾——“現實,不存在了。”

這句看似從科幻小說《三體》中借鑒來的標題吸引了王祚,出于好奇,他打開了這篇推文。文章中講述的是OpenAI推出的視頻生成模型Sora,它使用Transformer架構,可根據文本指令創建現實且富有想象力的場景,生成多種風格、不同畫幅、最長60秒的高清視頻。

OpenAI官網首頁上,一個身著皮衣、打扮時髦的女郎,走在東京夜晚的街頭。畫面或許不足爲奇,一旁的提示詞則格外醒目:這段視頻由AI生成。

繼推出大語言模型ChatGPT後,OpenAI又進軍了視頻生成領域,雖然發布的視頻只是預覽版本,但其視覺效果已然令人咋舌。王祚是一名數字媒體藝術專業的碩士研究生,Sora的出現很快在王祚的同學和老師間引發了討論,從視覺效果到背後技術,以及人工智能可能對數字媒體專業産生的影響。

還在研發中的Sora也並非完美。王祚稱,雖然OpenAI發布的是具有代表性、較爲完美的樣片,但他也看到了其他博主在獲得Sora使用權限後生成的一些視頻,其中個別邏輯有明顯差錯,例如做出吹蠟燭動作後,火苗並沒有隨之熄滅,玻璃杯接觸地板後也沒有應聲摔碎。

Sora之前,文生視頻領域的創業公司主要包括Pika、Runway等。如果將生成“東京女郎”的提示詞同樣輸入Pika文生視頻模型和Runway旗下的Gen-2video文生視頻模型,就能發現Sora對它們的“降維打擊”——不僅生成視頻的質量更好,而且前兩個大模型生成的視頻只有數秒鍾,Sora則可以做到1分鍾。

差距不僅如此。此前AI生成的視頻都是單鏡頭“一鏡到底”,一旦鏡頭切換,角色可能就會發生變化。同時,其人物形象穩定性同樣存在問題,隨著時間的推移,容易發生變化,這也是舊有AI視頻技術的缺陷。

Sora修複了這一問題。OpenAI一則描述“太空人在鹽漠裏的電影預告片”中,Sora創造性地出現了多個鏡頭的切分,而不同角度的鏡頭,視頻主角“太空人”可以看出是同一人。

爲何Sora能夠在視頻生成的質量上明顯領先同業産品?簡單來說,Sora融合了文生文視頻的Transformer架構以及文生圖的DALL·E系統,將二者結合後,“通過讓模型能夠預見多幀內容,團隊成功克服了確保視頻中的主體即便暫時消失也能保持一致性的難題。”

而更爲通俗的說法是,Sora可能通過學習“理解了物理世界”。

英偉達高級科學家範麟熙認爲,Sora是一個數據驅動的物理引擎,“它是對許多世界的模擬,無論是真實的,還是虛構的。該模擬器通過去噪和梯度學習方式,學習了複雜的渲染、直觀的物理、長期推理和語義理解。”

OpenAI介紹,Sora能夠生成包含多個角色、特定運動類型,精確主題以及背景細節的複雜場景,它不僅了解用戶在文本提示中的要求,還能理解所述內容在物理世界中的存在方式,“相信這一能力將是實現通用人工智能的重要裏程碑。”

不過,也有不少業界人士並不認同Sora“懂物理”。Meta首席科學家楊立昆表示,僅根據文字提示生成逼真的視頻,並不代表模型理解了物理世界。

OpenAI也承認尚不完美,稱目前的模型仍存在弱點,Sora生成視頻中可能包含不合邏輯的圖像,混淆左右等空間細節,難以准確模擬複雜場景的物理原理和因果關系實例,但隨著算力的增加,視頻生成功能會變得更加完善。

雖然觀點各異,但絕大多數人認可一點:僅就展現出的生成視頻的效果來看,Sora確實帶來了如同去年ChatGPT一樣的沖擊,讓文生視頻大模型技術發展前進了一大步。

自帶講故事天賦,視頻産業或生變

雖然Sora生成的視頻令外界印象深刻,但在項目研究人員眼中,它最令人吃驚的是那些並沒有被訓練過的能力。《連線》雜志指出,Sora不僅可以大量制作滿足文本提示要求的視頻,它還有一定講故事的天賦。

“Sora通過鏡頭的角度和轉換鏡頭的時機創造了一種敘事推力。”Sora項目研究人員比爾·皮布爾斯說道,實際上視頻中出現了多個鏡頭變化,這些並非拼接到一起,而是由模型一次性生成,“我們沒有告訴它要這麽做,它只是自動做到了。”

Sora出現後,很多人的第一反應是,視頻相關産業將可能遭受巨大沖擊。Sora發布當天,頂流網紅“野獸先生”在OpenAI首席執行官山姆·奧特曼社交賬號下留言:“求求你了山姆,不要讓我沒有工作。”

特斯拉CEO馬斯克則在社交平台上發布短評“GG世界”。(GG是網絡遊戲的用語之一,原指遊戲結束時玩家互相致意,後引申爲“遊戲結束”)。

Sora的驚豔表現頻頻出圈。在Sora生成的一個“毛茸茸小怪物”視頻中,小怪物的毛發紋理極其自然。而此前,移動中的毛發紋理效果往往會耗費動畫公司極大精力,如皮克斯的《怪獸公司》,技術團隊爲毛發紋理耗費了幾個月的時間,而Sora僅依靠AI就生成出來,這顯然是對電影特效工業的一次“彎道超車”。

360公司董事長周鴻祎表示,一旦AI能夠接上攝像頭,觀看並理解世界上所有的電影,它對世界的理解能力將遠遠超過僅僅通過文字學習所能達到的水平。在這種情況下,實現通用人工智能不再是遙不可及的夢想。周鴻祎甚至預測,這一天可能在兩到三年內就會到來,而不是十年或二十年。

美國舊金山早期投資人Zak Kukoff預測,5年內,一個不到5人的團隊將可能用文生視頻模型制作出一部票房收入超過5000萬美元的電影。

DCCI互聯網研究院院長劉興亮告訴新京報記者,Sora模型的發布標志著AI技術在內容創作領域的一個新紀元,“通過簡短的文本提示或一張靜態圖片,Sora能夠生成持續一分鍾左右的1080P高清視頻,涵蓋多個角色、不同類型的動作和背景細節等,幾乎達到了電影級別的逼真場景。這種能力不僅爲內容創作者提供了前所未有的工具,使他們能夠以更低的成本和更快的速度將創意變爲現實,而且爲觀衆帶來了更豐富和多樣化的視覺體驗。技術創新的這一巨大飛躍,預示著AI在未來人類生活的各個方面都將發揮更加重要的作用。”

Sora的出現也讓行業內爲之一振。“Sora的推出標志著人工智能行業向前邁出了一大步。”麥格裏銀行美國人工智能和軟件研究主管弗雷德·哈弗邁耶說道。

新京報記者采訪多位影視行業從業者了解到,影視圈對于Sora的到來並非都持悲觀態度。一位從業者表示,Sora目前只能生成局部細節的視頻,無法在宏觀上把控整體內容,對于影視從業者而言,這類AI可以成爲很好的工具,而不一定會取代人。

人工智能起源(20世紀50年代)

1950年:克勞德·香農提出“計算機能夠和人類進行國際象棋對弈”

1950年:艾倫·圖靈提出“圖靈測試”,機器産生智能這一想法開始進入人們視野

1956年:達特茅斯會議將人工智能定義爲計算機科學的研究領域,標志人工智能學科誕生

1957年:弗蘭克·羅森布拉特發明“感知機”的神經網絡模型,奠定神經網絡基礎

人工智能第一次浪潮(20世紀60年代)

1966年:約瑟夫·維森鮑姆發表論文,研究人類與機器之間自然語言通信的可能性

1968年:愛德華·費根鮑姆提出首個專家系統DENRAL,並初步定義知識庫,孕育第二次人工智能浪潮

人工智能第二次浪潮(20世紀70年代末、80年代)

1979年:名爲BKG9.8的計算機程序在蒙特卡洛世界西洋雙陸棋錦標賽中奪冠

1982年:大衛·馬爾提出視覺計算理論,以及首個較爲完善的視覺系統框架

1988年:朱迪亞·珀爾提出概率方法和貝葉斯網絡,爲後來的因果推斷奠定基礎

人工智能平穩發展期(20世紀90年代左右)

1997年:IBM深藍戰勝國際象棋冠軍卡斯帕羅夫,基于概率推論的新思路在AI領域得到廣泛應用

2001年:約翰·拉夫爾提首次提出條件性隨機場模型,用于文本的分割和標注,在許多自然語言處理任務中表現出色

2003年:戴維·布雷、吳恩達、邁克爾·喬丹提出一種非監督機器學習技術LDA,可用來識別大規模文檔集成或語料庫中潛藏的主題信息

人工智能第三次浪潮(2006年後)

2006年:傑弗裏·辛頓等人提出深度學習,這是機器學習最重要的一個分支

2011年:IBM的沃森人工智能系統在智力競賽《危險邊緣》中戰勝人類,獲得冠軍

2014年:伊恩·古德費洛等人提出生成式對抗網絡的非監督學習方法,通過讓兩個神經網絡相互博弈的方式進行學習

2016年:谷歌旗下DeepMind開發的AlphaGo戰勝圍棋世界冠軍李世石

2022年:ChatGPT問世,通過深度學習和大規模數據訓練,ChatGPT能理解複雜的人類語言,並生成具有連貫性和創造性的回應,人工智能在自然語言處理領域取得一大裏程碑,開啓人工智能新紀元

新京報記者 羅亦丹 栾若曦 劉婧瑜 韋英姿 編輯 王進雨 校對 楊許麗

0 阅读:57