Sora訓練數據來源YouTube?OpenAI化身“小偷”

三易生活 2024-04-07 21:08:19

不久前,OpenAI用一款號稱“世界模擬器”的文生視頻大模型Sora秀了把肌肉,再次向外界證明它依舊還是AI這個賽道的領跑者。不過就在最近,Sora卻似乎讓OpenAI陷入了麻煩中。日前,《華爾街日報》和《紐約時報》先後報道了AI公司在收集高質量訓練數據上遇到困難,其中特別是正與OpenAI打官司的《紐約時報》更是直接點明了,OpenAI采集了超一百萬小時的YouTube視頻來訓練GPT-4。

緊接著,谷歌公司發言人Matt Bryant表示,“我們的robots.txt文件和服務條款都禁止未經授權的抓取或下載YouTube內容”。YouTube CEO尼爾・莫漢更是在接受彭博社采訪時表示,盡管沒有直接證據表明OpenAI使用了YouTube視頻來訓練Sora,但他警告稱這種行爲違反了YouTube現行的服務條款。事實上,YouTube CEO如此含沙射影不僅是針對《紐約時報》的報道,更是諷刺OpenAI CTO米拉·穆拉蒂無法明確Sora訓練數據的來源。

此前米拉·穆拉蒂在被《華爾街日報》記者問及Sora訓練數據的來源時,所使用的表述是,“我實際上並不確定(I'm actually not sure about that)”。甚至于在被問及OpenAI是否使用圖片素材平台Shutterstock的數據時,這位OpenAI的CTO都在回避問題。要知道,Shutterstock與OpenAI早在2021年就達成了合作, 允許OpenAI使用該平台的圖片、視頻、音樂來訓練AI模型,並且爲了安撫藝術家,Shutterstock更是曾出錢補償了作品被OpenAI使用的藝術家。

米拉·穆拉蒂這般災難性的發言,直接引爆了外界對于OpenAI缺乏透明度和不合規數據抓取行爲的質疑。事實上,OpenAI目前確實面臨著缺乏“公開、且經過許可”數據的窘境。

根據《紐約時報》的相關報道顯示,OpenAI在2021年耗盡了有用的數據供應,並在耗盡其他資源後討論了轉錄YouTube視頻、播客和有聲讀物的可行性。甚至OpenAI內部確實知道使用YouTube平台的內容會存在法律問題,但認爲這是合理使用,OpenAI總裁Greg Brockman更是親自參與了所使用視頻內容的收集。

然而“公開的數據”並不等于“公開數據”,盡管有相當多的數據確實公開發布在互聯網上,但這並不等于這些數據的主人就願意無償共享。那麽有哪些直接暴露在互聯網上的數據是可以毫無顧忌地使用呢?OpenAI訓練ChatGPT就是合規利用互聯網公開數據的正面典型。據悉,OpenAI用到了Common Crawl、維基百科、美國專利文件數據庫,其中維基百科是最知名的開源軟件項目之一,而Common Crawl也是一個抓取互聯網、並提供數據開源下載的開源數據庫。

維護這些公開數據源的人幾乎都是以開放、平等、協作、共享爲代表的互聯網精神的信徒,只是隨著整個互聯網行業越來越商業化,這樣的互聯網精神也在逐漸凋零,以至于類似維基百科這樣的項目如今已屈指可數。當願意免費分享數據的組織不再能滿足OpenAI的胃口時,付費購買數據其實也是一條出路。但問題是OpenAI的出價打動不了版權方,目前願意向其出售數據的版權方並不多。

以媒體爲代表的版權方通常希望將數據賣個高價,因爲從目前ChatGPT、GPT-4、Sora等大模型表現出的能力,它們最先替代的可能不是理科生、而是文科生,諸如AI寫新聞、AI作畫、AI生成視頻也幾乎都是在掏空媒體的根基。事實上,版權方不是不接受出賣絞死自己的絞繩,但OpenAI方面每年100萬至500萬美元的價碼顯然不夠有誠意。可OpenAI實際上也給不出太高的價格,因爲他們需要的數據實在太多,數據采購的預算盡管可能很多,但攤薄到每一家頭上就只有不到500萬美元了。

如此一來,OpenAI會以合理使用爲借口,做出抓取YouTube視頻內容的操作也就不足爲奇了。事實上,自互聯網行業蓬勃發展以來,數據爬取就一直處于灰色地帶。或者說“天下烏鴉一般黑”,幾乎就沒有互聯網廠商在數據收集這件事上是完全無懈可擊的。比如,搜索引擎爬蟲機器人互相爬取數據早已是公開的潛規則,可版權方對待搜索引擎和對待AI大模型則完全是兩幅面孔。

robots協議這樣一個“君子協定”爲何能長期存在,並且網站還會專門進行SEO、給搜索引擎的爬蟲優化可訪問的內容和結構呢?還不是因爲搜索引擎對于網站而言是有益的,會爲網站帶來了流量,而有了流量就能賣廣告或是用其他方式變現。

所以雙贏就是搜索引擎孜孜不倦爬取數據,卻沒有讓版權方沸反盈天的原因。可反觀AI大模型卻幾乎是不存在利他性的,OpenAI拿走數據也只會讓自己的估值更高,ChatGPT Plus賺的錢也沒看到分給YouTuber一美分。

從某種意義上來說,OpenAI這次被推上風口浪尖,其實從側面也表明了這家AI獨角獸同樣存在缺陷,也就是數據嚴重依賴外界供給。隨著各大廠商都陸續下場做AI大模型,OpenAI就會面臨著一個無可避免的問題,那就是他們沒有自己的內容平台,甚至內容平台全都是友商旗下的。

而且即使微軟想要給OpenAI提供數據也不容易,因爲隨著現階段越來越多用戶對于個人隱私的重視程度提升,幾乎所有的用戶協議中都會寫明,“我們獲取你的信息是爲了更好地服務你,對這些信息我們承諾不會與第三方共享”。

此前沒有拿出ChatGPT的OpenAI尚且還可以“偷偷發育”,可現在的OpenAI早已處于舞台中心,所以留給他們閃轉騰挪的空間自然也就越來越小了。

0 阅读:5

三易生活

簡介:專注IT,最快最專業資訊!