Sora訓練數據來源YouTube？OpenAI化身“小偷”

不久前，OpenAI用一款號稱“世界模擬器”的文生視頻大模型Sora秀了把肌肉，再次向外界證明它依舊還是AI這個賽道的領跑者。不過就在最近，Sora卻似乎讓OpenAI陷入了麻煩中。日前，《華爾街日報》和《紐約時報》先後報道了AI公司在收集高質量訓練數據上遇到困難，其中特別是正與OpenAI打官司的《紐約時報》更是直接點明了，OpenAI采集了超一百萬小時的YouTube視頻來訓練GPT-4。

緊接著，谷歌公司發言人Matt Bryant表示，“我們的robots.txt文件和服務條款都禁止未經授權的抓取或下載YouTube內容”。YouTube CEO尼爾・莫漢更是在接受彭博社采訪時表示，盡管沒有直接證據表明OpenAI使用了YouTube視頻來訓練Sora，但他警告稱這種行爲違反了YouTube現行的服務條款。事實上，YouTube CEO如此含沙射影不僅是針對《紐約時報》的報道，更是諷刺OpenAI CTO米拉·穆拉蒂無法明確Sora訓練數據的來源。

此前米拉·穆拉蒂在被《華爾街日報》記者問及Sora訓練數據的來源時，所使用的表述是，“我實際上並不確定（I'm actually not sure about that）”。甚至于在被問及OpenAI是否使用圖片素材平台Shutterstock的數據時，這位OpenAI的CTO都在回避問題。要知道，Shutterstock與OpenAI早在2021年就達成了合作，允許OpenAI使用該平台的圖片、視頻、音樂來訓練AI模型，並且爲了安撫藝術家，Shutterstock更是曾出錢補償了作品被OpenAI使用的藝術家。

米拉·穆拉蒂這般災難性的發言，直接引爆了外界對于OpenAI缺乏透明度和不合規數據抓取行爲的質疑。事實上，OpenAI目前確實面臨著缺乏“公開、且經過許可”數據的窘境。

根據《紐約時報》的相關報道顯示，OpenAI在2021年耗盡了有用的數據供應，並在耗盡其他資源後討論了轉錄YouTube視頻、播客和有聲讀物的可行性。甚至OpenAI內部確實知道使用YouTube平台的內容會存在法律問題，但認爲這是合理使用，OpenAI總裁Greg Brockman更是親自參與了所使用視頻內容的收集。

然而“公開的數據”並不等于“公開數據”，盡管有相當多的數據確實公開發布在互聯網上，但這並不等于這些數據的主人就願意無償共享。那麽有哪些直接暴露在互聯網上的數據是可以毫無顧忌地使用呢？OpenAI訓練ChatGPT就是合規利用互聯網公開數據的正面典型。據悉，OpenAI用到了Common Crawl、維基百科、美國專利文件數據庫，其中維基百科是最知名的開源軟件項目之一，而Common Crawl也是一個抓取互聯網、並提供數據開源下載的開源數據庫。

維護這些公開數據源的人幾乎都是以開放、平等、協作、共享爲代表的互聯網精神的信徒，只是隨著整個互聯網行業越來越商業化，這樣的互聯網精神也在逐漸凋零，以至于類似維基百科這樣的項目如今已屈指可數。當願意免費分享數據的組織不再能滿足OpenAI的胃口時，付費購買數據其實也是一條出路。但問題是OpenAI的出價打動不了版權方，目前願意向其出售數據的版權方並不多。

以媒體爲代表的版權方通常希望將數據賣個高價，因爲從目前ChatGPT、GPT-4、Sora等大模型表現出的能力，它們最先替代的可能不是理科生、而是文科生，諸如AI寫新聞、AI作畫、AI生成視頻也幾乎都是在掏空媒體的根基。事實上，版權方不是不接受出賣絞死自己的絞繩，但OpenAI方面每年100萬至500萬美元的價碼顯然不夠有誠意。可OpenAI實際上也給不出太高的價格，因爲他們需要的數據實在太多，數據采購的預算盡管可能很多，但攤薄到每一家頭上就只有不到500萬美元了。

如此一來，OpenAI會以合理使用爲借口，做出抓取YouTube視頻內容的操作也就不足爲奇了。事實上，自互聯網行業蓬勃發展以來，數據爬取就一直處于灰色地帶。或者說“天下烏鴉一般黑”，幾乎就沒有互聯網廠商在數據收集這件事上是完全無懈可擊的。比如，搜索引擎爬蟲機器人互相爬取數據早已是公開的潛規則，可版權方對待搜索引擎和對待AI大模型則完全是兩幅面孔。

robots協議這樣一個“君子協定”爲何能長期存在，並且網站還會專門進行SEO、給搜索引擎的爬蟲優化可訪問的內容和結構呢？還不是因爲搜索引擎對于網站而言是有益的，會爲網站帶來了流量，而有了流量就能賣廣告或是用其他方式變現。

所以雙贏就是搜索引擎孜孜不倦爬取數據，卻沒有讓版權方沸反盈天的原因。可反觀AI大模型卻幾乎是不存在利他性的，OpenAI拿走數據也只會讓自己的估值更高，ChatGPT Plus賺的錢也沒看到分給YouTuber一美分。

從某種意義上來說，OpenAI這次被推上風口浪尖，其實從側面也表明了這家AI獨角獸同樣存在缺陷，也就是數據嚴重依賴外界供給。隨著各大廠商都陸續下場做AI大模型，OpenAI就會面臨著一個無可避免的問題，那就是他們沒有自己的內容平台，甚至內容平台全都是友商旗下的。

而且即使微軟想要給OpenAI提供數據也不容易，因爲隨著現階段越來越多用戶對于個人隱私的重視程度提升，幾乎所有的用戶協議中都會寫明，“我們獲取你的信息是爲了更好地服務你，對這些信息我們承諾不會與第三方共享”。

此前沒有拿出ChatGPT的OpenAI尚且還可以“偷偷發育”，可現在的OpenAI早已處于舞台中心，所以留給他們閃轉騰挪的空間自然也就越來越小了。

娛樂新聞吧

Sora訓練數據來源YouTube？OpenAI化身“小偷”

三易生活