爲了給大模型找語料,有人開始進行“互聯網考古”

三易生活 2024-04-30 20:39:34

過去一年,AI大模型無疑是科技行業中最亮眼的主角,從FAAMG到BAT、再到一衆初創企業,無數優秀的大腦、海量的資源都投入到了這個有望解放人類生産力的賽道中。圍繞構建更強大的AI大模型,科技巨頭、AI獨角獸更是展開了一輪又一輪的厮殺,對于算法、數據、算力的爭奪如今也已達到了白熱化狀態,其中特別是數據資源更是成爲了重中之重,畢竟沒有它來作爲燃料,不光無法訓練更強的大模型、現有的大模型也可能會“熄火”。

爲了收集更多的數據、或者說是語料來澆灌大模型,“買買買”就成爲了一衆AI廠商的解決方案,例如谷歌每年花6000萬美元從Reddit手中買數據,OpenAI更是付費購買了施普林格出版集團旗下出版物的內容。眼見財大氣粗的AI廠商揮舞鈔票,越來越多的人也開始意識到了語料的價值。

日前照片分享社區EyeEm突然變更了服務條款,宣布將默認使用平台上的照片來訓練AI大模型。

據悉,EyeEm方面通過郵件通知用戶,該公司在其條款和條件中添加了一項新的條款,授予其"複制、分發、公開展示、轉換、改編、制作衍生作品、向公衆傳播和/或推廣"用戶內容的權利,包括用于培訓、開發和改進軟件、算法和機器學習模型,用戶有30天的時間可選擇退出,否則就默認爲同意這一用途,未來用戶想要從EyeEm及其合作夥伴平台上刪除內容可能需要長達180天。

一石激起千層浪,EyeEm此舉幾乎是將觊觎用戶照片的想法擺在了台面上。要知道,在當下這個用戶普遍重視個人隱私的時代,用突然更改用戶協議的方式來表示自己准備將收集的用戶數據作爲AI訓練的語料,就等于是直接與用戶交惡。

那麽問題就來了,爲什麽EyeEm會搞出這種幾乎屬于自絕于用戶的操作呢?當然是因爲身不由已。

成立于2010年的EyeEm,曾被視爲全球知名圖片社交平台Instagram在歐洲市場的競爭對手,前者在最鼎盛時期曾擁有超過2000萬名活躍的優秀視覺創作者。並且與Instagram不同的是,EyeEm非常受攝影師的青睐,因爲其推出了極具商業價值的Mission功能,可以讓品牌向EyeEm社區衆包照片,幫助平台上的攝影師賺到錢。

然而遺憾的是,EyeEm這樣一個將商業化與社區建設恰如其分融合到一起的廠商,最終還是被Instagram碾壓了。在Instagram被Meta收購後,前者借助Meta的社交網絡成功席卷全球,但與之相對應的是,2018年之後EyeEm就開始走下坡路,到了2021年,這家公司被瑞士社交網站Talenthouse以4000萬美元的價格收購。只可惜在Talenthouse手中的EyeEm也沒能起死回生,因爲普通用戶並不需要兩個圖片分享社區。

到了2022年年中,EyeEm已經無法按時向攝影師支付報酬。隨後在2023年4月,EyeEm正式申請破産保護。同年10月,這家僅剩3名員工的公司,被西班牙在線平面設計資源網站Freepik收購。

顯而易見,在申請破産保護之後,EyeEm就已經只是一個空殼了,用戶規模也萎縮至15萬人。對于一個非技術導向、或者說産品導向的互聯網公司來說,從2000萬用戶衰退到15萬,也就意味著EyeEm已經無法說服用戶繼續使用他們的産品了。

Freepik之所以收購EyeEm,就是爲了後者所擁有的1.6億張圖像資源。Freepik已然成爲一個數據掮客,爲了向AI大模型廠商出售語料資源,而買下了已經失去經營價值的EyeEm。從某種意義上來說,Freepik也算是獨具慧眼,發現了EyeEm這樣一家注定玩完的互聯網公司的剩余價值。

要知道自從進入新世紀以來,嘗試在互聯網行業進行創業的團隊不知幾凡,但畢竟Meta、X、Reddit這樣的成功者只是少數,更多的初創公司最終都成爲了“炮灰”。只不過在這一衆失敗者裏,有不少是曾經煊赫一時的存在,但他們最終因爲種種原因陷入了沉寂。而在AI大模型爆發以前,類似EyeEm這樣的失敗者其實是毫無價值的,因爲它們的商業模式失敗了,競爭對手脫穎而出。

然而當下最火熱的AI大模型需要海量的數據來澆灌,在同等條件下,預訓練時投餵的數據越多,AI大模型的性能就越強,這已經是業界的共識。只是優質數據總歸是稀缺資源,根據人工智能研究機構epoch的預測,語言數據可能在2030至2040年耗盡,其中能訓練出更優性能的高質量語言數據甚至可能在2026年就被耗盡。在這種情況下,EyeEm這類沉澱了數據資源的失敗者,突然就變得有了價值。

因此有了Freepik的珠玉在前,未來可能會有越來越多公司去嘗試從互聯網創業的失敗者身上挖掘可能存在的數據資源,進而讓互聯網考古不再是部分網民的興趣,更有可能真正變成一門生意。

0 阅读:2

三易生活

簡介:專注IT,最快最專業資訊!