AI侵權風波又來了!英偉達遭作家聯合訴訟,內容權益之爭再升級

烏鴉智能說 2024-03-13 14:17:25

3月10日,英偉達陷入了一場關于侵權的法律爭議,美國作家Brian Keene, Abdi Nazemian和Stewart O'Nan聯合控訴英偉達使用他們的原創書籍作品作爲其人工智能生成平台NeMo的原始訓練數據。

英偉達被指控侵權作品

訴訟涉及的具體作品包括 Keene的《幽靈漫步》(Ghost Walk)、Nazemian的《像一個愛情故事》(Like a Love Story)和O'Nan的《龍蝦的最後一夜》(Last Night at the Lobster)。

訴訟稱,這些書籍被包含在一個名爲 "The Pile" 的數據集中,該數據集包含了196,640本圖書作爲基礎模型的訓練材料。去年十月,英偉達已經撤銷了該數據庫的訪問權限,並提示“由于舉報侵權,該數據集已失效,無法訪問。”

截至周日,Nvidia 拒絕發表任何評論,律師也沒有提出進一步了解情況的訴求。

/ 01 / AI與內容創作者之戰

這已不是第一次AI與版權侵權的戰爭。

去年十月,《紐約時報》以侵權使用報道作爲大模型訓練數據將微軟和OpenAI告上法庭,打響了新聞界與大語言模型開戰的第一槍。

今年二月,美國數字新聞媒體The Intercept也參與了對OpenAI未經允許將新聞報道作爲原始數據集的討伐戰。

The Intercept首席執行官Annie Chabel發文:“因資金緊縮,美國大部分新聞編輯室瀕臨倒閉,而OpenAI卻拿著我們的新聞賺地盆滿缽滿。”

案件的法律訴訟上寫道,“ChatGPT看似無所不能,但我們也應該清楚這種百科全書式的知無不答是建立在多少新聞記者的心血之上的。”

新聞業岌岌可危,LLM卻拿著媒體的成果大行其道,記者們將這視爲一種威脅。

去年十二月,因小紅書未經授權使用了其原創作品作爲訓練數據,原畫師@正版青團子將小紅書繪畫模型Trik訴至法院,稱其“侵犯了創作者的合法權益”,這也是AI大模型在國內的首次公堂對簿。

AI與內容創作者的博弈,始于生成式人工智能的核心——數據。

數據是LLM大語言模型的養料,而大語言模型是生成式AI的基座。數據量級越大、越豐富、來源愈異質性愈強,生成的AI基礎模型更加人性化、語義理解能力更強。GPT3驚人的生成能力背後是 570 GB的海量數據和3,000 億單詞,這些數據來自書籍、維基百科、研究文章、網絡文本、網站以及其他形式的網絡內容和寫作。

從GPT1到GPT2、GPT3、GPT4,每一次産品的叠代背後都少不了訓練數據集的指數級飙升。GPT1的訓練數據僅爲5GB,GPT2有40GB,GPT3爲570GB,而最新版本GPT4已經達到了13萬億個token的數據量。科技巨頭爲了爭奪生成式AI市場,會不斷擴充自己的LLM訓練數據庫。而在人工智能發展初期,關于AI侵權,各國法律尚無明文規定。邊界的模糊放大了相關爭議,科技巨頭與內容創作者之間彌漫著一場沒有硝煙的戰爭。

/ 02 / LLM:洗稿?還是深度學習?

有網友認爲,AI生産力是一種僞命題,精心炮制的糖衣背後是對互聯網內容創作者的傷害。也有網友認爲,“重新拼接”的概念是對AI深度學習能力神經網絡運行原理的誤讀。

AI侵權指向了兩個關鍵概念“深度學習”和“洗稿”。

LLM是使用深度學習算法處理和理解自然語言的基礎機器學習模型。深度學習指機器通過自我訓練、學習從海量級原始數據中尋找要素的內在關聯和表示層次,最終達到像人類一樣識別各種文字、圖片、視頻甚至生成相關要素的能力。

洗稿是指在內容創作過程中抄襲、剽竊各種原創作品中具有獨創性受到版權保護的邏輯、素材,經過重新嫁接、拼貼、組合成新的文本。

AI究竟是洗稿還是深度學習,衆說紛纭。

神經科學家兼AI評論員Sam Harris認爲,《紐約時報》起訴 OpenAI 可能會扼殺AI領域的創新力量。他說:"僅僅因爲生成了與《紐約時報》風格類似的文章就被起訴,OpenAI也太冤了。”

斯坦福大學法學教授Mark Lemley則呼籲建立一套保護創作者權益的法律條例,規範AI大模型訓練數據時可能出現的侵犯創作者著作權的行爲。科技分析師Benedict Evans稱,這起訴訟是一個AI侵權史上具有裏程碑意義的事件,"這個事件將會爲後續如何處理AI大語言模型與內容創作者的糾紛奠定一個法律基調。"

其實,就生成式AI的運行原理而言,LLM的學習邏輯並非簡單的組合、拼接、架構,而是深究人類思維的推斷、預測等本質規律和理性決策能力,並不能簡單地等同于“剽竊洗稿”。不過就目前的生成文本而言,在AI基礎模型的學習初期,更多偏向于“模仿”已有訓練材料輸出作品,這就不可避免地帶上了某些原創産品的“獨創性”特質。

其實,大部分侵權案件都指向AI未經許可將原創作品作爲預訓練數據,通過神經網絡等深度學習技術生成了具備原創作品的獨特風格和要素的內容。糾紛的關鍵在于,大模型訓練的數據來源是否合法,AI公司與受著作權保護的創作者們是否達成了某種“允許使用”的約定或協議。

隨著AI産業的發展,全球也將逐漸完善AI法律法規體系,明確AI侵權的構成條件、構成要素,以法律爲准繩制約科技巨頭LLM的訓練數據使用行爲,在法治的軌道上保障AI公司與內容創作者的共贏共利。

0 阅读:17

烏鴉智能說

簡介:人工智能新時代的商業智庫和價值燈塔