生成式人工智能的數據困境

米言看科技 2024-04-19 02:51:35
生成式人工智能 (GenAI) 有望爲全球組織提供競爭優勢,是每個企業領導者挂在嘴邊的話題。這對他們的組織意味著什麽?它的使用計劃是什麽?它們能以多快的速度頒布? 迄今爲止,隨著這項技術的指數級增長,許多特定于數據的對話都集中在收集的物流上。因此,它主要關注計算能力、基礎設施、存儲、技能等問題。 但是,GenAI進入主流也引發了一些關于數據使用倫理的更基本的問題——將對話從我們如何做到這一點,發展到我們應該這樣做。在本文中,我們將研究圍繞數據和GenAI出現的三個道德困境的例子,並考慮它們在制定長期AI方法時對公司的影響。 數據困境 1:您應該使用哪些數據?即公共與私人辯論盡管它有所有的承諾,但GenAI的好壞取決于你給它的數據源--因此,公司傾向于使用盡可能多的數據。然而,事情並沒有那麽簡單,它引發了圍繞隱私、偏見和不平等的問題。 在最基本的層面上,您可以將數據分爲兩大類——公共和私有,前者比後者更客觀且更容易受到偏見的影響,一個可以描述爲您希望世界看到的內容,另一個可以描述爲事實。但是,雖然私人數據可能因此更有價值,但它也更加敏感和機密。 從理論上講,像《人工智能法案》這樣的法規應該開始限制私人數據的使用,從而將決定權從公司手中奪走,但實際上,一些國家不會區分這兩種類型。正因爲如此,過于嚴格的法規可能效果有限,並使那些遵循它們的人處于不利地位——可能導致他們的GenAI模型得出劣質或有偏見的結論。 知識産權(IP)領域是類似監管情況的一個很好的例子——西方市場傾向于遵守知識産權法,而東方市場則不然,這意味著東方市場的創新速度遠遠快于西方市場。而且,不僅僅是其他公司可以利用這種數據使用的不平等——網絡犯罪分子在進行攻擊時不會堅持道德的人工智能使用和遵守隱私法,讓那些有效地戰鬥的人被一只胳膊綁在背後。 那麽這樣做的動機是什麽呢? 數據困境 2:您應該將數據保留多長時間?即 GDPR 與 GenAIGenAI 模型是在數據集上訓練的,數據集越大,模型越好,結論越准確。但這些數據集也需要穩定——刪除數據,你實際上是在刪除學習材料,這可能會改變算法可能得出的結論。 不幸的是,這正是 GDPR (通用數據保護法案)規定公司必須做的事情——只在處理數據所需的時間內保留數據。那麽,如果 GDPR 告訴您刪除舊數據怎麽辦?還是有人要求被遺忘? 除了必須重新訓練GenAI模型的財務和可持續性影響外,在自動駕駛汽車的例子中,刪除數據可能會産生非常實際的安全影響。 那麽如何平衡兩者呢? 數據困境 3:如何訓練 GenAI 避免使用機密數據?即安全性與分類根據法律,公司必須保護其數據,否則將面臨巨額罰款。然而,爲了保護他們的數據,他們首先需要對數據進行分類或分類——了解他們正在使用什麽以及如何處理它。 到目前爲止,一切都很簡單,但鑒于公司現在每天創建的大量數據,越來越多的人轉向GenAI來加速分類過程。這就是困難所在。機密數據應被賦予盡可能高的安全等級,並因此與任何GenAI引擎保持良好關系。 但是,如何訓練人工智能對機密數據進行分類,從而避免機密數據,而不向其展示機密數據示例呢?Zscaler 最近的研究表明,全球只有 46% 的受訪組織根據重要性對其數據進行了分類,這對大多數人來說仍然是一個緊迫的問題。 考慮到這些困境,接近GenAI這需要考慮很多因素——而這只是公司在確定其 GenAI 方法時面臨的衆多問題中的三個。那麽,坐以待斃,等待別人制定規則,是不是有理由呢?或者更糟糕的是,忽略它們,以犧牲能夠更快地實施其 GenAI 爲代價? 在回答這個問題時,我相信我們可以從公司發展碳足迹方法的方式中學到很多東西。雖然圍繞這一點的立法越來越多,但花了很多年才達到這一點——我想GenAI也是如此。 就碳足迹而言,公司最終成爲決定和管理其方法的人,但主要基于客戶的壓力。就像客戶開始改變他們的購買習慣以反映品牌的“綠色證書”一樣,我們可以預期他們會懲罰不道德地使用人工智能的公司。 鑒于此,公司應該如何開始負責他們的GenAI方法?1. 盡管可能很誘人,但將公共和私人數據嚴格分開,並盡可能保護您對私人數據的使用。從競爭的角度來看,這可能會對你不利,但從道德上講,不這樣做太危險了。 2. 將這種數據類型分離擴展到 AI 引擎 – 考慮在內部將私有 AI 用于私有數據源,並且不要將私有數據暴露給公共 AI 引擎。 3. 牢記偏見 – 限制基于有偏見的公共信息得出結論且不驗證其內容的 AI。驗證您自己的結果。 4. 必須優先考慮現有法規——確保遵守 GDPR 規則和“被遺忘權”做法。這將意味著考慮重新應用人工智能處理引擎的頻率,並將其納入計劃和預算。 5. 考慮使用預先訓練的 AI 模型或合成數據集來穩定模型並避免機密分類訓練的問題。 6. 不惜一切代價保護您的私有數據源 – 不要讓人工任務簡化(例如數據分類)成爲 AI 數據泄露的不知不覺途徑。有時答案不是GenAI。 7. 將您的私人數據保護擴展到員工 – 爲 GenAI 制定指導方針,包括圍繞允許將數據上傳到工具和安全使用的培訓。 現在就采取行動的必要性組織(或者更准確地說是他們的 IT 和安全部門)面臨著壓力,他們需要盡快鎖定他們的方法,以便他們能夠利用 GenAI 來發揮自己的優勢。 事實上,我們的研究表明,95%的組織已經在以某種形式使用GenAI工具——盡管存在上述安全問題——51%的組織預計從現在到聖誕節,他們對GenAI的使用將大幅增加。 但他們需要找到在不影響我們上面介紹的困境的情況下做到這一點的方法。回到我們的碳足迹比較,你不必准備好所有的答案就可以開始行動——但你確實需要證明你至少從一開始就試圖做正確的事情。
0 阅读:0

米言看科技

簡介:感謝大家的關注