數字人或成新趨勢!數據銷毀數據授權等安全風險須前置治理

夢舞清愁 2024-04-28 10:23:46

AI鄧麗君如何翻唱周傑倫的《千裏之外》?袁隆平院士的仿真語音又是如何生成?在第13期南都數字經濟治理論壇“AI複活”主題研討現場,來自中國科學院信息工程研究所的正高級工程師韓冀中,給與會嘉賓帶來了上述場景的LIVE 演示,並分享科普了其背後的AIGC技術原理及數據安全治理挑戰。從“AI孫燕姿”到“AI李玟”“AI高以翔”, 從“虛擬歌手一秒出專輯”到當下“複活逝者”的火爆業務,AIGC行業的發展可謂一日千裏。在韓冀中看來,雖然生成式人工智能技術離真實大規模落地距離尚有一定距離,但在商業應用場景的豐富速度上還是非常迅猛的。韓冀中認爲,“數字人也許會改變互聯網的信息流,引發數字時代的新趨勢,互聯網或將進入人機共生的時代,更多與個人日常生活相關的數據會上網“,與此同時,大模型服務質量的提升也有賴于高質量的訓練數據,但是企業能否合規留存與使用個人數據,如何保護個人隱私安全,仍是一個具有挑戰性的問題。”

在《數字人生成技術及其風險》的主旨演講中,韓冀中總結了全球AIGC當前主要的模態技術路徑:在文本方面體現爲聊天機器人技術;音頻方面包含了語音內容的聲音克隆、音色模仿以及歌曲生成技術;圖像和視頻方面則是以人爲主體的身份替換、說話人生成、人物定制化生成,以及聚焦于環境且基于文本指導的圖像或視頻生成。“對周傑倫的音頻輸入,首先盡可能地去除他的音色,而保留其中的歌詞、語氣等信息,隨後再使用專屬于鄧麗君的vits模型爲其添上鄧麗君的音色。” 韓冀中以語音生成領域爲例,介紹稱當前該領域主要包括音色遷移、聲音克隆等主流技術形態。“聲音克隆主要基于卷積神經網絡和大規模語音的預訓練模型,比如只要輸入袁老的既往語音來提供音色,再加上一段文本,就能克隆出對應音頻。”韓冀中演示稱。他同時表示,“在音樂生成行業比較敏感的話題,則主要是涉及音樂版權的問題,相關業務領域的訓練數據來源目前也存在風控漏洞。“會上韓冀中表示,在AI複活親人的案例中,可以綜合利用這些工具,比如使用定制化文生圖技術生成親人頭像、使用聲音克隆技術複制親人音色、使用文字生成技術生成對話內容、使用音頻驅動視頻生成技術來驅動親人的頭部動作等。“對AI複活逝者的追尋是有代價的。”韓冀中坦言,對數字人來說,技術上可以實現和親人聊天交流,甚至能將一些記憶的對話場景寫入數據庫,作爲大模型的提示詞,生成複原當時場景的對話。而從相應的技術需求來說,"AI複活親人”爲了做到惟妙惟肖,在數據層面需要收集一定規模高質量的逝者面部圖像和聲音數據,他以包小柏提到的對女兒遺産信息的使用授權爲例,“如何保障這些逝者海量的敏感隱私數據在被授權後的合理存儲、使用與清洗,是一個新的安全挑戰。”他強調,依照《互聯網信息服務深度合成管理規定》,訓練數據包含個人信息的,應當遵守個人信息保護的有關規定。AI服務提供者若在未獲得數據主體(即逝者家屬或法定繼承人)的明確同意下收集逝者的個人數據,如聲音或圖像,就是侵犯了逝者的隱私權。而即便在獲得授權的情況下,服務提供者對于使用逝者數據的方式仍可能超出原授權的範圍,如未經授權用于模型訓練,“這種行爲可能對逝者家屬造成嚴重傷害。”與此同時,隨著合成內容的效果越來越逼真,如果未明確標識,容易引發混淆,加劇網絡虛假信息的泛濫。”韓冀中一針見血。而根據《互聯網信息服務深度合成管理規定》,深度合成服務提供者所提供的深度合成服務,可能導致公衆混淆的,應當在生成或者編輯的信息內容的合理位置、區域進行顯著標識。此外,韓冀中還同時提到,如何甄別公司發布的數字人技術是否使用了某個隱私數據,在技術上也在探索階段,目前的檢測技術還需要企業配合提供測試接口,純粹的黑盒測試仍有一定困難,因此“在一些企業不配合的情況下也很難探知它是否使用過一些無授權的隱私數據。爲此,我們團隊也正在開展相關研究,如有進展,會再向大家彙報與交流。

0 阅读:10

夢舞清愁

簡介:提供銷毀和處置,爲IT圈服務,伴CIO成長