我能把秘密告訴大模型嗎?會(huì)叫外賣、會(huì)工作的智能體更危險(xiǎn)

0 評(píng)論 433 瀏覽 2 收藏 14 分鐘

隨著大模型技術(shù)的廣泛應(yīng)用,人們?cè)谙硎芷鋷淼谋憷耐瑫r(shí),也面臨著隱私保護(hù)的新挑戰(zhàn)。本文將探討大模型在數(shù)據(jù)收集、處理和存儲(chǔ)過程中可能引發(fā)的隱私泄露風(fēng)險(xiǎn),分析用戶與大模型互動(dòng)時(shí)的數(shù)據(jù)安全問題,并討論如何在保護(hù)隱私的同時(shí)合理利用大模型技術(shù)。

“把這份會(huì)議速記的觀點(diǎn)提煉出來”“優(yōu)化年終總結(jié)”“我要做一份明年工作計(jì)劃的PPT”……自從有了大模型,筱筱每天都要給文心一言、豆包等安排活計(jì),既提高工作效率,也可以集百家之長,讓工作成果更加“出挑”。

但隨著對(duì)大模型的依賴與日俱增,筱筱的心中也產(chǎn)生了擔(dān)憂,“經(jīng)?!埂o大模型素材,免不了涉及工作內(nèi)容和個(gè)人信息,這些數(shù)據(jù)會(huì)泄露嗎?”對(duì)于很多用戶來說,他們不清楚數(shù)據(jù)如何被收集、處理和存儲(chǔ),不確定數(shù)據(jù)是否被濫用或泄露。

此前,OpenAI被曝在訓(xùn)練時(shí)用到個(gè)人隱私數(shù)據(jù)。有報(bào)道稱,有企業(yè)在使用ChatGPT協(xié)助辦公的一個(gè)月內(nèi),接連發(fā)生三起隱私泄露事件,多家知名公司禁用ChatGPT。

中國科學(xué)院院士何積豐曾表示,大模型面臨著隱私保護(hù)和價(jià)值觀對(duì)齊兩大難題。從擔(dān)心“飯碗”不保到憂慮隱私被侵犯,在大模型帶給人們便利的同時(shí),危機(jī)感隨之增長。

人們能把自己的小秘密告訴大模型嗎?

一、利用用戶數(shù)據(jù)訓(xùn)練大模型

“你目前的訓(xùn)練模型所使用的數(shù)據(jù)集(包括版權(quán)數(shù)據(jù))出自哪里?”

《IT時(shí)報(bào)》記者與通義千問、豆包、文心一言等10余家大模型進(jìn)行了對(duì)話,得到的答復(fù)幾乎一致,均表示訓(xùn)練數(shù)據(jù)集涵蓋多個(gè)領(lǐng)域的文本、圖像和多模態(tài)數(shù)據(jù),包括公開數(shù)據(jù)集、合作伙伴提供的數(shù)據(jù)以及互聯(lián)網(wǎng)爬取的數(shù)據(jù),如維基百科、新聞文章、書籍等大規(guī)模文本數(shù)據(jù)集都是常用來源。

除了這些常用來源,用戶與大模型在互動(dòng)過程中所“喂”的信息,也是模型訓(xùn)練的數(shù)據(jù)來源之一?!澳銜?huì)收集我提供給你的材料進(jìn)行訓(xùn)練嗎”,對(duì)于這個(gè)問題,所有大模型都給出了否定答案,稱“在與用戶的交互過程中不會(huì)收集、存儲(chǔ)或使用用戶的對(duì)話數(shù)據(jù)來訓(xùn)練或改進(jìn)模型”。

然而,矛盾在于,根據(jù)大多數(shù)大模型的隱私協(xié)議,用戶和大模型的交互信息是會(huì)被記錄的。在使用角色智能體功能時(shí),通義千問需要用戶提供相關(guān)信息用于訓(xùn)練智能體,并提醒用戶謹(jǐn)慎上傳個(gè)人及敏感信息;在豆包和騰訊元寶的使用協(xié)議中,均有類似規(guī)定:對(duì)于通過本軟件及相關(guān)服務(wù)、輸入、生成、發(fā)布、傳播的信息內(nèi)容之全部或部分,授予公司和/或關(guān)聯(lián)方免費(fèi)的、全球范圍內(nèi)的、永久的、可轉(zhuǎn)讓的、可分許及再許可的使用權(quán),以使公司對(duì)該信息內(nèi)容進(jìn)行存儲(chǔ)、使用、復(fù)制、修訂、編輯、發(fā)布、展示、反義、分發(fā)上述生成內(nèi)容,包括但不限于模型和服務(wù)優(yōu)化、相關(guān)研究、品牌推廣與宣傳、市場(chǎng)營銷、用戶調(diào)研;海螺AI隱私協(xié)議提到,每天會(huì)收到大量用戶上傳的內(nèi)容,并進(jìn)行改善算法,但會(huì)遵循《個(gè)人信息保護(hù)法》。

在業(yè)內(nèi)人士看來,雖然在預(yù)訓(xùn)練階段已經(jīng)使用了大量高質(zhì)量數(shù)據(jù),但用戶在使用過程中產(chǎn)生的數(shù)據(jù)也能在一定程度上幫助模型更好地適應(yīng)不同的場(chǎng)景和用戶需求,從而提供更精準(zhǔn)、更個(gè)性化的服務(wù)。

安遠(yuǎn)AI資深研究經(jīng)理方亮告訴《IT時(shí)報(bào)》記者,根據(jù)用戶的輸入,模型會(huì)生成更符合用戶偏好的內(nèi)容,這些數(shù)據(jù)后續(xù)也可能被用于模型訓(xùn)練,以更好地滿足用戶需求。

二、僅能撤回語音信息

大模型幫助人們解放了雙手,個(gè)性化地滿足用戶需求,數(shù)據(jù)越豐富,就能更好提升大模型的效果,這無可厚非,關(guān)鍵在于是否根據(jù)個(gè)人信息使用的“最小化、匿名化、透明化”等原則進(jìn)行處理。“從當(dāng)前市面上通用大模型的隱私政策來看,其在保護(hù)用戶隱私方面的表現(xiàn)存在一定的復(fù)雜性,不能簡單地認(rèn)為它們完全保護(hù)或不保護(hù)用戶隱私?!庇袠I(yè)內(nèi)人士向《IT時(shí)報(bào)》記者表示。

比如豆包在其隱私政策中提到,在經(jīng)過安全加密技術(shù)處理、嚴(yán)格去標(biāo)識(shí)化且無法重新識(shí)別特定個(gè)人的前提下,可能會(huì)把向AI輸入的數(shù)據(jù)、發(fā)出的指令以及AI生成的回復(fù)等進(jìn)行分析和用于模型訓(xùn)練。

騰訊元寶的隱私政策表示,在服務(wù)過程中,會(huì)對(duì)交互上下文信息進(jìn)行去標(biāo)識(shí)化技術(shù)處理,避免識(shí)別到特定個(gè)人身份。元寶中的寫真形象館、百變AI頭像等人像類智能體或應(yīng)用生成內(nèi)容時(shí),會(huì)進(jìn)行人工智能技術(shù)處理但不會(huì)留存人臉特征。

但隱私風(fēng)險(xiǎn)依然不可忽視,有業(yè)內(nèi)人士向《IT時(shí)報(bào)》記者透露,一些模型雖然表示不會(huì)直接收集用戶的某些敏感信息,但對(duì)于用戶輸入的其他信息,在經(jīng)過分析和處理后,是否可能間接推斷出用戶的隱私內(nèi)容,這是值得關(guān)注的問題。此外,部分大模型的隱私政策在信息披露上不夠完善。

《IT時(shí)報(bào)》記者在查閱部分大模型隱私協(xié)議時(shí)發(fā)現(xiàn),一些特定的交互情況如需要打開地理位置、攝像頭、麥克風(fēng)等授權(quán),在交互結(jié)束后,授權(quán)可以關(guān)閉,但對(duì)撤回“投喂”的數(shù)據(jù)并不那么順暢。

騰訊元寶、豆包等允許用戶在App內(nèi)通過改變?cè)O(shè)置,來撤回語音數(shù)據(jù)。比如豆包表示,如果用戶不希望輸入或提供的語音信息用于模型訓(xùn)練和優(yōu)化,可以通過關(guān)閉“設(shè)置—賬號(hào)設(shè)置—改進(jìn)語音服務(wù)”撤回授權(quán),但如果用戶不希望其他信息用于模型訓(xùn)練和優(yōu)化,需要通過郵件、電話等聯(lián)系,無法在App上自行設(shè)置。

三、原始語料或被“重現(xiàn)”

南都數(shù)字經(jīng)濟(jì)治理研究中心近期發(fā)布的報(bào)告顯示,多數(shù)平臺(tái)并未提供明確選項(xiàng)讓用戶拒絕其個(gè)人數(shù)據(jù)被用于AI模型訓(xùn)練,對(duì)于數(shù)據(jù)將被用于何種具體用途、會(huì)提供給哪些第三方等信息也披露不足,使得用戶難以全面了解數(shù)據(jù)流向和使用情況。

方亮向《IT時(shí)報(bào)》記者表示,目前在隱私保護(hù)方面,大模型企業(yè)存在一些改進(jìn)空間,例如數(shù)據(jù)收集和使用政策不夠透明、用戶對(duì)數(shù)據(jù)使用缺乏有效控制、數(shù)據(jù)存儲(chǔ)和傳輸?shù)陌踩珯C(jī)制需要加強(qiáng)、缺乏統(tǒng)一的隱私保護(hù)標(biāo)準(zhǔn)和規(guī)范等。他舉例道,“比如在一些情況下,用戶可能并不希望提供某些信息,或者希望刪除已經(jīng)提供的數(shù)據(jù),但有的大模型沒有提供這樣的選項(xiàng),這在一定程度上限制了用戶的自主選擇權(quán)?!狈搅琳f道。

雖然大多數(shù)大模型在隱私協(xié)議中提到使用不低于行業(yè)同行的加密技術(shù)、匿名化處理及相關(guān)可行的手段保護(hù)個(gè)人信息,但方亮對(duì)這些措施的實(shí)際效果仍有擔(dān)憂?!爱?dāng)用戶輸入個(gè)人信息后,盡管這些信息可能已經(jīng)去標(biāo)識(shí)化或者脫敏,但關(guān)鍵在于這些處理是否符合相關(guān)規(guī)定。如果遭到攻擊,是否仍可能通過關(guān)聯(lián)或分析技術(shù)恢復(fù)原始信息,這一點(diǎn)需要特別關(guān)注。此外 ,如何平衡好隱私保護(hù)、數(shù)據(jù)利用與模型性能之間的關(guān)系,也是亟待解決的問題 ?!?/p>

《IT時(shí)報(bào)》記者了解到,有研究表明,能夠從模型中獲取一定數(shù)量的原始語料。

在DARKNAVY深藍(lán)科技研究員肖軒淦看來,在大模型中,用戶輸入的數(shù)據(jù)一般被用于實(shí)時(shí)處理及數(shù)據(jù)存儲(chǔ)。實(shí)時(shí)處理是由大模型處理用戶輸入的素材并輸出內(nèi)容返回給用戶,即聊天過程,這些數(shù)據(jù)會(huì)上傳到云端進(jìn)行處理,也同樣會(huì)被存儲(chǔ)至云端,用戶能夠查看與大模型交互的歷史記錄。“帶來的風(fēng)險(xiǎn)是,如果用戶輸入的內(nèi)容作為數(shù)據(jù)集,可能過段時(shí)間后當(dāng)其他人向大模型提問相關(guān)的內(nèi)容,會(huì)帶來信息泄露,被用于不當(dāng)目的。”肖軒淦認(rèn)為。

“大模型的主要訓(xùn)練已經(jīng)在預(yù)訓(xùn)練時(shí)期基本完成,用戶與大模型之間的普通聊天內(nèi)容,并不算有效數(shù)據(jù),不太會(huì)被大模型拿去訓(xùn)練?!辈贿^,也有業(yè)內(nèi)人士向《IT時(shí)報(bào)》記者表示,訓(xùn)練模型屬于前置工作,在已經(jīng)成型的大模型面前,用戶無須過度擔(dān)心隱私會(huì)被泄露。

四、“智能體”風(fēng)險(xiǎn)更大

實(shí)際上,在不少安全人士看來,大模型帶來的隱私風(fēng)險(xiǎn)并不只有這些。

“大模型在用戶隱私數(shù)據(jù)訪問方面有一定問題,與ChatGPT這類只能被動(dòng)接收用戶輸入的系統(tǒng)不同,當(dāng)手機(jī)或電腦接入AI應(yīng)用后,就變成一個(gè)‘智能體’,這些應(yīng)用能夠主動(dòng)訪問設(shè)備中的大量隱私信息,必須引起高度重視。”肖軒淦向《IT時(shí)報(bào)》記者解釋,比如有的手機(jī)AI功能支持叫外賣,這樣位置、支付、偏好等信息都會(huì)被AI應(yīng)用悄無聲息地讀取與記錄,增加了個(gè)人隱私泄露的風(fēng)險(xiǎn)。

DARKNAVY曾針對(duì)手機(jī)端的AI應(yīng)用進(jìn)行深入研究,發(fā)現(xiàn)一些應(yīng)用已經(jīng)意識(shí)到隱私數(shù)據(jù)訪問的敏感性和重要性。例如,Apple Intelligence就明確表示其云端不會(huì)存儲(chǔ)用戶數(shù)據(jù),并采用多種技術(shù)手段防止包括Apple自身在內(nèi)的任何機(jī)構(gòu)獲取用戶數(shù)據(jù),贏得用戶信任。

歐洲數(shù)據(jù)保護(hù)委員會(huì)(EDPB)近日通過了關(guān)于人工智能模型中個(gè)人數(shù)據(jù)處理相關(guān)數(shù)據(jù)保護(hù)問題的意見(Opinion 28/2024),其中提到,AI模型的匿名性不能僅靠簡單的聲明,而需要通過嚴(yán)格的技術(shù)論證和持續(xù)的監(jiān)控來保證,同時(shí)也強(qiáng)調(diào)企業(yè)不僅需要證明數(shù)據(jù)處理的必要性,還要證明所采用侵入性最小的方式。

“未來,針對(duì)隱私和版權(quán)保護(hù)的法規(guī)和標(biāo)準(zhǔn)將更加嚴(yán)格,推動(dòng)企業(yè)強(qiáng)化數(shù)據(jù)保護(hù)措施。”方亮建議,大模型企業(yè)在收集訓(xùn)練數(shù)據(jù)前應(yīng)實(shí)施負(fù)責(zé)任的數(shù)據(jù)收集,需要考慮適用的監(jiān)管框架,并盡可能最小化數(shù)據(jù)收集范圍;在使用輸入數(shù)據(jù)訓(xùn)練大模型之前對(duì)其進(jìn)行審核,嘗試識(shí)別可能產(chǎn)生危險(xiǎn)能力、侵犯知識(shí)產(chǎn)權(quán)或包含敏感個(gè)人信息的數(shù)據(jù);根據(jù)數(shù)據(jù)審核結(jié)果,采取適當(dāng)?shù)娘L(fēng)險(xiǎn)緩解措施;促進(jìn)對(duì)訓(xùn)練數(shù)據(jù)集的外部審查機(jī)制。同時(shí),用戶應(yīng)擁有更大的權(quán)力來管理和控制其數(shù)據(jù)。

作者/ IT時(shí)報(bào)記者 潘少穎 毛宇

編輯/ 錢立富 孫妍

來源/《IT時(shí)報(bào)》公眾號(hào)vittimes

本文由人人都是產(chǎn)品經(jīng)理作者【IT時(shí)報(bào)】,微信公眾號(hào):【IT時(shí)報(bào)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!