-
日期: 2026-05-15 | 來源: DeepTech深科技 | 有0人參與評論 | 字體: 小 中 大
諸如《加州消費者隱私法》或歐洲的 GDPR現有的隱私法,這些現有的法律並不覆蓋那些已經被抓取並用於訓練大語言模型的“公開可用”信息,尤其是其中很多數據已經被匿名化處理了(雖然也有多項研究表明,從匿名化和化名數據中推斷出真實身份和個人信息是多麼容易)。
至於 AI 公司“有沒有系統性地回溯檢查過已經從公開互聯網上收集的數據,把個人信息清理掉?”金補充說,“完全不知道。”
退而求其次的方案是公司“把所有人的電話號碼或所有看起來像電話號碼的數據都剔除掉”,金說,但“沒有人願意說自己在這麼做”。
托管開源數據集和 AI 模型的平台 Hugging Face 提供了壹個工具,用戶可以搜索某條數據(比如自己的電話號碼)在開源 LLM 訓練集中出現過多少次,但這不壹定代表那些驅動 Claude、ChatGPT 和 Gemini 等主流聊天機器人的閉源模型裡的情況。(比如艾格的號碼在 Hugging Face 的工具中就沒有顯示。)
Gemini 應用和 Google Labs 的傳播負責人亞歷克斯·約瑟夫(Alex Joseph)沒有回應具體提問,但他說團隊正在調查《麻省理工科技評論》提出的幾個特定案例。他還提供了壹個幫助文檔的鏈接,描述用戶如何“反對對你個人數據的處理”或“要求修正 Gemini 應用回答中不准確的個人數據”。頁面指出公司的回應將取決於用戶所在司法管轄區的隱私法。
OpenAI 有壹個隱私門戶,用戶可以提交請求,要求從 ChatGPT 的回答中移除自己的個人信息,但注明公司會權衡隱私請求與公共利益,“如果有合法理由,可能會拒絕請求”。
Anthropic 描述了它在模型訓練中如何使用個人數據,但沒有提供明確的途徑讓用戶要求刪除。該公司沒有回應置評請求。
目前,想保護自己隱私數據的人最好的辦法是“從源頭做起。在下壹次抓取之前,把個人數據從公開網絡上清除掉。”沙維爾說。比如從今年起,加州已為居民提供了壹個網頁門戶,可以要求數據中間商刪除他們的信息。不過這也不能保證你的數據沒有已經被用來訓練模型——因此仍然可能出現在聊天機器人的回答裡。
那位在 Reddit 上求助的用戶寫道,他“已經向 Google 提交了正式的法律移除/隱私請求,要求緊急將我的號碼從他們 LLM 的輸出中屏蔽”,但還沒有收到回復。他上個月還寫道“騷擾每天都在繼續”。
以色列軟件開發者亞伯拉罕說他在 3 月 17 日(號碼被泄露的第贰天)就聯系了 Google 客服,但直到 5 月 4 日才收到回復,而回復只是要求他提供他已經提交過的材料。
與此同時,受到自己在 Gemini 上隱私被暴露的啟發,艾格與吉爾伯特和格奧爾基耶娃壹起正在設計壹個研究項目,進壹步調查各種 AI 聊天機器人在泄露哪些個人信息——以及它們可能知道、但還沒有輸出的信息。
有些信息“從技術上說是公開的”,吉爾伯特說,但聊天機器人可能正在改變“你找到這些信息所需的努力程度”。以前你要翻拾頁 Google 搜索結果,或者花錢從數據中間商那裡買,現在“生成式 AI 是不是直接降低了針對他人的門檻?”
原文鏈接:
https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers/- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見