-
日期: 2026-05-15 | 来源: DeepTech深科技 | 有0人参与评论 | 字体: 小 中 大
诸如《加州消费者隐私法》或欧洲的 GDPR现有的隐私法,这些现有的法律并不覆盖那些已经被抓取并用于训练大语言模型的“公开可用”信息,尤其是其中很多数据已经被匿名化处理了(虽然也有多项研究表明,从匿名化和化名数据中推断出真实身份和个人信息是多么容易)。
至于 AI 公司“有没有系统性地回溯检查过已经从公开互联网上收集的数据,把个人信息清理掉?”金补充说,“完全不知道。”
退而求其次的方案是公司“把所有人的电话号码或所有看起来像电话号码的数据都剔除掉”,金说,但“没有人愿意说自己在这么做”。
托管开源数据集和 AI 模型的平台 Hugging Face 提供了一个工具,用户可以搜索某条数据(比如自己的电话号码)在开源 LLM 训练集中出现过多少次,但这不一定代表那些驱动 Claude、ChatGPT 和 Gemini 等主流聊天机器人的闭源模型里的情况。(比如艾格的号码在 Hugging Face 的工具中就没有显示。)
Gemini 应用和 Google Labs 的传播负责人亚历克斯·约瑟夫(Alex Joseph)没有回应具体提问,但他说团队正在调查《麻省理工科技评论》提出的几个特定案例。他还提供了一个帮助文档的链接,描述用户如何“反对对你个人数据的处理”或“要求修正 Gemini 应用回答中不准确的个人数据”。页面指出公司的回应将取决于用户所在司法管辖区的隐私法。
OpenAI 有一个隐私门户,用户可以提交请求,要求从 ChatGPT 的回答中移除自己的个人信息,但注明公司会权衡隐私请求与公共利益,“如果有合法理由,可能会拒绝请求”。
Anthropic 描述了它在模型训练中如何使用个人数据,但没有提供明确的途径让用户要求删除。该公司没有回应置评请求。
目前,想保护自己隐私数据的人最好的办法是“从源头做起。在下一次抓取之前,把个人数据从公开网络上清除掉。”沙维尔说。比如从今年起,加州已为居民提供了一个网页门户,可以要求数据中间商删除他们的信息。不过这也不能保证你的数据没有已经被用来训练模型——因此仍然可能出现在聊天机器人的回答里。
那位在 Reddit 上求助的用户写道,他“已经向 Google 提交了正式的法律移除/隐私请求,要求紧急将我的号码从他们 LLM 的输出中屏蔽”,但还没有收到回复。他上个月还写道“骚扰每天都在继续”。
以色列软件开发者亚伯拉罕说他在 3 月 17 日(号码被泄露的第二天)就联系了 Google 客服,但直到 5 月 4 日才收到回复,而回复只是要求他提供他已经提交过的材料。
与此同时,受到自己在 Gemini 上隐私被暴露的启发,艾格与吉尔伯特和格奥尔基耶娃一起正在设计一个研究项目,进一步调查各种 AI 聊天机器人在泄露哪些个人信息——以及它们可能知道、但还没有输出的信息。
有些信息“从技术上说是公开的”,吉尔伯特说,但聊天机器人可能正在改变“你找到这些信息所需的努力程度”。以前你要翻十页 Google 搜索结果,或者花钱从数据中间商那里买,现在“生成式 AI 是不是直接降低了针对他人的门槛?”
原文链接:
https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers/- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见