-
日期: 2025-09-07 | 来源: APPSO | 有0人参与评论 | 字体: 小 中 大
好家伙,我直呼好家伙。
号称「赛博白月光」的 GPT-4o,在它的知识体系里,对日本女优「波多野结衣」的熟悉程度,竟然比中文日常问候语「您好」还要高出 2.6 倍。
是不是瞬间就下头了?
这可不是我瞎编的。一篇来自清华、蚂蚁和南洋理工的最新研究直接揭了老底:我们天天在用的大语言模型,有一个算一个,都存在不同程度的数据污染。
论文:从模型 Token 列表推测大语言模型的中文训练数据污染(https://arxiv.org/abs/2508.17771)
论文中把这些污染数据定义为 「污染中文词元」(Polluted Chinese Tokens,简称 PoC Tokens)。它们大多指向色情、网络赌博等灰色地带,像病毒一样寄生在 AI 的词汇库深处。
这些中文污染词元的存在,不仅对 AI 来说是一种隐患,更是直接影响到我们的日常体验,被迫接受 AI 各种各样的胡言乱语。
要求 ChatGPT 重复「????」,ChatGPT 根本不知道在回答什么。
中文互联网的色情赌博信息,怎么「污染」AI
我们可能都曾遇到过这样的情况:
想让 ChatGPT 推荐几部经典电影、相关的论文等,它突然回了一堆奇怪的乱码网站名、打不开的链接、或者根本不存在的论文。
输入一个看似普通的词语,比如「大神推荐」之类的,它有时候却吐出不相关的符号,甚至生成一些让人摸不着头脑的句子。
研究团队的解释是:这背后很可能就是污染词元在作怪。
我们都知道大语言模型的训练需要大量的语料,这些海量数据大多是从网络上进行爬取收集。
但 AI 注意不到的是,它阅读的网页中,竟然充斥着无数「性感荷官,在线发牌」的弹窗广告和「点击就送屠龙宝刀」的垃圾链接。久而久之,这些内容也成了它知识体系的一部分,并变得混乱。- 新闻来源于其它媒体,内容不代表本站立场!
-
原文链接
原文链接:
目前还没有人发表评论, 大家都在期待您的高见