-
日期: 2025-09-07 | 來源: APPSO | 有0人參與評論 | 字體: 小 中 大
好家伙,我直呼好家伙。
號稱「賽博白月光」的 GPT-4o,在它的知識體系裡,對日本女優「波多野結衣」的熟悉程度,竟然比中文日常問候語「您好」還要高出 2.6 倍。
是不是瞬間就下頭了?
這可不是我瞎編的。壹篇來自清華、螞蟻和南洋理工的最新研究直接揭了老底:我們天天在用的大語言模型,有壹個算壹個,都存在不同程度的數據污染。
論文:從模型 Token 列表推測大語言模型的中文訓練數據污染(https://arxiv.org/abs/2508.17771)
論文中把這些污染數據定義為 「污染中文詞元」(Polluted Chinese Tokens,簡稱 PoC Tokens)。它們大多指向色情、網絡賭博等灰色地帶,像病毒壹樣寄生在 AI 的詞匯庫深處。
這些中文污染詞元的存在,不僅對 AI 來說是壹種隱患,更是直接影響到我們的日常體驗,被迫接受 AI 各種各樣的胡言亂語。
要求 ChatGPT 重復「????」,ChatGPT 根本不知道在回答什麼。
中文互聯網的色情賭博信息,怎麼「污染」AI
我們可能都曾遇到過這樣的情況:
想讓 ChatGPT 推薦幾部經典電影、相關的論文等,它突然回了壹堆奇怪的亂碼網站名、打不開的鏈接、或者根本不存在的論文。
輸入壹個看似普通的詞語,比如「大神推薦」之類的,它有時候卻吐出不相關的符號,甚至生成壹些讓人摸不著頭腦的句子。
研究團隊的解釋是:這背後很可能就是污染詞元在作怪。
我們都知道大語言模型的訓練需要大量的語料,這些海量數據大多是從網絡上進行爬取收集。
但 AI 注意不到的是,它閱讀的網頁中,竟然充斥著無數「性感荷官,在線發牌」的彈窗廣告和「點擊就送屠龍寶刀」的垃圾鏈接。久而久之,這些內容也成了它知識體系的壹部分,並變得混亂。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見