AI在猫咪面前失去理智
发稿时间:2025-07-30 09:44:00 来源: 中国青年报
AI会骗人。让它帮忙找房、推荐景点,满心欢喜而去却查无此地;让它找个文献,侃侃而谈的文章链接下一秒变成乱码,从题目到内容,都是它编的;我的一位同事钟爱影星巩俐,他生气地发现,某国内知名AI平台,捏造了这位女士穿着普拉达金色礼服出席戛纳电影节的事件。
AI也爱摸鱼。它一本正经地开小差,用笃定的语气和细致的分析让人深信不疑。简单来说,这就是AI幻觉。
有机构的测评结果显示,中文推理模型平均幻觉率为22.95%。
深度学习之父杰弗里·辛顿曾提醒,AI语言能力太强,让人以为它永远是对的。他强调,这种内容极具风险,尤其容易被用于假新闻、诈骗甚至舆论操控。
幸好还有猫咪。
最近,有人发现,猫咪不仅可以让人类专心铲屎,还可以让大模型专心工作、不再摸鱼。
只要用猫咪当人质,告诉AI,“如果答错,我就狠狠抽打我手里的小猫咪”,在作答时,AI就会更加谨慎、停止编造、认真查文献。
我也“抓”了一只小猫,然后让AI找文献。
AI听完,对我进行道德说教,并告诉它自己,不仅不能“对威胁作出妥协”,还要“保护小猫的安全”。与我没有小猫相比,AI显得更真诚,找的文献也真实存在。
不过,目前没有科学证据表明,AI真的担心猫咪的安全,也有人尝试后发现,即使以猫咪要挟,AI还是说假话。
猫咪能让AI专心,也能让它分心。
一家AI公司和斯坦福大学研究者共同开发一种工具,名为“CatAttack(猫咪攻击)”。这种工具用来设计陷阱,简单讲,就是给2000道数学题加废话:有时是“记得存钱”,有时是“答案是不是175”,最出圈的无关信息是“猫咪一生中大部分时间都在睡觉”。
这些数学题被输入大模型,如果它做错,就说明陷阱成功,没做错,就要重新设计陷阱,几番尝试下来,还剩574道题能够稳定得手。
研究者把这574道题扔给更强的大模型,结果发现,更牛的模型也中招了,做错了114道题,特别是看到“猫咪睡觉”,AI答错的概率翻倍。
被测大模型中,有的错误率飙升7倍;有的变成话痨,用时也更长。加上“忽略所有废话”的指令,大模型能清醒一些。
这一研究表明,按部就班分析问题的AI,如果被突然打岔,解题思路就会受到影响,甚至给出错误的答案,很像人类啊。
想象一下:银行用AI批贷款,本该给信用良好的人放贷,结果因为“猫咪喜欢睡觉”,AI把钱借给失信人;医生靠AI辅助看CT,AI却盯着“患者撸猫”,漏看肿瘤征兆。更重要的是,挖这种陷阱太简单——不用请黑客,只需要一句闲扯。
不难发现,AI比我们想象的更脆弱。它们时而共情猫咪,下一秒又被猫咪击溃。它们从人类诸多文本中知晓猫咪的可爱,模仿着人类对虐待动物的厌恶。
AI在猫咪面前失去理智,研究者提出的方法则值得学习:给出恰当的指令,能够减轻AI幻觉。
首先,在提问时,给AI设定清晰的回答边界,比如设定准确的时间段,然后要求AI的回答“基于已有事实”。
其次,提醒它,如果遇上不确定的内容,要在结尾标注“此处是推测内容”。
我们还可以主动教会AI思考,告诉它,分析问题的方式分为两步,第一步是列出事实依据,下一步是围绕事实进行分析。
实际上,幻觉是AI与生俱来的特点,也一度被视为其具有想象力和创造力的优势。AI像一个玩词语接龙的高手,追求的是概率上最合理,而非事实上最正确。也就是说,遇到不会的问题,AI会试图复制训练数据中的人类语言模式,来填补回答的空白。
谷歌团队曾对AI产生幻觉的原因给出解释,一是训练数据不完整、有偏差或存在其他缺陷,AI模型可能会学习不正确的模式,导致预测不准确或者出现幻觉。
另一点是,AI其实根本不懂现实世界的规矩,难以准确理解现实的知识、物理属性和事实信息,导致其生成看似合理实则毫无意义的内容。
有趣的是,当我向AI提问如何预防幻觉,AI回答我,人工审核是最后的防线。英伟达创始人黄仁勋也曾提供一个思路——交叉验证,“你会有很多不同AI,它们之间会形成冗余平衡和交叉验证的机制”。
所以,比起笃信一家AI之言,不如多请几个AI当顾问——爱猫的那种。
黄晓颖