研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容湖北某某餐具有限责任公司便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。
![]()
该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功湖北某某餐具有限责任公司实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容
IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。
尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”
(责任编辑:热门资讯)
-
来源:财联社 财联社12月3日讯编辑 赵昊)当地时间周二12月2日),美国总统特朗普表示,他计划在2026年初公布下一任美联储主席人选。 特朗普在内阁会议上说道:“我们大概会在明年初宣布某个人
...[详细]
-
女子8年读研获学位证,证件“存活”11天被学院作废,起诉学校败诉
“正常是学校颁证给学院,但学院就没告诉我,还把学校颁发的证书给撤销了,这中间学院并没有书面或电话告知我本人。”34岁读研,如今已42岁的内蒙古任女士回想起求学不易,很是心酸。6月28日,上海静安区法院
...[详细]
-
据港媒10日报道,香港警方将以国产“92改”半自动手枪全面取代目前使用的美国制“点三八”左轮手枪。 多年来,港警最为人熟悉的配枪是巡逻小队、冲锋队等军装警员使用的史密斯威森M10“点三八”左轮手
...[详细]
-
原标题:瑞典外相:北约应“更关注中国”,以获得美国的支持) 观察者网消息,作为北约最新的成员国,瑞典参加了正在美国华盛顿举行的北约峰会。据法新社报道,当地时间7月
...[详细]
-
12月1日消息,Vidu推出升级后的Q2参考生图功能,并同步上线文生图与图像编辑功能,试图解决AI多模态创作中“创意”与“可控性”难以兼顾的长期难题。官方称,此次更新将创作的控制权进一步交还给创作者。
...[详细]
-
原标题:瑞典外相:北约应“更关注中国”,以获得美国的支持) 观察者网消息,作为北约最新的成员国,瑞典参加了正在美国华盛顿举行的北约峰会。据法新社报道,当地时间7月
...[详细]
-
原标题:拜登上床睡觉了,德国总理被放了鸽子) 文章来源:牛弹琴公号真是让人大跌眼镜。好歹也是大国总理,但因为拜登睡着了,德国总理朔尔茨就被放了鸽子。这其实是件往事
...[详细]
-
中国地震台网正式测定:7月10日23时32分,在印尼苏门答腊岛南部海域南纬5.4度,东经101.0度)发生5.7级地震,震源深度20公里。 总台央视记者 张腾飞)
...[详细]
-
当地时间11月28日。空中客车公司一名发言人表示,约6000架空客A320飞机需要紧急更换一种易受太阳辐射影响的飞行控制软件。此前,10月底美国捷蓝航空的一架飞机发生一起事故,促使空客采取行动。空客表
...[详细]
-
北京交警查获10余辆改装电动车 有车快到一拧油门后胎出现焦糊味
近日,北京丰台交通支队民警在工作中发现,不少外卖小哥、超市配送小哥在路上出现违法改装电动自行车,逆行、超速、闯灯等违法情况,给其他交通参与者造成不小困扰。结合市民举报及摸排工作,民警锁定了一家超市配送
...[详细]

两年被家暴16次,4处重伤!受害者是否走出阴霾?
台媒:国民党智库董事长交接,朱立伦交棒郑丽文