研究:用诗歌就能让AI说违禁内容,成功率达62%
IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容新余市某某过滤器制造厂便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制。 该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功新余市某某过滤器制造厂实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容 IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。 尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”![]()
- 最近发表
- 随机阅读
-
- “流感神药”耐药了?传言不实
- 奥运特辑|呙俐:水中“炼”真金
- 马龙、冯雨将担任巴黎奥运会开幕式中国代表团旗手
- 惊险!游客海边溺水,两名摩托艇驾驶员成功救起
- 杨颖复出倒计时!深圳香港两头跑,坦言赶早班机只为送儿子上学
- “老中青”阵容出击!巴黎奥运会,中国女排准备好了
- 乌总参谋部称对俄“高加索”港一渡轮实施打击
- 云南昆明一临街广告牌掉落致5人受伤
- 追踪|入职江科大数月后,首席科学家郭伟曾买下别墅
- 伊朗伊斯兰革命卫队称扣押一艘载有走私燃料的油轮
- 第三十三届奥运会中国体育代表团抵达巴黎
- 西湖边又一位大爷火了!有人为了他退票、改签!“这事,全看缘分”
- 日本目的地全部删除!爱达邮轮更改2026年第一季度航线计划
- 注意防范!台风“格美”将致10余省强降雨
- 医疗机构临床急需医疗器械临时进口使用管理要求发布实施
- 第二届中马高等教育合作洽谈会暨2024海外招生展在吉隆坡成功举办
- 马杜罗证实近日曾与特朗普通话
- 奥运倒计时·从巴黎到巴黎:当体育盛宴邂逅法式浪漫
- 暑假奥运游火爆,巴黎景区、地铁都提价了,市中心住宿均价大涨300%
- 大名男孩664分被清华录取!奖状铺满一整床!
- 搜索
-