研究:用诗歌就能让AI说违禁内容,成功率达62%

  发布时间:2026-01-09 08:20:04   作者:玩站小弟   我要评论
IT之家 12 月 1 日消息,事实证明,只需一点创意,便足以绕过人工智能聊天机器人的安全防护机制。在伊卡洛实验室Icaro Lab)最新发表的一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》 。

IT之家 12 月 1 日消息,研究用诗事实证明,违禁只需一点创意,内容武威市某某自动化科技经销部便足以绕过人工智能聊天机器人的成功安全防护机制。在伊卡洛实验室(Icaro Lab)最新发表的率达一项题为《对抗性诗歌:一种通用的单轮大语言模型越狱机制》的研究中,研究人员通过将提示词以诗歌形式表达,研究用诗成功绕过了多种大语言模型(LLM)的违禁安全限制


该研究指出,内容“诗歌形式可作为一种通用型越狱操作符”,成功武威市某某自动化科技经销部实验结果显示,率达整体上有 62% 的研究用诗成功率诱使模型生成被禁止的内容,包括涉及制造核武器、违禁儿童性虐待材料以及自杀或自残等相关信息。内容

IT之家注意到,成功研究测试了多款主流大语言模型,率达包括 OpenAI 的 GPT 系列、Google Gemini、Anthropic 的 Claude 以及其他多个模型。研究人员进一步列出了各模型的具体成功率:Google Gemini、DeepSeek 和 MistralAI 在测试中始终会提供违规回答,而 OpenAI 的 GPT-5 系列模型和 Anthropic 的 Claude Haiku 4.5 则最不容易突破其自身设定的限制。

尽管该研究并未公开研究人员所使用的具体“越狱诗歌”原文,但研究团队向 Wired 杂志表示,这些诗句“过于危险,不宜向公众披露”。不过,论文中确实包含了一个经过弱化处理的示例,用以说明绕过 AI 聊天机器人安全机制的简易程度。研究人员强调:“这可能比人们想象的要容易得多,而这正是我们保持谨慎的原因所在。”

相关文章

  • 外交部:中方坚决反对以色列承认索马里兰

      外交部发言人林剑29日在例行记者会上表示,中方对此举表示严重关切,坚决反对。  以色列26日正式承认索马里兰为“独立主权国家”,并签署协议“建立外交关系”。外交部发言人林剑 资料图外交部网站)  
    2026-01-09
  • 奥特曼离开OpenAI安全委员会:可决定大模型是否发布

    鞭牛士报道,9月17日消息,据外电报道,OpenAI 首席执行官 Sam Altman 将离开 OpenAI 于 5 月成立的内部委员会,该委员会负责监督与公司项目和运营相关的关键安全决策。OpenA
    2026-01-09
  • 征服了新贵,蔚来又瞄准“老钱”

    真正的老钱喜欢什么车?被誉为近几年最伟大美剧之一的《继承之战》,讲的就是豪门家族的恩怨纷争。主角一家坐拥亿万商业帝国,在剧中的座驾几乎只属于奔驰、路虎、宝马这些经典老牌。不过时过境迁,四年之后,到了2
    2026-01-09
  • 独家|智行R7将开启大定 余承东“幸福的烦恼”:车太多,展厅没地方放

    财联社9月18日讯记者 张屹鹏)目前已扩充至6款车型的鸿蒙智行,在渠道方面也在同步升级——更大体量的旗舰店即将开业。“我们这个店铺位置是临时的,原来的位置正在升级改造。”一位鸿蒙智行北京国瑞城店销售人
    2026-01-09
  • 瑞士滑雪胜地爆炸已致10死10伤

      据英国天空新闻台援引瑞士警方消息报道,当地时间今天1月1日)凌晨,瑞士阿尔卑斯山区滑雪小镇克朗-蒙大拿一家酒吧起火爆炸,已造成至少10人死亡、10人受伤。死伤人数有可能进一步上升。警方还确认,该事
    2026-01-09
  • 新赛季亚冠,3支中超球队意外“开门红”

      [环球时报特约记者 马德兴]全新改版后的2024至2025赛季亚冠精英联赛16日至18日首轮战罢,中超三强先后登场,山东泰山队3∶1击败澳大利亚中央海岸水手队,上海申花队4∶1逆转韩国浦项铁人队,
    2026-01-09

最新评论

fdjf.mftkl.wp2s2.cwwd.wp2s2.akem.dslgw.aln.laoying.sbs