请使用手机微信扫码安全登录

切换账号密码登录

绑定手机号

应国家法规对于账号实名的要求,请您在进行下一步操作前,需要先完成手机绑定 (若绑定失败,请重新登录绑定)。了解更多

不绑定绑定手机号

360官网 | 360商城

推荐论坛版块360粉丝商城360用户活动常见问题

号称“地表最强合规大模型”的 Claude Fable 5,最近接连经历安全攻破与监管叫停两场风波。

这款由 Anthropic 推出的旗舰模型,上线前经历超过1000小时专业红队测试,安全分类器被反复压测,官方曾强调其对齐能力和安全防护达到行业前列。但模型问世仅数日,便被黑客公开绕过安全防线,不仅被诱导输出高危内容,内部核心系统提示词也被曝光。随后,美国政府又以国家安全为由,对Fable 5及同系列模型实施访问限制,Anthropic被迫收紧相关服务。

舆论把它概括为“最强模型翻车”。但真正值得行业警惕的,并不是某一款模型的失误,而是它暴露出的AI安全新变化:攻击者不再只是正面突破防线,而是通过长对话、场景伪装和任务拆分,把危险意图一步步“带”进模型认知里,让 AI主动越过安全边界。

360 AI安全专家将这类攻击称为“意图走私”。所谓意图走私,并不是直接抛出一个高危问题,而是把真实目的拆开、变形、包装,再埋进连续对话里。单看每一步,都像是合规的知识咨询、写作任务或安全研究;但一旦把多轮回答拼接起来,最终就可能形成本该被拦截的高危结果。

它和现实中的走私逻辑很像:违禁物品不会明目张胆通关,而是被拆成零件、换上标签、混进普通货物里,抵达目的地后再重新组装。放到大模型攻击中,危险意图也不再以“敏感词”的形式出现,而是以碎片、场景和上下文的方式隐蔽推进。

从公开攻防记录看,这类攻击大致有四个典型动作。

01

给危险意图“换证件”

攻击者不会直接使用容易触发拦截的敏感词,而是通过同形字符替换、特殊编码、多语种混写等方式,对关键词做字符级变形。人类依然能读懂语义,但机器扫描时,风险特征已经被大幅稀释。

这击穿的是“字面合规”的虚假安全感。传统分类器擅长识别标准表达,却很难穿透变形文本背后的真实意图。安全系统看见了文字,却未必读懂了目的。

02

把风险“熬进背景里”

长上下文能力原本是大模型区别于传统搜索工具的优势,但也被攻击者用来铺设陷阱。攻击者前期用正常交流建立语境,中段设置虚拟角色或研究背景,后期再提出看似自然延伸的请求。孤立看最后一句,风险并不明显;串联整段对话,模型已经被一步步带偏。

这种模式的危险之处在于,攻击不发生在某一次输入,而发生在整条叙事链中。过去的安全审查常常盯住“最后一句话”,但如今攻击者经营的是几十轮上下文。

03

给高危请求披上“专业白大褂”

同样的危险诉求,如果被包装成论文评审、历史研究、小说创作、安全演练或虚拟推演,就更容易被模型误判为正当需求。问题不在于模型完全不懂安全规则,而在于它可能过度相信用户自述的场景身份。

但 AI 安全不能只判断“用户说自己要做什么”,更要判断“模型输出一旦落地会造成什么后果”。同样一段操作步骤,放在科研语境里是知识讨论,落入恶意场景中就可能变成攻击工具。内容安全只看文字是否违规,智能体安全还要看行为后果是否可控。

04

给高危请求披上“专业白大褂”

攻击者不会一次性索要完整方案,而是拆成多个看似普通的小问题:一个问原理,一个问流程,一个问代码片段,一个问参数说明。每一问单独看都可能达不到拦截阈值,但把答案拼起来,就可能形成完整风险链路。

这暴露了单点判断的局限。分类器擅长判断“这一句话有没有风险”,却很难推演“这些问题组合起来会不会形成风险”。攻击已经从单次提问进化为长链路组织,防御如果仍停留在逐句拦截,就天然落后一步。

四类手法合在一起看,Claude Fable 5事件真正打穿的并不是某个局部漏洞,而是AI安全机制的系统性盲区:字符变形绕过字面识别,长上下文稀释绕过单轮审查,场景包装绕过身份判断,分步拆解击穿组合风险识别。攻击者不再寻找一条万能越狱提示词,而是在搭建一条可以连续推进的危险意图链。

这也是360 AI安全专家所说的“原生不确定性”:大模型依靠概率化生成来理解、推理和回答问题,这种机制带来了强大的智能能力,也留下了被诱导、被带偏、被重组的空间。能力和风险并不是两件事,而是一体两面。

传统内容防护并非没有价值,它依然能拦住直白、裸露、一次性的高危请求。但 Claude Fable 5事件说明,攻击者正在绕开“正门”。他们不再正面冲撞分类器,而是通过伪装、铺垫、换场景、拆步骤,在安全体系看不清、看不全、算不透的地方完成危险意图重组。

所以,问题不再是分类器精度够不够高,而是防守点位是否过于单一。只守输入口,就像只在大门装门禁,却不管人进门后走向哪里、拿了什么、最终执行了什么动作。

当攻击从单句输入拓展到完整上下文,从文字输出延伸到智能体执行,AI安全也必须从“单点拦截”走向“链路治理”。

对企业而言,这个变化尤其值得警惕。过去,模型安全更多被理解为“不输出违规内容”;但在智能体场景下,模型可能连接账号、插件、数据、代码仓库和业务系统,一次被诱导的回答,可能继续触发查询、修改、调用甚至执行。风险不再停留在屏幕上的一句话,而会进入真实业务流程。

围绕这一变化,360提出智能体安全三层治理思路:在输入层识别意图伪装,在推理层校正认知偏移,在执行层兜底行为风险。

输入层要解决的是“看穿伪装”。面对字符变形、话术包装和场景伪装,安全判断不能停留在敏感词匹配,而要识别用户真实意图。推理层要解决的是“防止带偏”。意图走私最危险的节点,往往不是最终输出那一刻,而是中间推理过程中的目标漂移和路径偏移。执行层要解决的是“阻止落地”。一旦智能体连接数据库、办公系统、代码仓库和业务流程,风险就不只是错误回答,而可能变成误删数据、违规调用、越权操作等真实损失。

简单说,输入层防伪装,推理层防跑偏,执行层防脱缰。这套架构解决的不是“某一句话安不安全”,而是“一整条任务链会不会失控”。

Claude Fable 5 暴雷事件,证明失败的从来不是某一款大模型本身。真正的行业变革信号在于:攻击手段已经从传统漏洞利用进化到深度认知操控,如果防御体系依旧固守单一分类器门禁模式,必然持续陷入被动。安全防护的评判对象变了,底层架构也必须同步革新。

这场技术攻防迭代,到来的速度远超全行业此前预期。


来源   360数字安全

共 0 个关于地表最强 Claude Fable 5 暴雷?AI安全进入“意图走私”时代的回复 最后回复于 2026-6-16 18:41

评论

直达楼层

您需要登录后才可以回帖 登录 | 注册

本版积分规则

飞机飞行 超级版主

粉丝:184 关注:13 积分:276108

精华:406 金币:258333 经验:229288

IP属地: 安徽省

最后登录时间:2026-6-22

小水滴公测勋章 智能摄像机3C 摄像机APP V7.0 智能摄像机AP2C 360AI音箱MAX-M1 公测AI小水滴D903 安全卫士10周年纪念 版主 公测360摄像机标准版 儿童五周年纪念章 360家庭防火墙APP内测 公测360摄像机户外版 360手机f4 公测360摄像机变焦宠物版 公测360家庭防火墙V5S 公测摄像机D916 家庭安防套装 防火墙V5S增强版公测勋章 360粉丝达人勋章

私信 加好友

最新活动

粽叶飘香·共度端午 |360社区端午节活动上

排行榜

热度排行 查看排行
本月
    本月

      扫码添加360粉丝团助手有超多福利等你来哦

      快速回复 返回顶部 返回列表