根据斯坦福《AI Index 2026》报告,在垂直领域应用中,主流大模型的幻觉率区间为22%到94%
这不是某个模型的个别缺陷,而是所有大模型的共性表现。
360安全团队的监测数据从另一个维度印证了风险的严峻程度:公网上数百万AI相关资产直接暴露端口,没有任何防护;仅OpenClaw这一个智能体框架,截至2026年3月就累计发现漏洞82个,其中高危及以上占比近四成。
AI资产暴露、智能体框架漏洞和模型幻觉风险,正在同时叠加。但绝大多数企业的安全体系,仍在用旧方法应对智能体安全新问题。
在近日举办的“2026华为云创想者大会”上,360集团首席科学家、集团副总裁潘剑锋博士直言:这条路走不通了。
旧地图找不到新大陆
潘剑锋的判断基于一个前提:AI智能体根本不是传统意义上的"软件"。过去的程序是工具——你给它指令,它执行,行为边界是确定的、可预期的。
但当智能体具备自主决策能力后,风险逻辑已经发生了质变。
潘剑锋在演讲中归纳了智能体的三个本质特征:
它具备自主性,能独立走完"观察→思考→行动"的完整闭环,一旦被恶意诱导,就会自主贯穿整条攻击链;
它具备协同性,多个Agent通过标准化协议互相调用、共享数据,一个被攻破,风险瞬间传导至整个集群;
它还具备演化性,能从历史行动和环境反馈中持续学习,今天写的检测规则,明天可能就完全失效。
这意味着传统安全的整套方法论正在丧失根基。因为这套方法论的核心范式是"防御确定性威胁"——基于已知的漏洞特征和攻击模式,构建规则化的检测与响应体系。一旦威胁超出已知特征库的覆盖范围,防线就会出现盲区。
提示词注入、越狱、工具投毒、供应链攻击这些外部攻击仍然存在,但更根本的变化在于,攻击可以利用智能体自身的不确定性,把认知偏差转化为真实行为风险。
不确定性:AI安全的"第一性问题"
那风险究竟来自哪里?
潘剑锋给出了一个答案——来自AI自己。
大模型的工作方式说到底只有一件事:给定上下文,预测下一个最可能出现的词元。这个过程是概率性的,不是确定性的。同样的输入、同样的系统状态,智能体仍然可能给出不同的理解和输出。
这不是可以修复的缺陷,而是概率计算的数学必然。潘剑锋把这种特性定义为AI智能体的"原生不确定性"。
但故事还有另一面。AI之所以能理解自然语言、处理模糊任务、完成创造性工作,依靠的正是这种概率性推理。确定性意味着僵化,不确定性才带来智能。
不确定性是AI的天赋,也是AI的原罪。两者是同一件事。
不确定性“长什么样”
抽象概念需要具体拆解。潘剑锋把不确定性呈现为两张面孔。
第一张面孔:意图不确定性
智能体对任务目标的理解,可能存在歧义,也可能被外部恶意篡改。用户说不清楚,导致理解偏差;恶意注入,直接覆盖原有指令;甚至在一场长对话中,目标自己悄悄漂移——你以为它在帮你做A,它其实已经在做B了。再加上工作空间、会话历史被篡改导致的状态污染,意图层面的风险远比想象中复杂。
第二张面孔:幻觉不确定性
大模型依赖统计规律,而不是对真实世界的理解。所以它会生成不符合客观事实或逻辑的内容——编造不存在的实体和数据、推理过程出现断层或矛盾、对事件顺序和持续时间产生错误认知。前文提到的那组幻觉率数据,正是这张面孔在专业场景中的量化呈现。
潘剑锋指出,这两类不确定性风险,最终都会外延到行为安全风险。
一个Agent感冒,整个系统都可能发烧
如果不确定性只困在单个智能体内部,那至少可控。但现实是,今天的Agent越来越多地“组团”工作。
多Agent协同意味着:一个Agent的输出,就是下一个Agent的输入。当上游Agent产生了幻觉或被注入了错误信息,这个错误不会在传递中自动消失——它会逐级传导、层层叠加,在协作网络中不断放大。
潘剑锋把这种现象定义为“不确定性的传导放大效应”:一个节点的判断偏差,有可能在整个系统中引发连锁反应。不是单点故障,是系统性坍塌。
而行业对这种“不确定性传染”的认知和防范,几乎还是一片空白。
不是升级,是换轨
问题的本质变了,解法也必须变。
潘剑锋给出了明确的方向判断:AI安全不能在传统安全的框架里做加法,必须换轨。
他用了一个类比——传统安全是修围墙,把已知的威胁挡在外面。AI安全是驭马:你骑着一匹有自主判断力的马,它能翻山越岭,但也可能突然脱缰。你不能把马关回马厩,因为你要的就是它翻山越岭的能力。你要做的,是在它奔跑的时候,拉得住缰绳。
所以,安全范式必须从“防御确定性威胁”,转向“管控不确定性”。
360的缰绳:三层闭环
图片
基于这个判断,360 提出了“两个层面”的应对思路:第一层,从源头上解决不确定性本身;第二层,让不确定性在可控范围内安全执行。
这个思路落地为覆盖“管意图、校认知、控行为”的智能体全链路三层闭环:
输入层:以模治模
360打造了恶意意图识别引擎,通过打通恶意样本运营和意图识别大模型训练的闭环,实现威胁情报和模型能力双向赋能,建立动态更新的恶意特征检测模型,确保对新型攻击手法的快速响应。实测数据显示,接入后开源大模型安全性提升10%-30%,DeepSeek R1从82%提升至94%。
推理层:用确定性锚定不确定性
360构建了"世界认知模型"(WCM),针对任务目标世界建立语义化数据与语义化逻辑,实现对世界内在机制的理解和未来状态的预测。WCM与大语言模型双引擎协同——大模型负责泛化推理推进任务,认知模型以预测能力约束和引导推理过程,从根源上抑制幻觉生成。
执行层:把马放进围场
360环境孪生沙箱为每个智能体划定行动边界,高保真复现真实系统环境,动态行为分析引擎实时识别异常,状态监控与自动回滚兜底。即使出现不可预见的偏差,损害也被限制在最小范围内。
与不确定性共处
22%到94%的幻觉率,这组数据真正的含义不是AI还不够好,而是AI的风险机制和能力机制,是同一套机制。
人类历史上,我们从未制造过这样一种工具。过去二十年,安全行业的使命是消灭威胁。而AI时代,行业需要接受一个新的现实:有些风险不能被消灭,只能被驾驭。
正如潘剑锋在演讲结尾所说,智能体安全不是传统安全的升级版,而是一场范式重构。
这场重构,才刚刚开始。
360数字安全 |
|
|
|
|
|
评论
直达楼层