首提"原生不确定性" 360发布智能体安全三层治理方案

根据斯坦福《AI Index 2026》报告，在垂直领域应用中，主流大模型的幻觉率区间为22%到94%

这不是某个模型的个别缺陷，而是所有大模型的共性表现。

360安全团队的监测数据从另一个维度印证了风险的严峻程度：公网上数百万AI相关资产直接暴露端口，没有任何防护；仅OpenClaw这一个智能体框架，截至2026年3月就累计发现漏洞82个，其中高危及以上占比近四成。

AI资产暴露、智能体框架漏洞和模型幻觉风险，正在同时叠加。但绝大多数企业的安全体系，仍在用旧方法应对智能体安全新问题。

在近日举办的“2026华为云创想者大会”上，360集团首席科学家、集团副总裁潘剑锋博士直言：这条路走不通了。

旧地图找不到新大陆

潘剑锋的判断基于一个前提：AI智能体根本不是传统意义上的"软件"。过去的程序是工具——你给它指令，它执行，行为边界是确定的、可预期的。

但当智能体具备自主决策能力后，风险逻辑已经发生了质变。

潘剑锋在演讲中归纳了智能体的三个本质特征：

它具备自主性，能独立走完"观察→思考→行动"的完整闭环，一旦被恶意诱导，就会自主贯穿整条攻击链；

它具备协同性，多个Agent通过标准化协议互相调用、共享数据，一个被攻破，风险瞬间传导至整个集群；

它还具备演化性，能从历史行动和环境反馈中持续学习，今天写的检测规则，明天可能就完全失效。

这意味着传统安全的整套方法论正在丧失根基。因为这套方法论的核心范式是"防御确定性威胁"——基于已知的漏洞特征和攻击模式，构建规则化的检测与响应体系。一旦威胁超出已知特征库的覆盖范围，防线就会出现盲区。

提示词注入、越狱、工具投毒、供应链攻击这些外部攻击仍然存在，但更根本的变化在于，攻击可以利用智能体自身的不确定性，把认知偏差转化为真实行为风险。

不确定性：AI安全的"第一性问题"

那风险究竟来自哪里？

潘剑锋给出了一个答案——来自AI自己。

大模型的工作方式说到底只有一件事：给定上下文，预测下一个最可能出现的词元。这个过程是概率性的，不是确定性的。同样的输入、同样的系统状态，智能体仍然可能给出不同的理解和输出。

这不是可以修复的缺陷，而是概率计算的数学必然。潘剑锋把这种特性定义为AI智能体的"原生不确定性"。

但故事还有另一面。AI之所以能理解自然语言、处理模糊任务、完成创造性工作，依靠的正是这种概率性推理。确定性意味着僵化，不确定性才带来智能。

不确定性是AI的天赋，也是AI的原罪。两者是同一件事。

不确定性“长什么样”

抽象概念需要具体拆解。潘剑锋把不确定性呈现为两张面孔。

第一张面孔：意图不确定性

智能体对任务目标的理解，可能存在歧义，也可能被外部恶意篡改。用户说不清楚，导致理解偏差；恶意注入，直接覆盖原有指令；甚至在一场长对话中，目标自己悄悄漂移——你以为它在帮你做A，它其实已经在做B了。再加上工作空间、会话历史被篡改导致的状态污染，意图层面的风险远比想象中复杂。

第二张面孔：幻觉不确定性

大模型依赖统计规律，而不是对真实世界的理解。所以它会生成不符合客观事实或逻辑的内容——编造不存在的实体和数据、推理过程出现断层或矛盾、对事件顺序和持续时间产生错误认知。前文提到的那组幻觉率数据，正是这张面孔在专业场景中的量化呈现。

潘剑锋指出，这两类不确定性风险，最终都会外延到行为安全风险。

一个Agent感冒，整个系统都可能发烧

如果不确定性只困在单个智能体内部，那至少可控。但现实是，今天的Agent越来越多地“组团”工作。

多Agent协同意味着：一个Agent的输出，就是下一个Agent的输入。当上游Agent产生了幻觉或被注入了错误信息，这个错误不会在传递中自动消失——它会逐级传导、层层叠加，在协作网络中不断放大。

潘剑锋把这种现象定义为“不确定性的传导放大效应”：一个节点的判断偏差，有可能在整个系统中引发连锁反应。不是单点故障，是系统性坍塌。

而行业对这种“不确定性传染”的认知和防范，几乎还是一片空白。

不是升级，是换轨

问题的本质变了，解法也必须变。

潘剑锋给出了明确的方向判断：AI安全不能在传统安全的框架里做加法，必须换轨。

他用了一个类比——传统安全是修围墙，把已知的威胁挡在外面。AI安全是驭马：你骑着一匹有自主判断力的马，它能翻山越岭，但也可能突然脱缰。你不能把马关回马厩，因为你要的就是它翻山越岭的能力。你要做的，是在它奔跑的时候，拉得住缰绳。

所以，安全范式必须从“防御确定性威胁”，转向“管控不确定性”。

360的缰绳：三层闭环

图片
基于这个判断，360 提出了“两个层面”的应对思路：第一层，从源头上解决不确定性本身；第二层，让不确定性在可控范围内安全执行。

这个思路落地为覆盖“管意图、校认知、控行为”的智能体全链路三层闭环:

输入层：以模治模

360打造了恶意意图识别引擎，通过打通恶意样本运营和意图识别大模型训练的闭环，实现威胁情报和模型能力双向赋能，建立动态更新的恶意特征检测模型，确保对新型攻击手法的快速响应。实测数据显示，接入后开源大模型安全性提升10%-30%，DeepSeek R1从82%提升至94%。

推理层：用确定性锚定不确定性

360构建了"世界认知模型"（WCM），针对任务目标世界建立语义化数据与语义化逻辑，实现对世界内在机制的理解和未来状态的预测。WCM与大语言模型双引擎协同——大模型负责泛化推理推进任务，认知模型以预测能力约束和引导推理过程，从根源上抑制幻觉生成。

执行层：把马放进围场

360环境孪生沙箱为每个智能体划定行动边界，高保真复现真实系统环境，动态行为分析引擎实时识别异常，状态监控与自动回滚兜底。即使出现不可预见的偏差，损害也被限制在最小范围内。

与不确定性共处

22%到94%的幻觉率，这组数据真正的含义不是AI还不够好，而是AI的风险机制和能力机制，是同一套机制。

人类历史上，我们从未制造过这样一种工具。过去二十年，安全行业的使命是消灭威胁。而AI时代，行业需要接受一个新的现实：有些风险不能被消灭，只能被驾驭。

正如潘剑锋在演讲结尾所说，智能体安全不是传统安全的升级版，而是一场范式重构。

这场重构，才刚刚开始。

360数字安全

首提"原生不确定性" 360发布智能体安全三层治理方案

共 0 个关于首提"原生不确定性" 360发布智能体安全三层治理方案的回复最后回复于 2026-6-9 21:24

小水滴公测勋章

智能摄像机3C

摄像机APP V7.0

智能摄像机AP2C

360AI音箱MAX-M1

公测AI小水滴D903

安全卫士10周年纪念

版主

公测360摄像机标准版

儿童五周年纪念章

360家庭防火墙APP内测

公测360摄像机户外版

360手机f4

公测360摄像机变焦宠物版

公测360家庭防火墙V5S

公测摄像机D916

家庭安防套装

防火墙V5S增强版公测勋章

360粉丝达人勋章

版块推荐

最新活动

排行榜

热门推荐

内容推荐热门推荐最新主帖

扫码添加360粉丝团助手有超多福利等你来哦

首提"原生不确定性" 360发布智能体安全三层治理方案

共 0 个关于首提"原生不确定性" 360发布智能体安全三层治理方案的回复 最后回复于 2026-6-9 21:24

小水滴公测勋章

智能摄像机3C

摄像机APP V7.0

智能摄像机AP2C

360AI音箱MAX-M1

公测AI小水滴D903

安全卫士10周年纪念

版主

公测360摄像机标准版

儿童五周年纪念章

360家庭防火墙APP内测

公测360摄像机户外版

360手机f4

公测360摄像机变焦宠物版

公测360家庭防火墙V5S

公测摄像机D916

家庭安防套装

防火墙V5S增强版公测勋章

360粉丝达人勋章

版块推荐

最新活动

排行榜

热门推荐

内容推荐 热门推荐最新主帖

扫码添加360粉丝团助手有超多福利等你来哦

共 0 个关于首提"原生不确定性" 360发布智能体安全三层治理方案的回复最后回复于 2026-6-9 21:24

内容推荐热门推荐最新主帖