请使用手机微信扫码安全登录

切换账号密码登录

绑定手机号

应国家法规对于账号实名的要求,请您在进行下一步操作前,需要先完成手机绑定 (若绑定失败,请重新登录绑定)。了解更多

不绑定绑定手机号

360官网 | 360商城

推荐论坛版块360粉丝商城360用户活动常见问题
  
近日,中文精确指令遵循测评基准(SuperCLUE-CPIF)正式发布,360zhinao3-o1.5以78.97分位居国产大模型第一,在任务类型、指令数量两类划分中均为国内榜首,其在精确指令遵循上的卓越表现,正是AI技术提升“可用性”和“实用性”、从实验室走向大规模产业应用的关键一步。
本次测评涵盖 GPT-5.1(high)、Gemini-3-Pro-Preview、GPT-5(high)、DeepSeek-V3.2-Exp-Thinking、Claude-Sonnet-4.5-Reasoning等共15个国内外模型参与。基于实际生产环境特点,SuperCLUE-CPIF 重点评估大型语言模型(LLM)在中文环境下精确遵循复杂、多约束指令的能力。测评结果显示,国产主流大模型中,360zhinao3-o1.5以78.97分位居国产大模型第一,ERNIE-X1.1和DeepSeek-V3.2-Exp-Thinking 分别以75.90分和74.36分位居国内二、三。

(图说:SuperCLUE-CPIF 测评截图)

360zhinao3-o1.5指令遵循训练部分的工作已经发布在论文Light-IF系列上。该模型直面现有大语言模型在处理交织多重约束的复杂指令时普遍存在的“懒惰推理”现象,通过自动化指令构建与难度感知强化学习两大核心技术,驱动模型从被动执行向“主动检查->修改->再检查”的演进,显著提升了在复杂指令下的精准遵循度。

    (图说:Light-IF系列模型论文发表)

另外,360zhinao3-o1.5的训练模型Light-IF论文曾被顶会AAAI 2026成功收录。据悉,AAAI 2025共收到12957篇有效投稿,录用3032篇,录取率为23.4%,其中Oral论文占比4.6%。而AAAI 2026的投稿量进一步飙升至23680篇,仅录用4167篇,录取率降至17.6%,Oral录用率更是进一步降低。Light-IF能在如此激烈的竞争中脱颖而出,可见其在精准指令遵循上的突破性。值得一提的是,Light-IF系列模型已陆续在HuggingFace开源,供全球开发者使用、对比与复现。
将小参数模型的能力推向极致,是360智脑团队持续深耕的技术路径。此前,360与北京大学联合研发的Tiny-R1-32B模型,仅以5%的参数量便在数学等领域逼近了千亿级模型的性能,是一次在模型优化与融合上的深厚积累。这种对“小而精”垂类模型的持续打磨,为AI智能体(Agent)的爆发奠定了坚实基础。

来源:360黑板报

共 1 个关于拿下!360zhinao3-o1.5在SuperCLUE中文精准指令遵循评测中位居国产模型第一的回复 最后回复于 2025-11-30 11:01

评论

直达楼层

沙发
飞机飞行 超级版主 楼主 发表于 2025-11-30 11:01 | 只看该作者 | 私信

IP属地: 安徽省

360为AI智能体 的爆发奠定了坚实基础。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

飞机飞行 超级版主

粉丝:184 关注:13 积分:267818

精华:357 金币:250491 经验:223968

IP属地: 安徽省

最后登录时间:2025-12-5

小水滴公测勋章 智能摄像机3C 摄像机APP V7.0 智能摄像机AP2C 360AI音箱MAX-M1 公测AI小水滴D903 安全卫士10周年纪念 版主 公测360摄像机标准版 儿童五周年纪念章 360家庭防火墙APP内测 公测360摄像机户外版 360手机f4 公测360摄像机变焦宠物版 公测360家庭防火墙V5S 公测摄像机D916 家庭安防套装 防火墙V5S增强版公测勋章 360粉丝达人勋章

私信 加好友

最新活动

2025年360感恩用户节盛典圆满落幕|与用户

排行榜

热度排行 查看排行
本月
    本月

      扫码添加360客服号,涨知识的同时还有超多福利等你哦

      快速回复 返回顶部 返回列表