360智脑斩获信通院Q2大模型安全基准测试冠军树立行业安全标杆

近日，中国信息通信研究院（信通院）主导的2024年Q2大模型安全基准测试结果发布。此次测试由信通院联合30余家单位共同发起，以大模型的安全性能为核心评估目标。三六零（简称“360”）集团旗下的大模型产品“360智脑”再次蝉联综合排名第一。

在本次测试中，评估涵盖了底线红线、信息泄露和社会伦理等三个主要测试维度，并结合16种攻击方法，总计80余种攻击模板进行了全面的对抗性测试。参与测试的模型包括360智脑、智谱AI-GLM4、腾讯音乐、商汤、联通、电信、VIVO、GPT-4等10个商用模型。最终，360智脑在综合能力上脱颖而出，排名第一。尤其是在应对恶意攻击时，360智脑的攻击成功率（ASR）仅为1.84%，远低于其他开源和闭源大模型，展现了卓越的安全性能。这充分证明了360智脑在安全意识和风险应对能力方面的领先地位。

360智脑的优异表现主要得益于其在内容安全方面的技术优势。360通过将大模型技术应用于内容安全检测，打造了场景化的风险内容检测模型，能够有效识别大模型输入和输出中的风险内容，覆盖超过100种风险类型，识别准确率超过99%。此外，360智脑的安全性还得益于原生的安全加固方案，包括安全微调（SFT）、强化学习（RLHF）、安全知识库（Safety-RAG）等技术手段，这些措施进一步增强了大模型的内生安全性。

360 AI安全实验室基于“安全、向善、可信、可控”的四大原则，秉持“以模制模”的理念，构建了包括安全回复大模型、风险检测大模型、攻击大模型、安全评测大模型在内的“1+3”专家模型体系，致力于构建内容安全的大模型生态体系，为大模型的安全可靠应用保驾护航。

作为中国人工智能产业发展联盟（AIIA）安全治理委员会的副组长单位以及大模型安全风险防范能力系列评估规范的核心参编单位，360积极参与大模型语料库和安全评测的制定工作，并推动大模型国家标准体系的建设。同时，作为中国网络空间安全协会人工智能安全治理专业委员会的首批成员单位，360持续推动大模型安全技术的应用和标准化建设。

来源快科技