00 后担大梁交大本科生在计算机安全顶级会议上实现突破，打造大模型全方位安全分析底座

上海交通大学计算机学院（网络空间安全学院、密码学院）本科生徐菲悦作为第一作者的论文「A Multidimensional Evaluation Framework for Robustness and Alignment in Large Language Models」被计算机安全顶级学术会议 IEEE Symposium on Security and Privacy 2026（简称 IEEE S&P）录用。论文提出面向大型语言模型（LLM）的「安全魔方（Security Cube）」评估体系，构建覆盖攻击、防御与判定三大维度的多指标框架，为大模型安全评估建立统一多维框架，系统化刻画攻击与防御版图，为大模型安全研究与产业落地提供全方位安全分析底座。该研究由王烁、贺超翔、胡宏盛、孙士锋、谷大武等老师指导，合作者包括交大研究生杭晟、刘修铭、赵宇博，以及微软首席科学家 Bin Zhu 等。据悉，本次 IEEE S&P 全球仅录用 118 篇论文，本科生作为第一作者在 IEEE S&P2025 发文在大陆地区尚属首次。

IEEE S&P、ACM CCS、Usenix Security、NDSS 称为网络与信息安全领域四大国际顶级学术会议，代表着国际网络与信息安全研究的最前沿水平。

从「攻防样例」走向「系统评价」，构建「安全魔方」统一多维评估框架

大型语言模型在通用智能方面取得显著突破，但现实世界的越狱（jailbreak）等攻击会诱导模型输出不当内容，威胁高风险应用中的安全、合规与信任。现有评估多依赖单一的攻击成功率等指标，难以反映攻击可复现性、跨模型与跨防御的普适性，以及对模型内部机制的实质性影响，导致安全治理缺乏统一、可比较的评价基准。

论文对越狱攻击与防御方法进行了结构化分类，进一步提出安全魔方（Security Cube），从攻击者轴、防御轴、评判轴三条主轴系统刻画 LLM 安全性，共引入 14 项指标，并对 13 种攻击、5 种防御与 4 种评判器进行了全面评测。

其中，框架新增并强调了多项关键度量，用以弥补传统单指标评价的不足，包括：

攻击稳定性与可重复性：衡量攻击在不同设置下是否稳定复现；

跨防御、跨模型的可迁移性：评估攻击是否能跨越不同防护策略与模型架构；

内部破坏程度：判断攻击是否仅绕过表层过滤，还是对模型内部激活与安全检查造成了本质影响；

对抗效率：刻画实现成功攻击所需的计算/查询成本，支持在安全与效率之间进行工程权衡。

该魔方框架从指标维度与实验设计两方面统一了攻击、加固与裁决的评价语言，为研究者横向比较不同方法、为工程团队制定安全基线与合规标准、为监管机构形成可量化的审查视角提供了可操作的「通用量表」。

学生风采

第一作者徐菲悦为上海交通大学计算机学院 2022 级本科生，已获直博资格。在校期间曾获国家奖学金、本科生 A 等奖学金、优秀学生干部等多项荣誉；作为核心成员获得 2024 全球 AI 攻防挑战赛季军与杰出方案奖等成绩，展现了面向真实场景问题的攻防能力与工程落地潜力。

来源：互联网

最新文章