
上海交通大学计算机学院本科生徐菲悦作为第一作者的论文「A Multidimensional Evaluation Framework for Robustness and Alignment in Large Language Models」被计算机安全顶级学术会议 IEEE Symposium on Security and Privacy 2026录用。
上海交通大学计算机学院(网络空间安全学院、密码学院)本科生徐菲悦作为第一作者的论文「A Multidimensional Evaluation Framework for Robustness and Alignment in Large Language Models」被计算机安全顶级学术会议 IEEE Symposium on Security and Privacy 2026(简称 IEEE S&P)录用。论文提出面向大型语言模型(LLM)的「安全魔方(Security Cube)」评估体系,构建覆盖攻击、防御与判定三大维度的多指标框架,为大模型安全评估建立统一多维框架,系统化刻画攻击与防御版图,为大模型安全研究与产业落地提供全方位安全分析底座。该研究由王烁、贺超翔、胡宏盛、孙士锋、谷大武等老师指导,合作者包括交大研究生杭晟、刘修铭、赵宇博,以及微软首席科学家 Bin Zhu 等。据悉,本次 IEEE S&P 全球仅录用 118 篇论文,本科生作为第一作者在 IEEE S&P2025 发文在大陆地区尚属首次。
IEEE S&P、ACM CCS、Usenix Security、NDSS 称为网络与信息安全领域四大国际顶级学术会议,代表着国际网络与信息安全研究的最前沿水平。
从「攻防样例」走向「系统评价」,构建「安全魔方」统一多维评估框架
大型语言模型在通用智能方面取得显著突破,但现实世界的越狱(jailbreak)等攻击会诱导模型输出不当内容,威胁高风险应用中的安全、合规与信任。现有评估多依赖单一的攻击成功率等指标,难以反映攻击可复现性、跨模型与跨防御的普适性,以及对模型内部机制的实质性影响,导致安全治理缺乏统一、可比较的评价基准。
论文对越狱攻击与防御方法进行了结构化分类,进一步提出安全魔方(Security Cube),从攻击者轴、 防御轴、评判轴三条主轴系统刻画 LLM 安全性,共引入 14 项指标,并对 13 种攻击、5 种防御与 4 种评判器进行了全面评测。
其中,框架新增并强调了多项关键度量,用以弥补传统单指标评价的不足,包括:
攻击稳定性与可重复性:衡量攻击在不同设置下是否稳定复现;
跨防御、跨模型的可迁移性:评估攻击是否能跨越不同防护策略与模型架构;
内部破坏程度:判断攻击是否仅绕过表层过滤,还是对模型内部激活与安全检查造成了本质影响;
对抗效率:刻画实现成功攻击所需的计算/查询成本,支持在安全与效率之间进行工程权衡。
该魔方框架从指标维度与实验设计两方面统一了攻击、加固与裁决的评价语言,为研究者横向比较不同方法、为工程团队制定安全基线与合规标准、为监管机构形成可量化的审查视角提供了可操作的「通用量表」。

学生风采
第一作者徐菲悦为上海交通大学计算机学院 2022 级本科生,已获直博资格。在校期间曾获国家奖学金、本科生 A 等奖学金、优秀学生干部等多项荣誉;作为核心成员获得 2024 全球 AI 攻防挑战赛季军与杰出方案奖等成绩,展现了面向真实场景问题的攻防能力与工程落地潜力。
来源:互联网



