蚂蚁医疗大模型拿下 MedBench 测评「双料」冠军

近日，记者发现，国内权威医疗大模型评测平台 MedBench 在官网更新了榜单。多个医疗 AI 产品及研究团队入榜，其中蚂蚁 AI 健康管家团队研发的蚂蚁医疗大模型以评测榜单 97.5、自测榜单 98.2 的高分再度夺得双料冠军。

（MedBench 评测榜单截图）

（MedBench 自测榜单截图）

MedBench 测评结果显示，蚂蚁医疗大模型在医学知识问答、医学语言生成、复杂医学推理三类单项中位居第一，同时，在医学语言理解和医疗安全和伦理等纬度也有突出表现。在此前的榜单综合测评中，蚂蚁医疗大模型也长期位居综合榜第一。

医疗行业是复杂度较高的领域，医疗大模型实时评估体系对应用稳定落地尤为关键。MedBench 为中文医疗大语言模型提供了一个公平、透明且科学的评估标准，蚂蚁医疗大模型登顶榜单，意味着其当前的技术能力转化为医疗 AI 产品具备专业度和领先性。

据了解，蚂蚁医疗健康团队近期完成了基于强化学习的新一代医疗推理模型研发。AI 引擎升级后，该垂直行业大模型不仅具备「医学思维」推理能力，还能完成「图、文、音视频等」多模态交互。基于此，蚂蚁医疗大模型添加百亿级中英文图文、千亿级医疗文本语料及千万级高质量医疗知识图谱进行专业知识训练，经过医患诊疗、药厂等真实场景问答的多任务微调，以及数百个专业医学团队、医生标注数据的强化学习。以医学报告、药品、毛发等图像识别为例，目前该模型准确率达 90% 以上。

在安全性上，蚂蚁医疗大模型集合了蚂蚁集团在隐私安全风控方面的技术优势，并在数据使用的去标识化方面遵循安全隐私标准。从去年 7 月推出以来，还面向行业开放了配套的「可信一体机+可信云」解决方案，保障数据隐私与算力效率，为医院、医疗机构提供可靠的本地部署与数据保护支持。

据悉，蚂蚁医疗健康成立至今已有 10 年，从 2023 年开始进军医疗 AI 领域，除了投入垂直领域大模型技术研发外，在 AI 应用层面同样进展迅速。

公开资料显示，其与浙江卫健委联合推出全国首个省级官方 AI 健康应用「安诊儿」，已累计服务近 3000 万人次，覆盖浙江省内 1000 余家医疗机构。去年 7 月，与国内头部三家医院、权威医疗机构成立 AI 医疗创新应用「联盟」以来，蚂蚁医疗健康已与各地卫健委、医保局、医院、医生合作研发了近百个医生智能体，在完成对好大夫在线收购后，双方在 AI 辅助医生工作方面开展探索，推出「AI 科普助手」等系列产品。截至目前，蚂蚁医疗大模型已经成为业内应用场景最丰富、与医疗机构、医生、医院共建最深的垂类大模型之一。

最新文章