自研大模型新成果:蚂蚁百灵大模型推出 20 亿参数遥感模型,论文入选国际 AI 顶会 CVPR 2024

摘要

多模态遥感基础模型 SkySense,可用于地貌地物观测解译,17 项测试均第一,泛化能力优异

2 月 28 日,记者获悉,蚂蚁集团推出 20 亿参数多模态遥感基础模型 SkySense,这是蚂蚁百灵大模型在多模态领域最新的研发成果,其论文已被世界计算机视觉顶会 CVPR 2024 接收。数据显示,SkySense 在 17 项测试场景中指标均超过国际同类产品,这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。SkySense 可用于地貌、农作物观测和解译等,有效辅助农业生产和经营。

SkySense 在 17 项评测中均超过国际上最新的遥感模型

随着人工智能的发展,大模型技术与卫星遥感技术相结合产生了新突破。SkySense 是蚂蚁集团基于蚂蚁百灵大模型平台能力开发的多模态遥感模型。

SkySense 在总计 17 项国际权威公开数据集进行了测评,其测试任务类型包括了土地利用监测、高分辨率目标识别、地物变化检测等 7 种常见遥感感知任务,并与国际上已发布的包括 IBM 和 NASA 联合研发的 Prithvi 等共 18 个全球主流同类模型做了测试结果比较。数据显示,17 项测评中 SkySense 均名列第一。譬如,在国际高清遥感地物检测榜单 FAIR1M 2.0 中,SkySense 平均精度(mAP)领先第二名超 3%。

在刚刚公布的 CVPR2024 论文入选结果上,SkySense 的研究成果亦被收录。CVPR 是由 IEEE 举办的计算机视觉和模式识别领域的顶级会议,是国际计算机视觉三大顶会之一。

传统的遥感影像理解技术,往往侧重于针对单一模态单一任务建模,缺乏对多模态数据、时间序列、地理先验知识的综合建模和利用,限制了其在海量数据和多种任务中的泛化能力。SkySense 突破以上技术瓶颈,实现了文本、红外光、可见光、SAR 雷达多种模态、多分辨率的时序遥感影像建模,在多样化的任务中展现出优异性能。在蚂蚁百灵大模型多模态能力支持下,研发人员基于内部构建的 19 亿遥感影像数据集进行预训练,得到了 20.6 亿参数量的模型 SkySense,这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感大模型。SkySense 可广泛应用于城市规划、森林保护、应急救灾、绿色金融、农业监测等重要领域,目前通过蚂蚁内部 MEarth 平台提供数据与识别服务。 

据了解,蚂蚁集团正在计划开放 Skysense 模型参数,与行业共建,促进智能遥感技术与应用发展。

SkySense 由蚂蚁 AI 创新研发部门 NextEvo 与武汉大学联合研发。NextEvo 是蚂蚁 AI 核心技术研发团队,主导了蚂蚁百灵大模型的研发工作,其研发方向涉及 CV、NLP、多模态、AIGC、数字人、AI 工程化等核心技术。去年,该部门升级了多模态团队,由杨铭带队全面布局多模态技术。杨铭美国西北大学博士,Facebook AI Research (FAIR) 创始成员,去年加入蚂蚁集团,先后就职于 NEC 美国实验室、FAIR、地平线机器人公司,是世界知名计算机视觉研究专家。

目前,蚂蚁集团多模态研究成果已应用于支付宝五福节 AI 大规模互动、蚂蚁医疗数字人等场景。

 

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。