
2 月 25 日, 上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学共同发布通用视觉开源平台 OpenGVLab, 面向学术界和产业界开放其超高效预训练模型, 和千万级精标注、十万级标签量的公开数据集, 为全球开发者提升各类下游视觉任务模型训练提供重要支持。
2 月 25 日, 上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学共同发布通用视觉开源平台 OpenGVLab, 面向学术界和产业界开放其超高效预训练模型, 和千万级精标注、十万级标签量的公开数据集, 为全球开发者提升各类下游视觉任务模型训练提供重要支持。同时,OpenGVLab 还同步开放了业内首个针对通用视觉模型的评测基准, 便于开发者对不同通用视觉模型的性能进行横向评估和持续调优。目前 OpenGVLab 开源平台 (https://opengvlab.shlab.org.cn) 已正式上线, 供各界研究人员访问和使用, 后续项目还将开通在线推理功能, 供所有对人工智能视觉技术感兴趣的社会人士自由体验。
「开源是一项意义非凡的工作, 人工智能技术的迅速发展离不开全球研究人员十余年来的开源共建」, 上海人工智能实验室负责人表示,「希望通过发布 OpenGVLab 开源平台, 帮助业界更好地探索和应用通用视觉 AI 技术, 促进体系化解决 AI 发展中数据、泛化、认知和安全等诸多瓶颈问题, 为推动人工智能学术、产业发展做出贡献。」
如今虽然人工智能技术快速发展, 但很多 AI 模型还只能完成单一任务, 比如识别单一物体, 或识别风格较为统一的照片。如果要对多种类型、风格进行识别, 则需要具备足够的通用性和泛化能力。去年 11 月, 上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布的通用视觉技术体系「书生」, 很好地解决了这一问题。如下图所示, 对于不同类型的图片, 它都能较为准确地识别出图中的内容, 包括图画。
通用视觉开源平台 OpenGVLab 正是基于通用视觉技术体系「书生」(INTERN) 打造的。依托「书生」在通用视觉技术上的强劲支撑,OpenGVLab 将帮助开发者显著降低通用视觉模型的开发门槛, 用更低成本快速开发用于成百上千种视觉任务、视觉场景的算法模型, 高效实现对长尾场景的覆盖, 推动 AI 技术的规模化应用。
开放超高性能模型和千万级精标注数据集, 降低学界投入成本
OpenGVLab 充分继承了通用视觉技术体系「书生」的技术优势, 其开源的预训练模型具备极高性能。相较于此前公认的最强开源模型 (OpenAI 于 2021 年发布的 CLIP),OpenGVLab 的模型可全面覆盖分类、目标检测、语义分割、深度估计四大视觉核心任务, 在准确率和数据使用效率上均取得大幅提升。
基于同样的下游场景数据, 开源模型在分类、目标检测、语义分割及深度估计四大任务 26 个数据集上, 平均错误率分别降低了 40.2%、47.3%、34.8% 和 9.4%;同时, 在分类、检测、分割和深度估计中, 仅用 10% 的下游训练数据就超过了现有其他开源模型。使用此模型, 研究人员可以大幅降低下游数据采集成本, 用极低的数据量, 即可快速满足多场景、多任务的 AI 模型训练。
同时,OpenGVLab 还提供多种不同参数量、不同计算量的预训练模型, 以满足不同场景的应用需求。模型库中列出的多个模型, 在 ImageNet 的微调结果和推理资源、速度等方面, 相比之前的公开模型均有不同程度的性能提升。
除了预训练模型, 以百亿数据总量为基础, 上海人工智能实验室构建了超大量级的精标注数据集, 近期将进行数据开源工作。超大量级的精标注数据集不仅整合了现有的开源数据集, 还通过大规模数据图像标注任务, 实现了对图像分类、目标检测以及图像分割等任务的覆盖, 数据总量级近七千万。开源范围涵盖千万级精标注数据集和十万级标签体系。目前, 图像分类任务数据集已率先开源, 后续还将开源目标检测任务等更多数据集。
此外, 此次开源的超大标签体系不仅几乎覆盖了所有现有开源数据集, 还在此基础上扩充了大量细粒度标签, 涵盖各类图像中的属性、状态等, 极大丰富了图像任务的应用场景, 显著降低下游数据的采集成本。研究人员还可以通过自动化工具添加更多标签, 对数据标签体系进行持续扩展和延伸, 不断提高标签体系的细粒度, 共同促进开源生态繁荣发展。
发布首个通用视觉评测基准, 推动通用视觉模型评测标准统一
伴随 OpenGVLab 的发布, 上海人工智能实验室还开放了业内首个针对通用视觉模型的评测基准, 弥补通用视觉模型评测领域的空白。当前, 行业中已有的评测基准主要针对单一任务、单一视觉维度设计, 无法反映通用视觉模型的整体性能, 难以用于横向比较。全新的通用视觉评测基准凭借在任务、数据等层面的创新设计, 可以提供权威的评测结果, 推动统一标准上的公平和准确评测, 加快通用视觉模型的产业化应用步伐。
在任务设计上, 全新开放的通用视觉评测基准创新地引入了多任务评测体系, 可以从分类、目标检测、语义分割、深度估计、行为识别 5 类任务方向, 对模型的通用性能进行整体评估。不仅如此, 该评测基准新加了仅用测试数据集 10% 数据量的评测设定, 可以有效评估通用模型在真实数据分布下的小样本学习能力。在测试后, 评测基准还会根据模型的评测结果给出相应的总分, 方便使用者对不同的模型进行横向评测。
随着人工智能与产业融合的不断深入, 行业对人工智能的需求逐渐从单一任务向复杂的多任务协同发展, 亟需构建开源、开放的体系, 以满足趋于碎片化和长尾化的海量应用需求。
去年 7 月, 上海人工智能实验室发布开源平台体系 OpenXLab, 涵盖新一代 OpenMMLab 和决策 AI 平台 OpenDILab。此次与商汤科技及高校联合发布通用视觉开源平台 OpenGVLab, 不仅能帮助开发者降低通用视觉模型的开发门槛, 为推动通用视觉技术发展奠定基础, 也进一步完善了 OpenXLab 开源体系, 促进人工智能的基础研究和生态构建。
来源:互联网