
通过智算系统软硬件高度协同
「我们越来越不认为自己是个硬件厂商」。不日前,浪潮信息高级副总裁刘军向极客公园表示。
从浪潮信息处于国内服务器市场第一的位置来看,这一观点略显意外。此前,在今年大模型的创业潮中,浪潮信息也透露,内部大模型于两年前就在筹备。这不免引起猜测,软件、大模型对于以硬件看家的浪潮信息而言,是新疆土吗?作为全球领先的 AI 服务器供应商,浪潮信息看到了怎样的需求?
近日,浪潮信息发布了大模型智算软件栈 OGAI,又被称作「元脑生智」。会上,浪潮信息高层回应了系列话题。
一、大模型时代的算力,变了
浪潮信息董事长彭震指出,大模型时代的算力供给与云时代的算力供给有着很大的差异。
在云计算时代,客户购买云计算的服务或者是购买设备,两条路都是通的,只是财务的投资模型不一样。但是在大模型时代,算力的需求已经发生了很大变化:大模型的研发动辄要达到万卡,作为一家大模型研发的单位,对于硬件设备的投资要超过几十亿,实际使用中,很多客户面临着买不起、建不了、算不好的困局。
对于市场的变化,浪潮信息 AI 架构总监曾打比方称,AI 大模型的算力集群就像一台性能强劲的法拉利,因为投资很高,可能是上亿或者是数亿的投资;但同时,现在人们还没有学会很好地驾驭它。这是现在市场上的普遍问题,当大力投资布局 AI 的基础设施时,怎么样把它用好,成为一个非常大的挑战。
另一方面,对算力需求最盛的大模型开发场景,也有很多问题。就连 AI 实力雄厚的 Meta,也曾在训练千亿大模型 OPT 时的工作日志中描述:我们无法连续训练超过 1-2 天,这里面有非常多问题需要解决,很浪费时间。
作为全球领先的 AI 服务器提供商,浪潮信息在看到很多一线用户有类似上述的需求和问题后,做出了自己的尝试。
事实上,大模型热潮到来之前,浪潮信息在 2021 年已经开始研发参数量达到 2457 亿的源 1.0 大模型。浪潮信息董事长彭震称,「两年前,浪潮信息做大模型的目的实际上是为了理解人工智能发展演进中,大模型这种技术所面临的挑战。」
浪潮信息人工智能与高性能应用软件部 AI 架构师 Owen ZHU 介绍称,研发「源」大模型团队遇到的第一个问题是,要怎么样快速部署一个包含数千个 GPU 芯片的集群,让它快速的投入到业务中去?随后还遇到了大模型失效的问题等。
率先尝试了训练具备生成式 AI 强大能力的大模型后,浪潮信息在面对大模型场景下算力的痛点更加游刃有余,也逐渐建立了训练大模型的全栈能力。浪潮信息高级副总裁刘军表示,如何让算力更好地支持大模型的训练开发,怎么让大模型开发训练的能力为更多的客户、更多的行业企业所拥有,从而使得(大模型)这个看上去高不可攀的技术快速走入普遍被采纳的阶段,这当中充满了很多工程技术上、软件系统上的挑战。
现在,随着客户「+大模型」的进程加快,客户也会向浪潮信息反馈各种各样的问题,包括比如说在底层硬件、GPU、网络等等层面,用不起来、性能不好,甚至在应用层面性能不好的问题。
相应地,浪潮信息在提供硬件的基础上,选择进一步帮客户解决做大模型生产可能会遇到的问题。基于自身探索「源」大模型,以及服务客户的实践,浪潮信息建立了基于大模型的全栈能力。不久前,浪潮信息推出了大模型智算软件栈 OGAI(Open GenAI Infra),中文名叫「元脑生智」,OGAI 是为大模型业务提供 AI 算力系统环境部署、算力调度保障及模型开发管理能力的全栈全流程的智算软件栈。
二、不只是硬件厂商
OGAI 被定位为算力释放和生产力的保障。
具体来说,OGAI 是浪潮信息从当前大模型算力建设、模型开发和应用落地的实际需求出发,秉承全栈全流程、算力充分释放、实战验证提炼的设计原则打造而成。OGAI 由 5 层架构组成,从 L0 到 L4 分别对应基础设施层的智算中心 OS、系统环境层的 PODsys、调度平台层的 AIStation、模型工具层的 YLink 和多模纳管层的 MModel。
-
L0 层智算中心 OS:面向大模型算力服务的智能算力运管平台,满足多租户以裸金属为主的弹性AI算力运管需求。其中,高效的裸金属服务支持分钟级部署上千规模裸金属节点并按需进行弹性扩展,实现异构计算芯片、IB、RoCE 高速网络、高性能存储等环境一键获取,并实现计算、网络、数据隔离以保障业务安全。
-
L1 层 PODsys:开源、高效、兼容、易用的智算集群系统环境部署方案。聚焦智算集群部署场景,从 OS、驱动到系统监控可视化、资源调度等集群系统环境要素全面覆盖,选用最稳定和广泛兼容的软件版本,通过一系列脚本工具简化部署过程,缩短算力上线周期,并可向企业用户提供实施安装服务和集群性能校准的专家服务。
-
L2 层 AIStation:面向大模型开发的商业化人工智能算力调度平台。针对大模型训练中常见的训练中断难题,可实现训练异常快速定位,断点自动续训:通过快速定位芯片、网卡、通讯设备异常或故障,实现全局训练暂停保持,热备算力自动弹性替换,健康节点快速 CheckPoint 读取,实现断点自动续训。
-
L3 层 YLink:面向大模型数据治理、预训练、微调的高效工具链。聚焦于大模型的数据治理、预训练、微调等开发过程,集成了浪潮信息在大模型研发中的自研工具和开源工具,如数据处理工具包(Y-DataKit)、大模型训练工具包(Y-TrainKit)和大模型微调工具包(Y-FTKit)等等,通过这些多样且完善的工程化、自动化工具,加速大模型的训练和开发效率。
-
L4 层 MModel:提供多模型接入、服务、评测等功能的纳管平台。核心组件包括数据集管理、模型纳管和评测,可以方便开发者和研究人员更好地管理多版本、多类型的基础大模型与任务模型,并通过多样化的评测数据集与评测任务,对多个模型进行生成准确率、推理延迟、推理稳定性等指标进行全面评估。
浪潮信息高级副总裁、AI&HPC 总经理刘军表示:「OGAI 提供完善的工程化、自动化工具软件堆栈,将帮助更多企业顺利跨越大模型研发应用门槛,充分释放大模型创新生产力。
他表示,「我们越来越不认为自己是个硬件厂商」。
这背后是客户需求的推动,「我们硬件当然是强项,但是如何能把这个硬件生意进一步转化成生产力的价值,我们必须要去理解客户的应用需求,理解客户的痛点,去帮助客户解决痛点。浪潮信息不仅在硬件,在系统、软件、算法上面都有非常强的团队和能力,这是帮助客户去用好系统、用好硬件非常重要的保证。」
原来买一个服务器跟买一个手机、电脑一样,买回去自己用就行了,现在,随着对算力的需求持续变大之后,这个问题变得非常复杂。通过智算系统软硬件高度协同来实现调度,也就成为了新的需求。