更全面、更稳定、更高效 支持工业大生产PaddlePaddle提出的最优解

摘要

迈入开源第三年,深度学习平台PaddlePaddle又发重磅升级。

迈入开源第三年,深度学习平台 PaddlePaddle 又发重磅升级。

4 月 23 日,由深度学习技术及应用国家工程实验室与百度联合主办的首届 WAVE SUMMIT 2019 深度学习开发者峰会上,PaddlePaddle 首秀全景图,并连抛 11 项重磅发布!

开发环节,全新发布工业级 NLP 开源工具集 PaddleNLP,以及业界首个视频识别工具集;训练环节,展现大规模分布式训练、工业级数据处理两大特性;部署环节,首发预测服务 Paddle Serving 和用于模型压缩的 PaddleSlim;工具方面,首发预训练模型管理工具 PaddleHub、深度强化学习工具 PARL 重要升级、自动化网络结构设计 AutoDL Design 正式开源;服务方面,发布了价值一亿人民币的算力支持计划以及企业深度学习实战营。

深度学习推动人工智能进入工业大生产阶段,深度学习框架是智能时代的操作系统。从开发、训练、部署、工具到服务,PaddlePaddle 展现了历经产业实践打磨的「趁手利器」所拥有的全面、稳定与高效。

一、 开发:新增 NLP、视频两大模型工具集

在模型库方面,PaddlePaddle 已开源 60 多个经过真实业务场景验证的官方模型,涵盖视觉、自然语言处理、推荐等 AI 核心技术领域,成为官方支持模型最多的深度学习平台。而此次,PaddlePaddle 再次全新发布工业级 NLP 开源工具与预训练模型集 PaddleNLP,以及业界首个视频识别工具集。

PaddleNLP 是基于 PaddlePaddle 打造的面向工业应用的中文 NLP 工具集,覆盖全面的中文处理任务,工业使用效果突出。PaddleNLP 提供全面丰富的中文处理任务,并拥有当前业内效果最好的中文语义表示模型 ERNIE 和基于用户大数据训练的应用任务模型。基于 PaddlePaddle 深度学习框架构建的基础 NLP 算法模型和 NLP 应用任务的灵活组合,同类型算法模型可灵活插拔,真正高效易用。

此外,PaddlePaddle 还发布了业界首个视频识别工具集,旨在为开发者提供解决视频理解、视频编辑、视频生成等一系列任务的便捷、高效的模型。工具集提供了适合视频任务的通用骨架代码,覆盖视频识别方向的 7 大主流领先模型,包括 StNet、Attention LSTM 、Attention Cluster 三大帮助百度视觉团队夺得国际竞赛冠军的自研领先模型。目前,该领先的视频理解技术已在百度多项核心业务中使用,如百度 Feed 流,百度搜索,百度云 VCA 系统等,视频标签集 Top5 准确率达到 96%,百度 Feed 流短视频分类全免人审。

二、 训练:业界最强的超大规模并行深度学习能力

训练环节,超大规模深度学习并行技术一直是 PaddlePaddle 的优势之一。此次大规模分布式训练主要从三方面实现了升级,首先是对多机多卡训练的的全面支持,实现了良好的可扩展性。同时发布了针对网络条件不好的情况下的稀疏通信技术,大幅降低了带宽对训练速度的影响。

其次,针对超大规模稀疏参数的挑战,设计并开放了大规模稀疏参数服务器,开发者可轻松下载相关镜像使用。基于真实的推荐场景的数据验证,PaddlePaddle 在 100 节点*10 线程/节点的情况下,根据 batch size 的不同吞吐量可达 60 万~ 140 万 /s,每小时可处理 20 ~ 50 亿数据,且达到 batch size 为 512 的情况下 90% 的加速比。该系统已应用于百度 feed 流以及凤巢商业推广系统中,可有效地解决超大规模推荐系统、超大规模数据、自膨胀的海量特征及高频率模型迭代的问题,拥有超大吞吐量及高效率。

第三,大规模分布式训练支持在各种容器上高速运行,同时支持在 K8S 生态下使用 PaddlePaddle 进行训练。

在这种大规模数据场景下,数据的吞吐非常关键,对于数据做处理往往是一大痛点,对此,PaddlePaddle 研发了数据处理组件方便开发者使用。优化分布式 IO,增加远程文件系统流式读取能力。GPU 多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力,在低配网络带宽网络环境下,例如 10G 网络下,同步训练可提速 10 倍。

三、部署:首发预测服务 Paddle Serving、用于模型压缩的 PaddleSlim

开发和训练后,将模型部署到各种应用场景下是非常关键的一个步骤。部署环节需要高速的推理引擎,在此基础上,为了部署在更多的硬件上往往需要做模型压缩,在真正使用时,还需要软硬一体能力的支持。

(PaddlePaddle 端到端全流程部署方案)

目前,PaddlePaddle 提供完整的端到端的全流程部署方案。基于多硬件的支持,PaddlePaddle 提供性能全面领先的底层加速库和推理引擎。此次大会,PaddlePaddle 全新发布了预测服务 Paddle Serving,以及用于模型压缩的 PaddleSlim。

Paddle Serving 可与核心框架的模型训练环节无缝衔接,提供深度学习预测云服务,内置模型,可批量预测。Paddle Serving 目前已在百度的很多产品线使用。

而 PaddleSlim 实现基于 PaddlePaddle 的模型压缩,能够在精度损失较小的情况下高效进行模型体积压缩,覆盖目前主流的网络剪枝、量化、蒸馏三种压缩策略。参数集中管理,两行 python 代码即可调用自动化模型压缩。针对体积已经很小的 MobileNet 模型,它仍能在模型效果不损失的前提下实现 70% 以上的体积压缩。

四、工具:开源 AutoDL Design、升级 PARL、首发 PaddleHub

灵活、高效、易用是 PaddlePaddle 大受欢迎的重要原因。在多项全新发布及重磅升级中,工具组件方面显得尤为突出。此次,PaddlePaddle 不仅重磅开源 AutoDL Design、升级深度强化学习框架 PARL,并首次提出并发布预训练模型管理工具 PaddleHub。

传统的神经网络的结构设计是由人根据经验设计,并不断的进行调参训练获得最优结果,这个过程较为复杂和费时费力。AutoDL Design 自动化网络结构设计是用深度学习设计深度学习,理想状态下,只需要使用者提供一份数据集,整个系统就可以根据数据集自身,不断尝试不同类型的网络结构和连接方式,训练若干个神经网络模型,逐步进行自动化反复迭代和尝试,产出模型。本次重磅开源了基于 PaddlePaddle 实现的 AutoDL Design 源码,以及在 CIFAR-10 数据集上训练出来的一共 6 个模型,这 6 个模型进行融合,可获得超过 98% 的准确率。

PARL 是一款基于百度 PaddlePaddle 打造的深度强化学习工具,继 1.0 版本开源了 NeurIPS 2018 假肢挑战赛冠军训练代码以及主流强化学习模型后,本次升级聚焦并行,通过一个简单的修饰符即可实现并行化。数据预处理以及 simulator 仿真等计算密集型的任务经过这个修饰符之后,会自动部署到用户指定的计算资源上运行,不再占用主线程的计算资源。以通过 PARL 实现的 IMPALA 算法的评估结果为例, 在雅达利这个经典评测环境中,Pong 游戏最快可在 7 分钟内达到 20 分,breakout 游戏在 25 分钟达到 400 分。

PaddleHub 是一款简明易用的预训练模型管理框架,提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能,旨在帮助用户更高效地管理模型并开展迁移学习的工作。

模型管理上通过 hub 命令行可完成基于 PaddlePaddle 的预训练模型下载、搜索、版本管理等功能。无需代码,通过命令行即可直接使用预训练模型进行预测,快速调研训练模型效果。迁移学习方面,提供了基于预训练模型的 Finetune API。活动现场,马艳军演示了低至 10 行代码即完成迁移学习的惊艳 Demo。

五、服务:算力支持计划,价值一亿人民币!

算力是深度学习发展不可或缺的重要「能源」。为此 PaddlePaddle 宣布了一个振奋全场的「土豪」计划——百度一站式开发平台 AI Studio 重磅推出价值一亿人民币的算力支持计划,为开发者破除算力桎梏。

据悉,免费算力主要以两种模式提供,第一种是一人一卡模式,使用邀请码即可获赠算力时长。另外一种是远程集群模式,PaddlePaddle 提供高性能集群,开发者只需登录 AI Studio,便可以免费使用。

百度对于深度学习开发者的支持不仅于此。面向高校,推出深度学习师资培训班、协同育人专项基金、AI Studio 教育版。面向开发者,提供免费在线课程、免费算力支持、并举办不间断的赛事互动。面向企业,推出深度学习架构师培养计划黄埔学院,此次进一步推出了可覆盖 1000 家企业的企业深度学习实战营——AI 快车道。

更精进的基础框架设计、更丰富的算法模型、更强大的系统性能和稳定性、更完备的异构硬件支持、更全面贴心的开发者生态……开源三年,PaddlePaddle 始终在实践中不断锻造锤炼,为中国开发者打造趁手「神兵」。

风云骤起的智能时代何以亮剑?或许 PaddlePaddle 可以成为你的选择。


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。