更全面、更稳定、更高效支持工业大生产PaddlePaddle提出的最优解

迈入开源第三年，深度学习平台 PaddlePaddle 又发重磅升级。

4 月 23 日，由深度学习技术及应用国家工程实验室与百度联合主办的首届 WAVE SUMMIT 2019 深度学习开发者峰会上，PaddlePaddle 首秀全景图，并连抛 11 项重磅发布！

开发环节，全新发布工业级 NLP 开源工具集 PaddleNLP，以及业界首个视频识别工具集；训练环节，展现大规模分布式训练、工业级数据处理两大特性；部署环节，首发预测服务 Paddle Serving 和用于模型压缩的 PaddleSlim；工具方面，首发预训练模型管理工具 PaddleHub、深度强化学习工具 PARL 重要升级、自动化网络结构设计 AutoDL Design 正式开源；服务方面，发布了价值一亿人民币的算力支持计划以及企业深度学习实战营。

深度学习推动人工智能进入工业大生产阶段，深度学习框架是智能时代的操作系统。从开发、训练、部署、工具到服务，PaddlePaddle 展现了历经产业实践打磨的「趁手利器」所拥有的全面、稳定与高效。

一、 开发：新增 NLP、视频两大模型工具集

在模型库方面，PaddlePaddle 已开源 60 多个经过真实业务场景验证的官方模型，涵盖视觉、自然语言处理、推荐等 AI 核心技术领域，成为官方支持模型最多的深度学习平台。而此次，PaddlePaddle 再次全新发布工业级 NLP 开源工具与预训练模型集 PaddleNLP，以及业界首个视频识别工具集。

PaddleNLP 是基于 PaddlePaddle 打造的面向工业应用的中文 NLP 工具集，覆盖全面的中文处理任务，工业使用效果突出。PaddleNLP 提供全面丰富的中文处理任务，并拥有当前业内效果最好的中文语义表示模型 ERNIE 和基于用户大数据训练的应用任务模型。基于 PaddlePaddle 深度学习框架构建的基础 NLP 算法模型和 NLP 应用任务的灵活组合，同类型算法模型可灵活插拔，真正高效易用。

此外，PaddlePaddle 还发布了业界首个视频识别工具集，旨在为开发者提供解决视频理解、视频编辑、视频生成等一系列任务的便捷、高效的模型。工具集提供了适合视频任务的通用骨架代码，覆盖视频识别方向的 7 大主流领先模型，包括 StNet、Attention LSTM 、Attention Cluster 三大帮助百度视觉团队夺得国际竞赛冠军的自研领先模型。目前，该领先的视频理解技术已在百度多项核心业务中使用，如百度 Feed 流，百度搜索，百度云 VCA 系统等，视频标签集 Top5 准确率达到 96%，百度 Feed 流短视频分类全免人审。

二、 训练：业界最强的超大规模并行深度学习能力

训练环节，超大规模深度学习并行技术一直是 PaddlePaddle 的优势之一。此次大规模分布式训练主要从三方面实现了升级，首先是对多机多卡训练的的全面支持，实现了良好的可扩展性。同时发布了针对网络条件不好的情况下的稀疏通信技术，大幅降低了带宽对训练速度的影响。

其次，针对超大规模稀疏参数的挑战，设计并开放了大规模稀疏参数服务器，开发者可轻松下载相关镜像使用。基于真实的推荐场景的数据验证，PaddlePaddle 在 100 节点*10 线程/节点的情况下，根据 batch size 的不同吞吐量可达 60 万~ 140 万 /s，每小时可处理 20 ~ 50 亿数据，且达到 batch size 为 512 的情况下 90% 的加速比。该系统已应用于百度 feed 流以及凤巢商业推广系统中，可有效地解决超大规模推荐系统、超大规模数据、自膨胀的海量特征及高频率模型迭代的问题，拥有超大吞吐量及高效率。

第三，大规模分布式训练支持在各种容器上高速运行，同时支持在 K8S 生态下使用 PaddlePaddle 进行训练。

在这种大规模数据场景下，数据的吞吐非常关键，对于数据做处理往往是一大痛点，对此，PaddlePaddle 研发了数据处理组件方便开发者使用。优化分布式 IO，增加远程文件系统流式读取能力。GPU 多机多卡同步训练通过增加稀疏通信能力提升带宽不敏感训练能力，在低配网络带宽网络环境下，例如 10G 网络下，同步训练可提速 10 倍。

三、部署：首发预测服务 Paddle Serving、用于模型压缩的 PaddleSlim

开发和训练后，将模型部署到各种应用场景下是非常关键的一个步骤。部署环节需要高速的推理引擎，在此基础上，为了部署在更多的硬件上往往需要做模型压缩，在真正使用时，还需要软硬一体能力的支持。

（PaddlePaddle 端到端全流程部署方案）

目前，PaddlePaddle 提供完整的端到端的全流程部署方案。基于多硬件的支持，PaddlePaddle 提供性能全面领先的底层加速库和推理引擎。此次大会，PaddlePaddle 全新发布了预测服务 Paddle Serving，以及用于模型压缩的 PaddleSlim。

Paddle Serving 可与核心框架的模型训练环节无缝衔接，提供深度学习预测云服务，内置模型，可批量预测。Paddle Serving 目前已在百度的很多产品线使用。

而 PaddleSlim 实现基于 PaddlePaddle 的模型压缩，能够在精度损失较小的情况下高效进行模型体积压缩，覆盖目前主流的网络剪枝、量化、蒸馏三种压缩策略。参数集中管理，两行 python 代码即可调用自动化模型压缩。针对体积已经很小的 MobileNet 模型，它仍能在模型效果不损失的前提下实现 70% 以上的体积压缩。

四、工具：开源 AutoDL Design、升级 PARL、首发 PaddleHub

灵活、高效、易用是 PaddlePaddle 大受欢迎的重要原因。在多项全新发布及重磅升级中，工具组件方面显得尤为突出。此次，PaddlePaddle 不仅重磅开源 AutoDL Design、升级深度强化学习框架 PARL，并首次提出并发布预训练模型管理工具 PaddleHub。

传统的神经网络的结构设计是由人根据经验设计，并不断的进行调参训练获得最优结果，这个过程较为复杂和费时费力。AutoDL Design 自动化网络结构设计是用深度学习设计深度学习，理想状态下，只需要使用者提供一份数据集，整个系统就可以根据数据集自身，不断尝试不同类型的网络结构和连接方式，训练若干个神经网络模型，逐步进行自动化反复迭代和尝试，产出模型。本次重磅开源了基于 PaddlePaddle 实现的 AutoDL Design 源码，以及在 CIFAR-10 数据集上训练出来的一共 6 个模型，这 6 个模型进行融合，可获得超过 98% 的准确率。

PARL 是一款基于百度 PaddlePaddle 打造的深度强化学习工具，继 1.0 版本开源了 NeurIPS 2018 假肢挑战赛冠军训练代码以及主流强化学习模型后，本次升级聚焦并行，通过一个简单的修饰符即可实现并行化。数据预处理以及 simulator 仿真等计算密集型的任务经过这个修饰符之后，会自动部署到用户指定的计算资源上运行，不再占用主线程的计算资源。以通过 PARL 实现的 IMPALA 算法的评估结果为例, 在雅达利这个经典评测环境中，Pong 游戏最快可在 7 分钟内达到 20 分，breakout 游戏在 25 分钟达到 400 分。

PaddleHub 是一款简明易用的预训练模型管理框架，提供包括预训练模型管理、命令行一键式使用和迁移学习三大功能，旨在帮助用户更高效地管理模型并开展迁移学习的工作。

模型管理上通过 hub 命令行可完成基于 PaddlePaddle 的预训练模型下载、搜索、版本管理等功能。无需代码，通过命令行即可直接使用预训练模型进行预测，快速调研训练模型效果。迁移学习方面，提供了基于预训练模型的 Finetune API。活动现场，马艳军演示了低至 10 行代码即完成迁移学习的惊艳 Demo。

五、服务：算力支持计划，价值一亿人民币！

算力是深度学习发展不可或缺的重要「能源」。为此 PaddlePaddle 宣布了一个振奋全场的「土豪」计划——百度一站式开发平台 AI Studio 重磅推出价值一亿人民币的算力支持计划，为开发者破除算力桎梏。

据悉，免费算力主要以两种模式提供，第一种是一人一卡模式，使用邀请码即可获赠算力时长。另外一种是远程集群模式，PaddlePaddle 提供高性能集群，开发者只需登录 AI Studio，便可以免费使用。

百度对于深度学习开发者的支持不仅于此。面向高校，推出深度学习师资培训班、协同育人专项基金、AI Studio 教育版。面向开发者，提供免费在线课程、免费算力支持、并举办不间断的赛事互动。面向企业，推出深度学习架构师培养计划黄埔学院，此次进一步推出了可覆盖 1000 家企业的企业深度学习实战营——AI 快车道。

更精进的基础框架设计、更丰富的算法模型、更强大的系统性能和稳定性、更完备的异构硬件支持、更全面贴心的开发者生态……开源三年，PaddlePaddle 始终在实践中不断锻造锤炼，为中国开发者打造趁手「神兵」。

风云骤起的智能时代何以亮剑？或许 PaddlePaddle 可以成为你的选择。

最新文章