百度云智峰会上海站:百度众包赋能数据,助燃人工智能

摘要

4月12日,百度云智峰会-2017ABC生态及合作伙伴大会于上海国际会议中心成功举办。百度众包(zhongbao.baidu.com)首席数据解决方案专家李明出席并发表主题为《百度众包平台数据服务探索与实践》的演讲,通过众包模式帮助企业或开发者解决如何获取海量标注数据的难题。 

百度众包首席数据解决方案专家 李明

人工智能,算法是发动机,数据是燃料。对于很多公司,获取海量而优质的标注数据是实现人工智能的先决条件。算法模型是计算机基于大规模的训练数据集,归纳出的识别逻辑,以实现精准的物体和场景识别。可以说,实现机器精准识别的重要一步,就是获取海量而优质的标注数据。

李明在此次峰会的演讲中提到:”以人脸识别为例,训练该算法模型的图片数据量至少应为百万级别。这么大规模的数据获取和数据的加工处理,对人工智能开发者来说,无疑是一个大的挑战。“

众包平台往往是大部分公司解决这一挑战的选择。百度众包是全国最大的众包平台,从2011年成立至今,已累计完成1万小时语音采集、10亿条数据标注、1000亿条数据抓取。不仅服务于内部的百度NLP、百度地图等部门,并且将此成熟的服务对外开放,助力蔚来汽车、图灵机器人等人工智能公司飞速发展。百度众包提供的是一站式海量训练数据服务,包括数据获取,数据加工,以及数据的定制化服务。整合线上线下资源获取到目标数据;通过加工,实现数据价值最大化;根据需求定制数据解决方案,帮助客户实现技术和应用的突破和创新。

 

数据采集

百度众包数据采集服务,可以获取到网页,文本,图片,视频,音频等数据。数据的获取来源包括:

√  线上互联网的自动化采集,每天可抓取1亿条网络数据;

√  线下众包采集,来自300多个城市的10,000名众包采集员,基于真实场景快速采集目标数据,如语音、地理位置信息等;

√   问卷调研采集,百度众包依托于1,700万的庞大样本用户,支持以问卷调研方式获取个人行为和行业咨询数据。 

数据加工

通过采集得到的数据大多是原始数据,不能直接被拿来使用,需要进行加工。百度众包拥有10,000名专业的标注员,以日均200万条数据的承接能力高效处理海量数据标注需求,提供三种数据加工处理方式:

● 数据清洗,有干扰数据的,需要去噪,涉及隐私的要对数据进行脱敏;

●  对于采集到的图像,网页等非结构化数据,要对其进行结构化加工处理;

●  数据关联处理主要是指数据的标签化,数据的时效性等等。

如何保障众包平台的效率和质量,是刚起步或一些小型众包平台无法攻克的难题。百度众包凭借200名专业数据质检员,以及在6年的实践中建立起了一套完善的质量管理体系,包括标注员培训体系、数据的机器审核体系、数据人工审核体系等,确保我们数据加工的质量满足客户要求。

数据服务

自筹数据、对接公共数据库或行业数据,都拥有较高的数据获取处理成本。因此需要有专业的数据服务商对数据进行共建和分享,整合成数据服务。

众包是一种高效的数据建设模式

通过我们的实践表明,利用众包模式共享劳动力,形成数据共建模式,不仅可为企业提供高效高质地可用数据,更可以节约成本。

以3000小时的普通话语音采集为例,百度众包首先结合线上线下多种渠道的运营活动,充分调动众包用户在真实环境下的积极参与,平均一天采集100小时语音数据;而后又对采集的数据进行清洗(语音文本匹配,清晰度,去重等)和语音文本转写标注(误差率<3.5%);最后以数据服务方式提供给语音助手,语音输入法,语音客服等领域的智能客户,为相关模型算法提供精准学习语料。 

百度众包除了数据服务外,还将众包模式及云技术结合。基于百度10余条过亿用户APP测试经验的累计和验证,将百度领先的测试技术以百度移动云测试中心_MTC平台对外推出。通过云测实验室的海量真实手机及百度专业的测试专家团队,为企业提供移动App定制测试方案;同时通过独创的本地化移动App测试解决方案,可为企业迅速搭建一个内网真机自动化测试实验室,实现测试数据私有,设备远程管理等服务,助力企业快速实现移动化。资讯


来源:新闻资讯

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。