当你还在「买买买」,这些小鲜肉却在成为消费时代的「数据预言家」

当你还在「买买买」,这些小鲜肉却在成为消费时代的「数据预言家」

17 岁生日刚过,高二的谢春阳马上要去美国密涅瓦大学读书,在其他同学备战期末考试之际,他有了一段自由的空闲时间可以支配。通过导师引荐,谢春阳了解到了阿里巴巴第二届天池数据大赛。

他第一时间打电话给杨启帆,比自己高一年级,初识于学校的信息学竞赛的学长。在杨启帆的心里,谢春阳是一个冷静理性的学弟,当接到谢的邀请电话时,杨启帆二话不说就加入进来。

「在学校参加的竞赛只是试题,和真实生活中的难题差很远,结合地不紧密。」而这一次,谢春阳接触到的是真实脱敏的商业数据,他们要做的是根据数据大赛的两道题目,挖掘出数据背后的价值,比如 9 月份有多少人在余额宝上存钱。

数据预测没有标准的答案,只能近一点,再近一点

这一届天池大赛是阿里巴巴举办的用真实场景数据(脱敏后非隐私数据)为赛题的算法大赛,参赛人数超过 2 万人,报名选手以高校学生为主,诸如中国科学院、两电一邮(电子科技大学、西安电子科技大学、北京邮电大学)、北大浙大等。海外高校中,美国报名选手最多,其中不乏普渡大学、卡内基梅隆大学等全球顶尖院校。

面对不相上下的竞争对手,最开始,杨启帆以为之前积累的竞赛经验能够帮助他和谢春阳获得优势,但随着比赛的深入,他们越发觉得,真实数据的比赛没有标准答案,他们先是被上海同行拆放利率(SHIBOR)等各种经济学概念迷惑,各种变量和每天上交的数据,有时措手不及。

「写惯了 Pascal 和 C++的我,在认识到 ARIMA 以及神经网络算法的代码量之后才认识到工程的浩大,最后还是借助 Mathematica 以及 Matlab 之类的高级工具才完成的任务,一边自学着 Python 和 R 一边统计调试数据,颇有被赶鸭子上架的感受。但是在初步理解了算法,连调了几天的参数之后,并没有什么进展,一直在原地踏步。」杨启帆说。

他们开始切换角度下手:从多个方面优化初始数据,在编辑参数的同时进行分组、调节序列。靠这样可以称为侥幸的方法成功地突破一堵无形的墙。

杨启帆最大的感触在于:「数据代表的个体以及蕴藏的人文情怀。毕竟,用户是活生生的人,不是 PVZ 里闭着眼睛走路的僵尸,不是 1 Terran Vs 2 Zergling 里面两只蠢萌的小狗,完美的预测他们的行动呢难于登天。表中的一条条数据的背后,是数字化的余额宝用户的生活晴雨表。」

「拿账号的行为举例:有开了账号再也不管的,有可能一时兴起开了账号玩一星期就丢下溜之大吉的,也可能是冲一笔花一笔将余额宝当中转站的,也有的充一笔慢慢花花完搁置一段时间再来的,当然也不乏精打细算里面放着一大笔钱收利息的。这些映射的是背后人的思绪,是背后人的喜怒哀乐。」

1.png三位来自伊朗的选手此前虽然不知余额宝为何物,但他们在预测余额宝资金流入流出的比赛中排名一直不错。三人均来自伊斯法罕大学,在读硕士。

2.png

任伟航和蔡慧华是一对异地情侣,绰号「黑白双煞」,同是 24 岁,男生是北京邮电大学硕士,从通信转行做数据挖掘。女生是西南大学硕士,是一个外表萌妹子,内心女汉子。比赛结束时,任伟航一把搂住蔡慧华,说:「这次比赛之后,感觉我们好像一辈子不会再分开了。

「买买买」时代的数据预言

整个比赛分为两场联赛。第一道赛题是移动推荐算法赛,选手们需要根据用户在移动端的行为,预测用户对某些商品可能的购买情况。

今年是移动电商业务快速发展的一年,8 月 12 日公布的阿里巴巴二季度财报中,移动端收入首次过半。相比 PC 时代,移动端网络的访问是随时随地的,具有更丰富的场景数据,比如用户的位置信息、用户访问的时间规律等。

大赛的第一道题以阿里巴巴移动电商平台的真实用户的商品行为数据为基础,同时提供特有的位置信息,参赛队伍则需要通过大数据和算法构建面向建移动电子商务的商品推荐模型。为移动用户在合适的时间、合适的地点精准推荐合适的内容。

在这一场赛题中,冠军队 SecRet;WeaPon 在业界首次将深度卷积网(Deep Convoluational Neural Network)应用于个性化推荐中。该项算法如应用到阿里系业务中,预计将提升个性化推荐 10% 的点击率,带来的商业收益可能是亿级的。

第二道题由蚂蚁金服的客户资金部和安全服务数据事业群一起出题:测算余额宝资金流入流出。

蚂蚁金服拥有上亿会员和丰富的资金流入流出的业务场景,海量互联网金融用户的资金行为是金融创新带来的新现象,给传统的资金管理提出了新挑战。在既要尽量控制流动性风险,又要满足蚂蚁金服日常业务运转的情况下,预测资金的流入流出就越来越重要。

赛题提供了部分余额宝用户在过去 13 个月的申购赎回数据,要求参赛选手预测未来 1 个月每天的申购赎回量。在出题思路上提供了 2013 年 7 月 1 日到 2014 年 8 月 31 日期间的样本用户申购赎回数据以及月报收益情况,希望预测出 2014 年 9 月 1 日到 2014 年 9 月 30 日之间的申购赎回总量。

这道题的价值在于三点:资金的流入流出是日常业务运转的需要;其次可以管理资金流动性风险;第三则是可以根据数据预测安排中长期资金。

为什么要预测 9 月的资金流入流出规律呢?主要是因为 9 月包含了一个中秋节小长假以及国庆节前的调休,加上开学,是全年规律变化较为明显的月份。谢春阳和杨启帆参与了这场比赛,二人在这场比赛中,成绩一直名列前茅。

阿里内部的神秘算法

在阿里巴巴正式对外界公布算法之前,也进行了内部赛。内部员工也对赛题做出了自己的算法,内部赛产生的 baseline 代码对外部赛选手提供了很好的参考基准。例如:

「猜你喜欢」算法架构:

共享事业部的泊智贡献的算法是「猜你喜欢」——目前电商导购比较常见的推荐产品形态,针对算法的三层体系架构以及每一层涉及到的核心算法,沉淀了一套通用的 pipeline 推荐框架;提出了一种基于用户全息画像生成种子的算法;提出一种全新的展示模式优化算法,使用 pipeline 框架对现有「猜你喜欢」场景进行系统化地优化。2 个月时间,9 个猜你喜欢场景的核心指标提升 15% 以上。

阿里妈妈文字识别:

阿里妈妈推广多以图片形式出现,识别这些图片中的文字,可以提供很重要的产品信息,防范各种风险。阿里妈妈事业部的镜宇针对经典文字识别方法存在的问题,结合深度学习的进展,提出了一种解决 OCR 问题的新思路。他们做了 2 点假设:1、单个文字是一个完整的符号。2、文字序列表达出语义。基于此设计了 CNN 的文字识别与语言模型解码结合的技术方案。这一技术已经覆盖阿里妈妈全部审核业务场景。

「深度神经网络」DBN 平行算法:

DBN 算法是深度神经网络的一种,可通过多层网络对特征进行抽象再表征,有很强的学习能力。DBN 通过「逐层预训练」来有效初始化网络参数,再基于后向传播对网络进行有监督的调优。共享事业部拜阳提供的这套算法在阿里巴巴集团内部数个多个分类和排序任务中已经实践。比如,在个性化推荐中,提高点击率和转化率。在广告评论检测中,保证高召回情况下,把样本准确率提高到 98.5%。在商品类目错房检测中,召回率达到 99.9%, 准确率达到 99.0%。

时间序列、回归、乘法模型、随机森林、错误函数、控制,在整个比赛过程中,在去年举办的第一节天池大数据竞赛中,获奖选手的算法参加了天猫双十一的实战。2014 年双十一当天,天猫将会场流量的 10% 到 30% 分配给学生团队,同时,天猫自己的算法团队也用同样的流量进行算法比赛,最终 6 个人的学生团队获胜,获得了 100 万比赛奖金。团队中的代表柯文炜已经加入阿里妈妈 DT 实验室,成为阿里巴巴的一名数据分析员工。

4.png

第一届冠军柯文炜

「这次比赛的数据开放有一个必要前提,就是要确保隐私。开放数据需要经过层层脱敏处理。像一个数据工厂一样需要经过很多道的流水线,客户的部门、技术的部门、安全的部门,一道一道来看。」涂子沛强调,数据开放是社会的浪潮,但数据开放的前提是保护用户隐私,58 亿条数据均通过脱敏处理,充分保障数据安全。涂子沛是畅销书《大数据》的作者,去年年底他离开硅谷来到阿里,担任副总裁一职。

决赛当日,阿里云还发布了国内首个可视化人工智能平台 DTPAI,让开发者能够通过简单拖拽,即可完成对海量数据的分析挖掘,并对用户行为、行业走势等进行预测。该平台集成了阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等。

南京理工大学钱肃驰、彭甫镕、李翔组成的「SecRet;WeaPon」,哈尔滨工业大学蔡鹏、浙江大学的刘勋、南京大学刘伙玉组成的「三只熊」分别夺得两场比赛冠军,获得 30 万奖金。题图本次大赛冠军团队之一「三只熊」

下载极客公园客户端
iOS下载
反馈