双十一走到第九年,蚂蚁金服的工程师终于不用喝红牛加班了

摘要

「以前双十一,工程师们必须喝红牛过。今年我们喝着红酒、喝着茶也能过。这是我们一直在期望的理想状态。」

距离 2017 年双十一还有一个多星期的时候,蚂蚁金服技术副总裁胡喜就有预感,今年团队需要承担的压力可能没有从前那么「吓人」了。

事实上,支付环境并没有变,甚至「每年的支付压力都比前一年更大「。今年,在时间进入 11 月 11 日凌晨的第 11 秒,天猫双十一的成交额就超过了 1 亿元。交易峰值达到了每秒 32.5 万笔。

而 13 个小时后,交易额已经达到了 1207 亿元,超过了去年全天的数据。

对于外部来说,人们更容易直观感受到的是双十一的交易额和数字,但对支付系统本身来说,满足每年 11 月 11 日零点刚到就疯狂涌来的支付需求,无疑于应对一场凶猛的洪水。这背后是对系统技术架构承受峰值能力的考验——这对蚂蚁金服的技术团队来说一直是个巨大的挑战,也是团队一直在努力解决的核心问题。

每一年,如何抗住这关键的一秒,像是一个难度不断升级的游戏,蚂蚁金服的技术团队需要做的是不断提升技术挑战看上去「不可能」的奇迹。不过如今,从 2009 年开始的双十一迎来第九个年头的时候,胡喜很有自信的认为,在整个团队的工作比重中,双十一有可能渐渐会成为重量级和难度没那么高的「日常任务」。

那么,这背后发生了什么?

「未问先答」的智能客服

负责「买买买」的消费者可能没有感知,但支付宝的客服团队在过去几年需要承受的压力是很难被想象的。特别是在流量爆棚的双十一期间,负责解疑答惑的电话客服每天工作的时间和强度都超过负荷。

一个有点让人「心酸」的例子是,早些年客服团队甚至设立了「金膀胱奖」,用于奖励能够在岗位上坚持最长时间、服务最多客户的客服人员。

但每年的压力都在持续升级,增加越来越多的人手显然是不可能的。于是从 2014 年开始,支付宝内部的智能客服系统在蚂蚁金服内部开始酝酿。

这套系统的核心目标当然是节省人力成本、提高效率。但让机器做到这一点的前提是深刻的理解用户的需求——不只支付宝,这也是智能客服行业共同需要解决的问题。


背后依靠的是算法和对用户轨迹的分析。从 2015 年开始,支付宝开始从深度学习算法、知识图谱等方面入手构建这个智能客服机器人。从最基础的功能出发,它能像所有客服系统一样,为线上用户解答解答「余额宝是什么」、「如何开通花呗」等简单的业务咨询,即便这些询问有时会十分模糊,这套系统也可以通过多轮对话解决个性化需求;而与此同时,这个智能客服系统还可以通过用户的行为轨迹、个性化向推断和猜测,通过语音的方式,在用户打来的求助电话里「未问先答」,提供服务。

比如,当一位用户希望了解「花呗」还款规则的用户,在打来电话的那一刻,系统已经根据他在支付宝操作、点击过的轨迹和曾经询问过的问题等信息推断出了他的疑惑,甚至会在用户开口前判断「你是否想询问花呗还款的问题?」

「很多时候我们客服的角色是相对滞后的,要等用户找上门来提出问题,甚至反复不断提出要求才能够回应,我们认为极致服务应该没有这样的服务,而是把事情做到事前。」蚂蚁金服智能客服技术负责人子孟告诉极客公园。

技术的大规模应用肯定能带来效率的提升和成本的下降。子孟表示,目前每天有大概 50% 的问题可以通过「未问先答」的第一个场景「猜你问题」识别并且解决。而在这套系统的帮助下,2016 年的双十一,支付宝智能客服的自助率达到 97%;虽然双十一的成交额每年都在翻新,但蚂蚁金服的客服数量并没有很大的增加。

而这套智能客服系统是否会最终取代人工客服的工作,让人类「失业」,似乎也是一个合理的问题。但子孟表示,这套智能客服系统想做到的是「机器智能」,而不是人工智能:

」客服系统以前做的快捷的应答,目标都是怎样像人一样更好的做回答都还是在模拟人来做服务,但是机器可以做到不像人的服务,比如预判你的问题。"从这个层面上来说,蚂蚁金服的智能客服系统对于「辅助」人类的意义,可能要大于「替代」人类。

争夺关键的「一秒钟」

更加智能的客服系统只是第一步,蚂蚁金服需要应对的更大难题在于,如何在双十一「零点整」承接住突然涌来的支付需求。

你很难想象为了这「一秒钟」的冲刺,技术团队要做什么样的准备:「以前的双 11,技术保障团队差不多三四百人,好多人是从年初就开始准备,放下手头很多事支持双十一,每个双十一之后大家都非常累。」

背后最重要的是如何抗住巨大流量下的计算需求。在双十一最开始的 2010 年,团队的状态是手忙脚乱的,最开始支撑支付宝计算体系的是「人肉云计算」,每个工程师需要时刻关注着自己服务器的系统水位,「谁出现问题就吼一嗓子,哪里有空闲的资源赶紧调过来,后来容量不够,就把一些不够关键的系统杀掉。」胡喜表示。

到了 2013 年,蚂蚁金服终于完全启用云计算,2016 年又调整为弹性构架,百分之 50% 的计算资源放在自有机器上,50% 交给云处理。

但这背后依旧存在一个问题,每年双十一带来的流量比日常峰值高几十倍,为了双十一的峰值需求,需要大量采购机器,但双十一过去,这些机器就被闲置了。更可怕的是,这也是一种高度集中的架构。所有核心账目都存在某处,一旦发生故障,带来的损失巨大。


(每年双十一前夕,蚂蚁金服的工程师团队会紧张的「拜关公」)

到今年,蚂蚁金服开始尝试用离在线混部的方式解决这个问题。这种技术的核心优势是在需求集中爆发时最高效的分散和调动所有计算资源。

胡喜用货运的例子做比喻:「假如说我做一个货运公司,我要把货从杭州运到上海,家里有 10 台车。突然双 11 要运的货变多,10 台车不够,原来的解决方法是买更多的车,但现在我们不仅可以借车(比如从阿里云借资源),还可以让家里的客车、轿车一起运,背后需要做的是把整个送货系统部署的标准化一点,那么就可以让货物不依赖车型送到上海了。」

依靠离在线混部这种分布式架构,可以对计算资源进行精准的上层容量调度,迅速把合适的需求分配给合适的资源,让性能较差的离线机房也把它们的能力贡献出来。「我们今年准备了让 25% 的资源让自有机器处理,55% 放在云上,20% 利用离线资源。」胡喜表示,「到明年,我们希望几乎是所有离线资源和在线资源融合在一起使用。」

实际上,这样「跑」出来的系统容量是更充盈的,自然也给系统更多的自信处理支付相关问题。比如金融风控方面,最早偏向规则构架,现在开始像人工智能方向转型,需要的就是更充沛的计算资源。目前,这套智能实时风险监控系可以实现分布式金融交易之外的金融级实时决策的能力。消费者最熟悉的运费险及其定价方式就是这套系统实时运算给出的结果。

以上种种技术的突破,能够承载的可能不只是消费者双十一零点「那一秒」释放出的奇迹能量,长远来看,它们或许会成为一个更强大的商业生态体系的基础。

但最直接的效率体现在了今年的双十一里:「以前双十一,工程师们必须喝红牛过。以后希望喝着红酒、喝着茶也能过。这一直是我们期望的理想状态。」


(编辑:王伟;图片来源:蚂蚁金服、视觉中国)

打开极客公园App阅读更多内容

最新文章

极客公园

用极客视角,追踪你最不可错过的科技圈。

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

顶楼

关注前沿科技,发表最具科技的商业洞见。