人生有几何 万物皆向量 ——行列秩为你揭开“表示学习”的神秘面纱

摘要

我的Siri为什么能陪我聊天?电脑怎么就自动完成了老旧黑白照的自动上色?手机如何做到的在数以百计的照片中标记出同一好友并打上标签?

我的Siri为什么能陪我聊天?电脑怎么就自动完成了老旧黑白照的自动上色?手机如何做到的在数以百计的照片中标记出同一好友并打上标签?还有那些更神奇的:公安机关是如何在成千上万的人流中通过视频监控准确抓到逃犯的?机器如何完成唇语的读取并以文字形式输出的?如何保持一幅画的风格、色彩、明暗等元素但透视出另外一幅著作,比如,得到一张地图版蒙娜丽莎?

怎么做到的呢?

这些案例其实都有表示学习的优秀应用。那么,什么又是表示学习?表示学习,即将原始数据转换成为能够被机器学习来有效开发的一种形式,简而言之:学习如何学习。比如,在前文提到的电脑自动上色的例子中,就是运用表示学习掌握自然存在于照片中的某些模式——天是蓝的,云是白的,草是绿的等等,通过这类规则,不需要人的介入就能对照片进行重新上色,虽然有时它也会犯错,但这种错误很难被发现。再比如,在语言翻译中,先通过表示学习将每一个的单词表示成语义的向量,然后按单词向量顺序输入,并编码成整句话的语义向量,最后对表示向量进行解码成目标语种,错误率比传统的基于统计学习的语言翻译小得多。

表示学习的本质认为万物皆向量。万物都可以通过向量化的方式,将各种原始特征进向量化,得出的低维稠密向量将完美的刻画出事物的特征,使得信息的损失最小。在表示学习的众多优秀应用案例中,不得不提其对金融风控起到的颠覆作用。过去,构建传统的获客和风控等模型前,需要对大量数据进行特征工程,其实质是根据业务经验对原始的数据进行字段衍生。在风控领域特征工程就是根据时间、事件、业务类型进行各种组合,如XX天内现金贷公司放款次数,XX天内银行类app的点击次数,XX天内还款次数在衍生字段然后通过IV值,相关性,KS,ROC等指标对字段进行筛选与建模。尽管传统的人工特征工程可理解性高,但是存在很多缺点:

1.人工干预太多,衍生特征受限于专业知识与经验,构建特征的度很不容易把握。

2.特征是否有效,特征间的相关性大,比如“近7天借贷查询次数“和”近30天借贷查询次数“线性相关性可达到0.7。

3.传统模型的参数数量有限制,过多的参数数量会导致传统评分卡模型面临参数估计的困难。

而表示学习可以一一规避这些缺点,使特征工程的效果达到精准化、最优化。如:描述一个人对不同app的偏好?传统的处理方法只会简单的罗列各种app特征,但是表示学习会将每一个app做有意义的向量表示,然后通过深度学习方法生成一个汇总的向量表示,这个向量表示代表了这个人对各类app的偏好,完成精准描绘。再比如,在更为细分的金融风控领域,传统的特征学习一般是基于单任务的,如逻辑回归的风控模型,就表示客户是否逾期,很难在这个模型上表示给客户授予多少的授信额度。表示学习则不同,通过一个表示模型可以同时训练一个人的资产情况、收入情况以及是否会逾期,那么这个人的向量就会内含他的资产信息和逾期信息,这样就可以将表示向量作为其他模型的输入用于贷前的审批与额度授信等多个方面。

另外,表示学习还具有很好的迁移性,由表示学习形成的中间向量或者模型参数,可以迁移到其他不同的业务场景。在一些冷启动的业务或者数据量较小的业务中,前期训练的向量表示就具有很好的用途。

所以,你能get到地图风的蒙娜丽莎是怎么来得了吧?https://deepart.io/还可以DIY更多有趣的合成,考虑来一幅梵高星空style的你家门口?

关于行列秩:
行列秩,一家提供智能风控与决策分析服务的科技公司。行列秩坚持以用户为中心,打造数据化、智慧化、场景化的信用评估体系,致力于成为消费金融资产定价的引领者,智能风控的驱动者,以及值得信赖的合作伙伴。
行列秩专注于消费金融的资产定价,目前,与信托、消金、保险、银行等领域的各大机构开展了深度的合作。行列秩已经获得来自于云南国际信托等多家机构数千万投资。
行列秩的产品和服务覆盖消费金融业务全流程,核心包括:风控评估产品“布尔数”、以“布尔引擎”、“布尔中台”为代表的决策平台以及定制化的咨询服务。
更多信息可登录:https://www.detrank.com/  或  关注“行列秩科技DetRank”公众号。


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。