宋一民:守护「数据池塘」的新创客

摘要

宋一民身上涌动着扎克伯格般「极客」的神采。

格子衬衫、框架眼镜、牛仔裤、运动鞋,一眼便可识别的程序员打扮,谈到计算机与网络,眼神活泛,滔滔不绝……宋一民身上涌动着扎克伯格般「极客」的神采。但身为年轻一代的创业家,在他这份清秀和干净的少年感之下,却又蕴藏着一种温文尔雅、张弛有度的稳重。

▲数牍科技创始人宋一民  资料图片

2019 年初春,决意作别美国的亲友回国创业时,宋一民正在美国 Facebook 从事隐私工程相关工作。这样的决定意味着,他要与高额的年薪、前沿的科技环境、逐年增长的股权激励作出割舍。对于刚刚 33 岁的宋一民而言,作出这一决定「其实并不纠结,也不痛苦」。想出来创业的想法由来已久,而多方安全计算理论上的突破使其在工业界落地成为了可能,加之全球对隐私合规的重视加剧以及对数据流通价值的理解加深,宋一民觉得,时机到了。

他的合伙人、同为 Facebook 员工的蔡超超似乎「代价」更大。彼时蔡超超刚刚获得公司百万美金级的最高奖金,且刚刚升职。尽管在蔡超超看来,宋一民的这个决定相当大胆,但他仍然愿意一同回国创业。

宋一民与蔡超超决意要做的隐私计算技术方向,之前曾在 2017 年年初由宋一民在 Facebook 广告部门提起,并做了一些尝试。这项技术旨在实现「数据可用而不可见」的愿景,宋一民在国内做过调研,当时尚无这样的技术落地,他预见这项技术必将能填补国内该领域的空白,「简单来讲,有多个相互独立的数据池塘,在确保不让鱼出池塘的情况下,通过这项技术,精确了解到关于鱼的各项汇总数据。在过去,可能需要把各个池塘的鱼混在一起,才能精确计算出这些数据,但这样做不仅池塘主不愿意,监管也不允许。」

2019 年 8 月,数牍科技正式在北京创立,宋一民任 CEO,蔡超超任 CTO。公司拿到了红杉资本中国基金的数千万元投资。凭借着隐私计算领域的技术优势,短短不足两年时间,数牍科技迅速与中国联通、多个国有银行等达成战略合作,业务量逐渐攀升。

近期,成立不足两年时间的数牍科技即将迎来新一轮融资,宋一民透露,这一轮的估值已经超过 1 亿美金。

隐私保护危机引发的决定

▲数牍科技办公室  资料图片

在数牍科技的大开间办公室中,宋一民的工位在进门第一排的靠边位置,在整个团队中并不显眼。

创业之前,北京人宋一民的生活似乎「波澜不惊」,初高中就读的北京八中,以宽松的教学环境在国内教育圈闻名。去南京邮电大学读计算机专业之前,他的生活圈几乎没出过北京市西城区。大学毕业后,他去了美国得克萨斯继续攻读计算机专业研究生。当时金融危机刚结束,就业形势严峻,与继续深造相比,很多毕业生会优先选择工作,宋一民因科研能力突出毕业后被微软录取,之后又在激烈的竞争中脱颖而出,来到了 Facebook。

在美国,计算机专业的学生毕业后被微软、Facebook 这样的互联网企业核心业务部门选中,基本意味着生活无忧。但宋一民一直有自己出来创业的想法,且一直在等待机会,「我做决策时非常谨慎,回国创办数牍科技已经是我人生中做的最大决定了。」

在 2016 年,在 Facebook 广告的用户数据部门工作的宋一民开始负责一些对外数据合作项目,他所在的部门要与各类数据提供者展开密切合作,但同时又要确保数据不被泄露。美国对侵犯用户隐私的行为惩罚非常重,该部门在处理数据业务时都高度谨慎。2017 年开始,作为技术主管,他负责过 Instagram 和 Universal Ads 等大型广告服务项目的开展,还从 0 到 1 主导了 Facebook 和 500 强企业的基于隐私保护的数据协作项目。

隐私计算,其实是多种技术的组合,其中包含安全多方计算、联邦学习和差分隐私等,它的目标是在保护数据安全和用户隐私的前提下,为不同机构提供多方数据的分布式数据融合、联合建模和数据使用。近些年,数据信息安全事件频发,隐私保护和数据流动之间的矛盾日益凸显,隐私计算或将成为解决这一矛盾的绝佳途径。

在帮助 Facebook 解决广告业务中的用户隐私保护问题时,宋一民时常拉着蔡超超一起头脑风暴,「隐私计算本质上是要打破数据绑架,与 Facebook 的占据流量入口和成为数据汇聚点的战略是相左的,在 Facebook 内部推这个项目很有阻力。所以,这个技术特别适合成立一个独立的第三方公司来做。」

蔡超超在 Facebook 作为技术领军人物主导了多个项目,获得了 Facebook 授予的 Distinguished Equity(卓越奖),在机器学习、联邦学习等领域拥有 30 多项美国国家专利。由于业务往来的需要,两人一直有着十分紧密的合作关系。「那时,全世界做同类业务的公司不到 10 家,而且绝大多数公司只是做做样子。」蔡超超表示。

几乎所有的互联网公司都是尽可能地把别人的数据拿过来,而不把自己的数据给出去。重大转折出现在 2017 年,谷歌 AI 在《联合学习:协作机器学习没有集中训练数据》的博客文章中首次引入了「联邦学习」的概念。不久后,中国国内首家民营银行和互联网银行——微众银行,由于迫切的风控技术需要,将这一概念率先引入到国内。但应用在落地时,推进得并不那么迅速。

2018 年年底,IDC《数据时代 2025》白皮书中预测,2025 年全球产生的数据将高达 175ZB,相当于每天平均产生 491EB 的数据。其中,相较于欧洲、中东、非洲、美国、亚太(不含中国)以及全球其他区域,在未来 5 年,中国的数据量平均增长率达到 26%,预计到 2022 年将拥有全球最大的数据圈。

大数据飞速增长随之引发的问题接踵而至,全球出现了多个用户隐私信息泄露事件。仅 2018 年,Facebook 5000 万用户的信息被泄露,圆通 10 亿条用户信息数据被出售,前程无忧 195 万条个人求职简历泄露,万豪喜达屋 5 亿客户的用户信息被泄露,顺丰 3 亿条用户信息数据被出售,AcFun 900 万条用户数据被泄露……隐私泄露事件频发导致信任鸿沟,传统数据交易无法确权定价,传统数据融合方式存在着极大的安全问题和高昂的管理成本。

此时的中国,既有将来全球最大的数据圈作为基础,又有隐私泄露的各种危机事件发生,而数据作为生产要素,要产生经济价值,合规使用客户隐私一定是发展的必然。「国外对使用用户数据的监管很严,但中国还存在一些灰色市场,具备良好的隐私计算技术的应用发展场景,能激发新的应用。」宋一民表示,「在国内,如果一个技术没有从市场角度去反推,这个技术就很难落地,公司也很难存活。但国内市场接纳度非常高,市场渗透速度很快。」

多方共享数据却无需交换数据

宋一民断断续续在国内做了一些市场调研,2019 年年初带着创办一家隐私计算技术服务公司的想法回国融资。他说:「我与一些投资机构进行了交流,但他们大多对这个方向没有概念,当时也没有相应的市场需求。但好在我们的商业计划书在机构圈逐渐扩散开来,中国顶尖投资机构的负责人找到我,他们说一直看好这个方向,但观望了很久,没有找到合适的项目。」

2019 年 4 月,宋一民获得了红杉中国种子基金的天使轮投资,他觉得回国创业基本具备了天时地利人和的条件。几乎没有太久耽搁,宋一民火速拉拢到了一帮初创团队一起回国,其中几位是宋一民在 Facebook 的同事。

「在 Facebook,和我们类似资历的人几乎没有人会选择出来创业。」宋一民称,从这里离开,就等于要从安逸的美国生活中抽身出来。

早期团队的成员姚雪洁,是宋一民北京八中的高中同学。决定和他一起回国时,她是某知名电商公司的国际化产品负责人,已经在美国定居。数牍科技所要解决的问题,正是姚雪洁过去在投放广告中经常遇到的痛点,「如果能把广告投放主的数据给到广告推广方,广告投放的精准度和效果将显著提高,但同时,如果把数据给到推广方,数据将会被后者留存,破坏了用户的隐私安全,这是矛盾的地方。」所以当宋一民提出隐私计算技术时,同为计算机专业的姚雪洁很快捕捉到了这项技术的前景。

数牍科技很快交出了答卷。2019 年 10 月,第一版隐私计算产品出炉,正式完成了基于分布式的联合建模,实现了之前向投资人承诺的「多方共享数据但又无需汇集或交换各方原始数据」的效果。这意味着,大数据实现了真正的共享,为「多方数据价值变现」找到了可行之路。

「数据隐私问题存在于数据存储、数据交换和数据计算三方面。数牍科技解决了在数据计算层面的隐私保护和数据安全,为双方用户在原始数据无需暴露的前提下进行联合建模及计算,平台不参与计算,不触碰数据,不运营数据。」宋一民介绍,数牍的隐私计算平台,可以让数据使用方得到数据计算结果,但无法看到加密数据内容,对于用户来说,数据全程加密,充分保护用户隐私,还能保证原始数据隐私安全。

很快,合作伙伴纷至沓来。2020 年上半年,数牍科技成为联通数科隐私计算技术提供商,同时获得了招商局创投、红杉中国及红点资本的 Pre A 轮亿元投资;同年 6—7 月,与中国移动、招商金科、招商银行、浦发银行共同开展了多个隐私计算试点工程项目;11 月,与信通院、阿里安全共同发布国内首个隐私计算技术研究报告;同时,近两年来,数牍科技还参与了工信部信通院、中国电子标准化研究院、北京大数据中心等多个机构的多项隐私计算、数据安全、数据流通分级分类的相关标准或指南。

数据需要在场景中发挥价值,因此隐私计算要天然贴近业务场景。数牍在实践中积累了包括银行、保险、汽车厂商、电信运营商、政府等多领域的业务场景。同时,实现了高安全性和高计算性能的双重突破,已达工业落地可用状态。

在金融板块,银行原有的风控模型受限于数据不够丰富,在风控能力和获客成本等方面面临较大挑战,因此,数牍科技与一些头部银行及头部保险公司在车险定价、信贷风控、智慧零售、小微企业贷款、反洗钱、智能投顾等方面进行了深度合作;在政务领域,数牍的主要客户为「十四五」规划中区域数字经济一体化的标杆省份客户,如京津冀、粤港澳、长三角地区的用户;在电信领域,基于电信数据能力、对外开放服务平台,数牍打通了全行业互联互通数据服务平台,同时针对电信诈骗场景正样本获取难、数量少、模型能力不足的难点,协助移动和电信运用联邦学习技术,在数据安全的前提下,融合双方数据及模型经验,提升诈骗账号识别能力,将电信反欺诈场景落地;在互联网领域,数牍与大型互联网广告平台及广告主合作,基于隐私保护的广告及营销协作场景等。

创业之后的「甜蜜负担」

技术靠场景打磨。一个技术能发展出多个方向,而具体要选择哪个方向要看市场的反馈。「美国许多科技公司和国内的一些早期的实践者,在探索类似技术时还没有机会在真正的大环境中落地,没有办法提炼出研发技术的关键边界,也不清楚如何去判断提升的优先级。但中国有培育这个技术天然的市场,数牍科技在几大运营商和头部企业的场景中通过实际的业务落地也在快速地落实相关的积累。」宋一民强调,「这一类场景,Facebook 应该都没有机会去实践。」

「从 2019 年年底到 2020 年年中,某数据爬虫隐私泄漏事件的出现,让大家意识到个人隐私保护的重要性,数据监管政策收紧,市场突然有了迅猛的发展。」据悉,中国目前有 100 多家企业都在做类似业务,有高校科研团队,有社会企业,因为很多企业都意识到了这块技术在未来的发展。

「2020 年,在疫情的影响下,数牍科技全年营收达千万级人民币。」宋一民称,2020 年的上半年,公司几乎没有签任何合同,但从 10 月开始的 3 个月内,合作方陆续找来,一举反超了「年营收力争达到 800 万元」的年初计划。

成绩很明显,但宋一民也有了「甜蜜的负担」。他笑言,因为自己的很多行为会被看作代表数牍科技,如今自己说话做事少了很多自由洒脱,他的朋友圈几乎没有任何文字和图片的分享。但实际上,他使用微信十分频繁,「每天早上醒来,微信里的未读消息都有几百条。」他拿出手机看了看数字,「现在是 523 条。」

从一个全球顶尖互联网企业的技术负责人转变为创业团队创始人,宋一民现在必须要为自己一手创办的数牍科技负责到底。他说:「我每天都在面临各种类型的随机挑战,这些挑战可能是我以前从未经历过的。」

末了,宋一民笑言,「这么看起来,创业仿佛不是一个性价比很高的决定。」但在隐私愈发受到尊重的当下,在隐私计算这个全新的赛道,擅长宏观战略思考和方向判断的宋一民一定是一个优秀青年创业家的典型样本,没有理由也不会选择轻松的、「性价比很高」的人生。他注定会和数牍科技这匹黑马一同,随时代浪潮奔涌向前,让数据的控制权回归到拥有者手中。这个理想的实现也许路途艰辛,但一定不会漫长……


最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。