启元 AI 战胜中国星际冠军,并发布「智能体训练云平台」

摘要

这家玩了三年《星际争霸》的 AI 公司,真正在做的,其实是商业社会中的决策智能体。

6 月 21 日,启元星际 AI 顶级职业选手挑战赛在北京举行。启元 AI「星际指挥官」以两个 2:0 的成绩击败了《星际争霸 I/II》全国冠军黄慧明(TooDming),以及中国星际最强人族选手、黄金总决赛三连冠选手李培楠(TIME)。这是中国星际 AI 首次在公开比赛中战胜国内顶级职业选手。

这次赛事是全国首次现场直播星际 AI 与人类顶级职业选手的对战,也是启元世界以《星际争霸 II》作为研究平台潜心打造的智能体「星际指挥官」首次以实时对战的方式面向行业公开亮相。在对战过程中,启元星际 AI 展现出了多变的战术策略,甚至展示了人类职业比赛中从未出现过的战术,给参赛的两位职业选手带来了深刻的印象。

在对战 TIME 的第一局,启元星际 AI 采用了大量维京战机配合少量坦克的新战术,利用维京的机动性奇袭 TIME 基地,TIME 对此战术并不适应,陷入劣势随后丢掉第一局。

在与 TIME 对战的第二局,启元星际 AI 展现出了优秀的多线协同进攻,TIME 也展现出了强大的防守能力,精彩地应对了启元星际 AI 的多轮进攻,但因经济劣势,最终在精彩的鏖战后惜败。

选手赛后表示,在和启元星际的比赛中,见到了维京推进等新的打法和策略。虽然是基于暴雪提供的 AI 专用接口研发,且 APM 略高于人类,但这些打法依然给了大家很多新的启发。

更高算力性价比

过去几十年来,人工智能在人类游戏中的表现一直都是其发展程度的标志,《星际争霸》是人工智能的「巅峰挑战」。不仅因为《星际争霸》研究难度大,更关键的是,以《星际争霸》作为平台进行智能体研究,更接近各个行业真实的应用场景。无论是 DeepMind、Facebook 还是启元世界,都以《星际争霸》作为研究重心。

启元世界自 2017 年 8 月创立以来,致力于创造智能体产品,并把智能体带入每个行业、每个家庭、每个人,提升产业效能和生活体验。公司团队核心成员来自 BAT、Netflix、IBM、香港科大、伯克利等国内外知名高科技企业和一流学府,屡获 NeurIPS、CVPR 等国际竞赛大奖。

自从 2018 年 4 月在第 38 届 ACM 全球总决赛中初次亮相并发布 AI 人机协作挑战赛以来,启元 AI「星际指挥官」进步神速,2018 年 11 月在局部战斗中从零学习、自我对抗达到人类高手水平。2019 年 9 月达到白金水平,3:0 击败人类黄金级选手。2019 年 12 月达到钻石级水平,并在人工智能顶级峰会 NeurlPS 上现场展示。

此次启元星际 AI 以两个 2:0 成绩战胜中国星际冠军,半年时间从钻石水平晋级为顶级职业选手水平,秘诀在于启元找到了一条自主研发的路线,通过小样本学习优化训练平台。官方表示,目前团队仅用顶尖科技公司 1% 的算力,使启元星际 AI 达到人类顶级职业选手水平。目前的启元星际 AI 已具备在复杂场景和信息不完全的条件下,进行信息提取和决策的能力,已自行发展出了数百种战术,其中多种战术都达到了职业水准。

为了实现 1% 算力条件下接近顶尖科技公司的同等水平,启元世界从工程和算法两个层面各进行了深层次的优化,通过乘数效应的叠加最终实现了看似不可能的「奇迹」。

在工程层面,启元世界打造了一个世界级的工程团队,通过独创的「数据生成—传输—消费」的一体化计算框架,相比传统机器学习框架和开源软件,在 ATARI 等标准测试中,智能体训练的数据吞吐率提升了 10 倍以上。

在算法层面,针对《星际争霸 II》中非完全信息复杂博弈、超大决策动作空间、实时对抗等难点,启元世界自主研发的小样本学习算法,实现了仅用数千局数据即可训练出人类中等水平的智能体。其自主创新的智能体 Commander 神经网络结构,结合高效率的群体演化训练方法,可在有限的算力条件下,既能增强智能体的鲁棒性,又能实现智能体的快速进化。

在这片勇闯技术的「无人区」,启元积累了不下 30 项专利和软件著作权。

「智能体训练云平台」发布

在成功战胜人类顶级职业选手后,「星际指挥官」背后的秘密武器——启元智能体训练云平台也首次亮相。正是通过智能体训练云平台,「星际指挥官」仅需几千局的小样本做启动,就能通过模仿高手、超越高手达到人类顶级选手水平,还能够以远超人类选手的成长速度不断迭代进化。

《星际争霸》仅仅是智能体训练云的一块「试验田」,启元的目标是通过智能体训练云平台帮助各行各业训练出自己的智能体,助力产业升级。

智能体训练云平台会提供方便的编程接口,供智能体开发人员调用高效的算法库、网络模型库及训练方法,快速开发构建自己的智能体。同时,平台还会根据训练任务进行弹性算力调度,匹配智能体的推演和训练速度,实现高效率的超大规模并行训练。

目前,启元「智能体训练云平台」已在全国数十家商业组织和机构中得到广泛应用,覆盖了数字娱乐、公共科技、机器人等行业。

赛事之后的圆桌环节,北京智源人工智能研究院院长、北京大学黄铁军教授、滴滴高级副总裁章文嵩、快手高级副总裁严强、高榕资本创始合伙人岳斌与启元世界 CEO 袁泉共同探讨了智能体落地产业智能化、重塑虚拟世界、打造沉浸式交互体验的无限潜力。

据介绍,启元世界正在与顶级游戏公司合作开发第一款基于智能体的游戏,每一个角色背后都是一个智能体,将在很大程度上提升玩家的游戏体验。

北京智源人工智能研究院院长、北京大学黄铁军教授认为,智能科学是一个无尽的疆域,人类智能是亿万年进化的产物,机器智能虽然只有上百年的进化过程,但是进化速度很快。「我们今天已经走在正确的道路上,用行为主义的方法训练一个复杂的神经网络,一定会产生越来越强的智能。」

滴滴出行高级副总裁章文嵩介绍了智能体在城市交通调度方面的应用前景,智能体可以摇身一变,成为各个行业尤其是交通优化的调度员。目前,启元世界正在与合作伙伴一起参与智慧城市建设,通过智能体每隔几秒钟自动调度和优化红绿灯,大大缓解了交通拥堵。

高榕资本创始合伙人岳斌提到,智能体在智慧医疗、新药探索和研发上的广阔前景,是今后人类面对疫情时的重要助手。快手高级副总裁严强则表示智能体对于娱乐内容的生产还有很大的探索空间,比如创造更真实的虚拟陪伴、展现人文关怀。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。