自 ChatGPT 发布以来,「天天科技革命,日日文艺复兴,每天都很焦虑」。
在 2024 亚布力中国企业家论坛年会上,一位 AI 产业科学家的心声引起现场企业家的共鸣。尤其 OpenAI 在 10 天前发布的 Sora 模型,再次体现出「断层性」领先时,2024 科技领域的 AI 进程又多了一些不确定和兴奋。
2 月 22 日,在 2024 亚布力中国企业家论坛年会现场,唯一一场聚焦 AI 话题的专场——「创新引领未来,当 AI 成为助手」座无虚席。围绕「一日千里」的 AI 技术变革,与会者讨论了当下热门的落地应用场景、以及 2024 年 AI 应用落地的最新趋势。
在协同办公领域,人机交互正在由人适应机器,转变为机器适应人。钉钉总裁叶军认为,一个更人性化的交互方式,一个更懂「你」的 AI 智能助理已经来到我们身边。
脑虎科技创始人彭雷比喻,AI 和脑机接口就像一个桥的两边,二者正在相向而行。眼下,彭雷正在探索大模型为脑机带来的新路径。
小米集团人工智能实验室主任,NLP 首席科学家王斌则从手机的场景作出预判,他认为,Sora 的出现可能会让「AI+手机」催生新的形态,一个昂贵、笨重的摄像头可能不再被需要,类似 Sora 一样的软件会在一定程度替代昂贵的摄像头。并且,在他看来,Sora 的出现,给自动驾驶带来了新的可能性,这是当前自动驾驶公司都在跟进的新方向。
此外,传统领域也正在经历 AI 的变革,图灵机器人创始人俞志晨介绍了教育领域,AI 带来的「双师」模式正在打通校内外的新型教育。
如果说 2023 年是大模型出圈的第一年,2024 年则是大模型在各行各业落地的产业年。对于不断进化的 AI 变革,亚布力论坛数字前沿技术委员会主席、亚信联合创始人田溯宁提出了一个有趣的猜想,他表示:「现在的 AI 技术带给我们很多可能性,如果说工业革命解决物质生活的极大丰富,这场 AI 革命是不是要解决生命情感和生命质量的丰富多彩?」
对于 2024 年 AI 落地的方向,五位嘉宾作出了探讨,以下是圆桌内容节选,由极客公园整理。
2024 亚布力中国企业家论坛年会「AI 专题」现场,从左至右分别是:田溯宁、叶军、王斌、彭雷、俞志晨|图片来源:亚布力企业家论坛
01 如何理解当前的 AI 时刻
田溯宁:这段时间,AI 技术变革不断让我们感到冲击。大家怎么定义这场变革?
叶军:我觉得是一场类似于电力革命的一个新时代开启的分界线。除了不断改进钉钉的体验,最近我们在做一个战略性新方向,要让钉钉成为一个 AI 助手的创作平台,这是我们最近在做的事情。
王斌:我是一个积极的 AI 拥抱者,我认为 AI 是一个极其变革性的东西,特别是大模型的出现,使得 AI 可能会成为整个社会的基础设施,类似于电力革命,会重塑很多行业原有的东西。
彭雷:2021 年,我决定做脑机接口这件事情,听上去好像跟 AI 没有直接关系,但实际上绝对在一个路径上。我之前打过一个比方,AI 跟脑机其实是一个桥的两边,正在相向而行。超大的数据训练出 AI(大模型),让它尽可能像人,但脑机接口其实是在尝试将人的大脑通过电机解码,让它的信号跟模式能够被程序所解读,所以两者是一个相向而行的过程。AI 一定是范式变化的东西,下一波也许就是脑机或者碳基跟硅基融合,我们正做一些预研,这是我处在这个赛道来看 AI 这件事情(的视角)。
俞志晨:人工智能过去六七十年的发展,我认为有两个路线,一个是颠覆人类,另一个是辅助人类,现在做的事情更多是希望能够辅助人类,让人变得更强、更有效率。
田溯宁:过去,从互联网建设到互联网应用,改变从电子商务到游戏的日常生活,基本花了十多年的时间。从 PC 互联网到移动互联网用了将近五年。AI 从今天的出现、行业地位的确定,到改变生活应用,大家觉得会需要多长时间?会以怎样的速度迭代?
叶军:我感觉速度会比之前更快一些,因为 AI 本身进步速度非常快,易用性又非常好。如果把 AI 的基础能力比喻成电力,其实难的不是使用电力,难的是创造出使用各种电力的工具——灯泡、微波炉、冰箱等等,这个周期可能会非常长。
如果把 AI 跟原有各个产业进行结合,每个产业其实都得做一些重构,这个时间或长或短,总体来说我认为时间不会比以前更长,比过去速度快很多。
王斌:我讲讲我对技术大概的判断,因为最近新闻比较多,天天科技革命,日日文艺复兴,每天都很焦虑,技术的变化确实比较大。
近日,OpenAI 推出人工智能文生视频大模型 Sora,引起广泛关注|图片来源:视觉中国
大模型技术出现可能也就发生在六七年前,特别是 Google 的 Transformer 出来之后,大家围绕这个方向做不同的探索。真正到应用可能就是指 ChatGPT,算下来,2017—2022 年,花了 5 年时间。现在都是在技术上做一些更新迭代,可能不如 ChatGPT 刚出来所体现出的那么大迭代,所以一个大的变革再加上一些小变革这个趋势还会不断发展。
大家觉得现有算力和数据加上去,还是会有一个大的提升,至少目前在大家的探索当中还没有发现 scaling law 缩放定理失效,所以大家还是沿着加大算力、加大数据再攀高峰,技术变革可能还是这样去涨。
但总是有止境,随着数据规模再增大,技术变化可能就变成一个边际(递减)效应,需要从另外一个角度突破,也就是模型。
彭雷:我觉得迭代速度首先毋庸置疑,每次范式变化速度都比之前快,我认为至少快一倍。当年 Web2.0 那一波,3G、5G 这一波,应用渗透速度肯定远远比现在慢,包括云计算也是这样。
所以大的范式变化,很多行业发展都有一个所谓的规模效应,指数级增长到了某一个临界点之后,增长速度可能会出现得非常快,前一秒钟还在讨论 GPT4 到底像不像人,4.1 版本就远远把人甩在后面一百倍了,会有这种爆发式增长的机会,这也是之前讨论所谓「奇点」到底什么时候到。
我们对于 AGI 的定义可能会很不一样,其实我一直很期待 AGI 会问我的第一个问题是什么,我知道那个时候「奇点」就到了。
俞志晨:从产业发展来看,整个芯片端已经符合摩尔定律,节奏可能略快一些,大模型有一个叫算力成本,其实比摩尔定律还要更快,迭代速度会更快。
田溯宁:AI 可以做到主动向「你」提问题,怎么理解这个时刻?
叶军:现在都是我们提问题给 AI,你输入它输出。未来,当你打开计算机或者没有打开时,它可能自己打开了,觉得需要跟你做一次沟通、谈心,这可能是(AGI 的)另外一个里程碑,AI 可以自己下判断,有自主涌现的智慧,从技术上我认为这个阶段一定会到来。
彭雷:它现在是一个 token in 和 token out 的逻辑,其实就是 Transformer 架构是一个 sequence in、sequence out 的逻辑,我把一个字节传进去,它通过模型来算,回答你什么(内容)最符合概率优化的逻辑,本质上就是这个意思,一定要你先发一个内容它才会回答你。
但随着我们喂给它的内容越来越多,比如现在在钉钉场景里面,如果企业的私有化数据——税务、财务、业务、人事数据全部在里面,(AI)完全可以从中间发现一些问题来问我,早上起来打开钉钉(AI 对我说的)第一句话就是昨天有哥们没打卡,这个就是很简单的应用场景,它有一些意识。就像《钢铁侠》里的贾维斯一样的,钢铁侠跟它互动的时候,很多时候是贾维斯先告诉他的,不是他去问它的,贾维斯先告诉钢铁侠后方有危险,这些其实就是慢慢开始有「自我」的一些表现。
王斌:主动智能也是大家努力的方向,但是主动智能本身这个形式早就有了,比如给你弹个广告其实也算是主动的,它可能知道你想买这方面的东西。只是要做到完全了解你的主动智能,给你发出灵魂一问,可能还需要时间。大家都在朝这个方向努力。
02 AI+不同的应用场景,会带来哪些变化
AI+协同办公
田溯宁:叶军,钉钉作为国民级协同工具,AI+钉钉的进展也很彻底,你觉得 AI+办公场景会发生什么变化?
叶军:从钉钉的角度,AI+协同办公,现在已经有很多企业在用了,各种工作岗位上 HR、财务、设计师、开发工程师等等,他们用工具去完成任务的效率被极大地提升了,通过智能化+工具,实现了「所想即所得」。
之所以效率提高,是因为处理任何一件事情,从分解任务、计划任务到最后的执行任务,这三套体系都因为 AI 的出现发生了巨大的变革。
先说交互,原来用软件,用户要问在哪个菜单点击哪个位置,接下来再转到什么位置,这里也诞生了「用户体验」这个学科,让用户能最简单地一键能找到功能。但当前的 AI 技术出现以后,交互会从原来纯粹的 GUI(图形交互界面)到引入一个新的模式叫 LUI(语言交互界面),钉钉在交互层面会变得完全不一样。
第二,接到任务以后,怎么做批量分解和筹划,也发生了改变。不需要自上而下统筹规划,AI 会自动帮你计划,AI 知道谁适合干什么,哪个子系统适合干什么。
第三个变化是在执行这一阶段。AI 在执行任务时需要注意,并不是所有场景都需要超级大模型的规模,有时反而鼓励更多行业小模型、专属模型的出现,可以帮 AI 把执行任务这件事变得非常确定,无论什么样的指令进去,它最后做的动作一定是你指定范围内的一个动作。某种程度上,AI 在像钉钉这样具有场景、数据的体系面前,它的执行会有相当的确定性,这个确定性会消解掉大模型的幻觉,这是我们最近一年多实践得出的。这里可以发展的空间非常大。
2023 年 9 月 9 日,杭州凤起路地铁站一堵墙面以钉钉 AI 的海报记录亚运点滴。|图片来源:视觉中国
田溯宁:AI 在协同办公领域的这三个变革,也对数据提出了新要求。有观众问,钉钉软件将来跟税务金四金五(金税四期、五期指的是,企业信息联网核查系统)是不是互通呢?
叶军:对,因为现在很多中小企业用钉钉,很多老板要求数据跟金四系统直接串起来,而且金四以后,全是电子发票,理论上提不提交都已经在了。
钉钉做的所有事情肯定符合企业管理者的安全框架,没有指令不会做,要求打通我们也可以打通。尤其有了 AI 以后,电子合同、电子发票是趋势,流通速度和办公效率会极大提升,当然,我们也更加重视数据安全跟隐私(保护),因为安全是底线。
AI+手机
田溯宁:王斌,AI 手机现在是一个很火的概念,你觉得手机加上像你 AI 实验室的成果会长成什么样?
王斌:从技术和产品结合的角度去想,手机可能有几个方面的变化。
第一,交互方式会变成多模态,除了文字,还包括声音等形式。多模态信息其实更能让手机理解你所处的环境,作出更合理的回复、响应或者是推荐等,交互方式会进一步人性化,更像人。
第二个,在入口上,也跟现有方式有所变化。AI 能力可能会变成手机的一个基本能力,一个操作系统层面的东西,这样能够支撑更多的开发者或者生态一起开发各种各样的应用。在这方面,需要一些时间来判断,(AI 带来的)流量入口到底是属于手机厂商还是 APP 厂商,还是属于大模型。
第三个,有可能造成手机形态本身的变化。AI 其实不只是大语言模型,还有文生图、文生视频等模型。随着 AI 能力越来越强,像手机里高配的摄像头等硬件能力,可以通过 AI 来实现。以后的手机可能不需要很高级的、昂贵且笨重的摄像头,一个普通摄像头就能拍出大片的效果,通过软件的能力完全可以还原真实场景。
AI+医疗
田溯宁:彭雷你觉得呢?AI+脑虎科技的应用,会是什么样的?
彭雷:本质上我们做的算是医疗器械,所以在研发过程中,其实有很多 AI 可以赋能的地方。举个例子,像现在我们解码植入电机之后,可以采集到一个人十几个或者上百个神经元放电信号。过去解码方式其实是非连续解码,解码结果只是说能够控制机械臂前进后退、左右两个自由度,但大模型之后,我们也在探索,其实是可以做多模态的一些解码。
比方说患者采集了一百个神经元放电,让他去想象控制机械臂,但同时它也可以把视觉跟声音信号与脑电信号做多模态叠加,叠加之后输出结果可能是连续的、多模态的一个结果,这方面比较前沿,目前停留在科研阶段。
AI+教育
田溯宁:志晨,你们行业会怎么应用 AI?
俞志晨:我觉得人工智能在教育领域的赋能和结合会是一个很大的话题。基于这个背景讲讲我们做的两个方向,一个是家庭,一个是进校。
人工智能赋能家庭教育,目前来讲发展比较快。
进校方面,我们开发了一个专门面向教育的大模型,从助学、助教、助管、助演等几个纬度,帮助学生和老师做教学效率提升。在课堂里面,我们在一些试点学校里面打造「双师」,一个真的老师,一个是 AI 助教,未来他们上课的时候,一个真正的老师讲课,同时有一个 AI 助教配合老师做一些记录、分析、反馈,课后也可以通过各种载体,比如电视、手机、智能硬件机器人、台灯等做一些场景的赋能和解决,让教育能够在学校和家庭端打通。
AI+自动驾驶
田溯宁:有观众提问,这波 AI 会给自动驾驶带来怎样的影响?
王斌:自动驾驶这些年可能有很多条路径,大模型出来之后,可能会产生一条路径,包括特斯拉也在试。其实就从 Sora 说起,Sora 能够生成很真实的视频,其实自动驾驶很缺仿真数据,你不可能车去撞了以后再去调算法,对自动驾驶来说仿真驾驶是非常重要的,仿真的越真实,越把各种场景都能够调通,对自动驾驶现有算法提升非常高。
所以自动驾驶公司都在走这条路,怎么利用大模型生成数据来还原各种驾驶场景,从而能够快速进行自动驾驶的迭代,如果这一步做好的话会比现有水平高很多。
现在我们都是路采数据,各种限制太大,大模型生成东西其实是可以为各行各业服务的,所以你也可以认为大模型是非常好的数据生成引擎,这一块我觉得自动驾驶会带来非常重要的影响,所以现在所有公司都在投入这方面去做相关工作。
03 脑洞大开,畅想 AI 的未来
田溯宁:看到 Sora 能把形象完全生成出来,未来也许可以用它做一个电影,把当时跟女朋友谈恋爱的故事还原。现在的AI技术带给我们很多可能性,如果说工业革命解决物质生活的极大丰富,这场 AI 革命是不是要解决生命情感和生命质量的丰富多彩?大家对 AI 在未来的发展有哪些畅想?
叶军:我觉得像人类在数字世界永生,是可以做到的。把我这一生的经历、所见所闻训练成一个数字化的分身,未来有人突然想跟我聊天,扫一下我的码就真的可以跟我聊天,只是大模型的技术成熟还需要时间,来解决好幻觉等问题。
王斌:ChatGPT 发布之后,我第一时间让它帮我证明一下勾股定理,结果它的证明是错误的,但是思路非常新奇。这是一个几何题,我从来不会用数学归纳法来证明,它虽然错了,但是思路很清晰,让我觉得 AI 或者大模型可能对整个科学发展有极大的推动力,加速科学发展。大家形象地开玩笑,跟 ChatGPT 聊天搞几个物理定律出来玩玩。
俞志晨:硅基的这种生命指数级增长,可能最终结局有两个大方向,一个是物理实体的人形机器人,一个是虚拟形态的机器人——AI 数字人,未来可能对人类自身带来一个群体智能的提升。
田溯宁:彭雷,从你的专业角度看这个问题,脑袋里加一个东西而不需要背唐诗宋词,就能够把中国所有的伟大古典文学都能记下来,AI 会不会推动这样的事情发生?
彭雷:这是一个美好愿望。脑机接口目前还是处于刚刚起步的阶段,大脑有 800 亿个神经元,本质上讲,人的所有思维、意识、记忆、情感其实都是脑信号放电的一种模式而已。大模型通过调参之后的模型库是一样的逻辑,唯一的区别是芯片不能改变物理结构,而大脑神经的突触连接在实时变化,就像我们现在在说话,其实是每个人脑信号在不断放电,在座各位听众也是在放电。
但我们其实对大脑的很多生存原理完全没有了解,不知道如何工作,更谈不上如何调控它。目前,脑机的应用还是在医学层面上针对一些绝症、重症的患者,比如帕金森患者,手抖得很严重,通过刺激患者大脑某个区域能够让他立刻不抖。
加拿大脑机接口技术实验成真,给严重残疾人士带去希望 | 图片来源:视觉中国
但像刚才说的,我们什么时候可以通过脑机直接把一些知识、记忆、情感直接传递到另外一个人,我自己觉得还是 15 年以后的事情。
王斌:关于人工智能和脑科学怎么互相促进,我在一些大模型的脑暴会上,感受到脑科学的研究者们对大模型出现感到非常兴奋,他们认为大模型其实是在印证脑科学的一些想法,反过来推动脑科学的。
人工智能发展也一直有两条路线,一种就是把人脑搞清楚来模拟人脑,还有一条就是通过计算的方式来做,但第一条路线确实比较难,因为对人的理解进展没有那么快,但是大模型出现之后,这之间好像架起了一个桥梁,重新使得这两条路线有融合的可能性,所以这是一个比较伟大的事情。
彭雷:是的,为什么马斯克做 Neuralink?他说我们现在技术演进就是在硅基里面的那些交互,Web1.0、Web2.0、软件算法、SaaS 所有的交互,最终它的增长速度一定会受限于终极速度,也就是人跟 AI 交互速度。
图片来源:视觉中国
BCI 的定义是要解决人跟 AI 交互速度问题,像现在我们两个说话,一分钟最多说 120 个字,但实际上如果我的思维形成语言再传递给你,中间经过了抽象、提炼、表达、你听到、再吸收的过程。如果有朝一日能跳过中间环节,思维和思维直接传递,会真正提升带宽。只不过这个东西还很远,也许很快就能组合出来,但也许更长时间,目标和方向是为了打开大脑跟 AI 连接通道的速度问题,这是他的想法。
田溯宁:植入脑机接口是什么样的?
彭雷:先切开你的头皮,然后去掉一小块颅骨,再将一个跟头发丝还细十几倍的一根细丝,插入你的大脑皮层三个毫米左右,连上了一个植入体,相当于一个硬币大的东西,用这块东西替补掉那块颅骨,再把皮肤盖回去,整个设备完全在皮下,看不出来。
田溯宁:十年之后咱们在这儿开会有一波人脑袋上戴着天线,是一群更聪明的人?
彭雷:你可以理解埋了一个 Apple Watch 在脑袋里,它上面有很细的线插到大脑皮层连到你的神经元,神经元一放电它就知道了,把信号通过无线传出来。
田溯宁:这确实是脑洞大开,那你自己准备试一试吗?
彭雷:我肯定试,我不会是第一个,但我肯定有这个计划,等技术再足够成熟。
田溯宁:人类创新探险都是这样,我前一段时间看大航海时代,那时候葡萄牙人、西班牙人根本不知道远处是什么,没有什么指南针,基本上去(探险)的 70%—80% 人都会死掉,有的被人吃掉,有的人感染了各种各样的疾病去世,但是正是这些人发现新大陆,后来的人才知道工业革命的关键意义。之所以今天有这么好的物资生活,也是因为当时那群探索者把自己的精力全部投入进去。