
数据、算法、算力 人工智能「三驾马车」齐头并进
前言:随着中国数字经济的深入发展,产业数字化进程不断加速,大数据在产业决策中的比重越来越高。天眼查数据研究院特此推出「天眼新知」专栏,以天眼查大数据为依托,梳理产业格局及发展脉络,解读产业领域最新动态和投融资风向,为各方决策提供参考。
本文为天眼新知·产业分析系列,第三十四篇。
人工智能,源于一篇绕口令式的科技论文《神经活动中内在思想的逻辑演算》、源于赫赫有名的「图灵测试」、源于 20 世纪 50 年代具备长远眼光的科技先贤们一次「不经意」的讨论。
人工智能,起始于对人类自身理解的深入挖掘,对人的意识、思维的信息过程的模拟。今时今日,人工智能不再是科幻电影中无法触及的概念,它已成为家喻户晓的「现实」,在减轻人类的体力负担和脑力负担方面已渐渐显示出优势,比如在极端天气预测等层面显露头角。
随着深度学习,大模型等关键技术的深入发展,以 Chat-GPT 爆发为新起点,人工智能将快速迈入下一个「未知」的阶段。
一、人工智能:工具属性与思维能力的深度融合
人工智能从标准的定义来讲,可参考《人工智能标准化白皮书(2018)》中所提。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
在大多人的眼中,人工智能是一位非常给力的助手,工具,可以实现处理工作过程的自动化,提升工作效率,比如执行与人类智能有关的智能行为,如判断、推理、证明、识别、感知、理解、通信、设计、思考、规划、学习和问题求解等思维活动。
但与之其工具属性,能力属性相比,人工智能更为重要的是一种思维,是用来描述模仿人类与其他人类思维相关联的「认知」功能的机器,如「学习」和「解决问题」。
人工智能产业在 20 世纪 50 年代提出后,限于当时的技术能力,多限于理论知识的讨论,而真正开始爆发还是自 2012 年的 AlexNet 模型问世。
1. 人工智能 1.0 时代(2012 年-2018 年)
人工智能概念于 1956 年被提出,AI 产业的第一轮爆发源自 2012 年,2012 年 AlexNet 模型问世开启了 CNN 在图像识别的应用,2015 年机器识别图像的准确率首次超过人(错误率低于 4%),开启了计算机视觉技术在各行各业的应用,带动了人工智能 1.0 时代的创新周期,AI+开始赋能各行各业,带动效率提升。但是,人工智能 1.0 时代面临着模型碎片化,AI 泛化能力不足等问题。
2. 人工智能 2.0 时代(2017 年-至今)
2017 年 Google Brain 团队提出 Transformer 架构,奠定了大模型领域的主流算法基础,从 2018 年开始大模型迅速流行,2018 年谷歌团队的模型参数首次过亿,到 2022 年模型参数达到 5400 亿,模型参数呈现指数级增长,「预训练+微调」的大模型有效解决了 1.0 时代 AI 泛化能力不足的问题。新一代 AI 技术有望开始全新一轮的技术创新周期。
天眼查数据显示,截至目前,人工智能相关企业近 267.4 万余家,其中,2023 年一季度新增注册企业 17 万余家,与 2022 年同期相比,上涨 6.8%;
从地域分布来看,广东以 39.9 万余家位列区域首位;江苏、北京分列二、三位,分别拥有 22.4 万余家以及 21.8 万余家;
从成立时间来看,53.6% 的相关企业成立于 1-5 年内,成立于 1 年以内的相关企业占比 27.7%;

另据天眼查不完全统计,人工智能产业自 2023 年 1 月以来,融资事件合计发生 143 起,融资金额超 800 亿元。
二、数据、算法、算力:人工智能的「三驾马车」
1. 数据:「巧妇难为无米之炊」
人工智能的快速发展推动数据规模不断提升。据 IDC 测算,2025 年全球数据规模将达到 163ZB,其中 80%-90% 是非结构化数据。数据服务进入深度定制化的阶段,百度、阿里巴巴、京东等公司根据不同场景和需求推出数据定制的服务;企业需求的数据集从通用简单场景向个性化复杂场景过渡,例如语音识别数据集从普通话向小语种、方言等场景发展,智能对话数据集从简答问答、控制等场景向应用场景、业务问答等方向发展。
各方积极探索建立高质量知识集,推动知识驱动的未来人工智能应用发展。知识集中包含语音、图像、文本等传统数据和定义、规则、逻辑关系等, 是知识的数据化呈现, 业界著名知识集有 Wordnet、Hownet 等。例如阿里巴巴联合香港理工大学基于服装设计知识开发 FashionAI 知识集,加速了 AI 在服装设计产业落地应用。
2. 算法(模型、软件):「困难」总比方法多
根据中国信通院《人工智能白皮书(2022 年)》,超大规模预训练模型持续推动技术升级,继续朝着大规模、多模态方向发展。自 2020 年 OpenAI 推出 GPT-3 后,谷歌、华为、智源研究院、中科院、阿里巴巴等企业和研究机构也相继发力,陆续推出超大规模预训练模型,包括 Switch Transformer、DALL·EMT-NLG、盘古、悟道 2.0、紫东太初和 M6 等。当前,预训练模型参数数量、训练数据规模按照 300 倍/年的趋势增长,增大模型和增加训练数据仍是短期内演进方向;跨模态预训练大模型逐渐普遍,如今已经能够处理文本、图像、语音三种模态数据,未来能够使用更多类型数据的预训练模型将会涌现。
轻量化深度学习技术显著提升计算效率。复杂的深度学习模型需要耗费大量的存储空间和计算资源,在端边等资源受限的情况下难以应用。轻量化深度学习成为解决这一难题的重要技术,具备低内存和低计算量优势,技术包括设计更加紧凑和高效的神经网络结构、对大模型「裁剪」掉部分模型结构,以及对网络参数进行量化从而减少计算量等。例如,紧凑模型的典型代表有谷歌提出的 MobileNet 和旷视提出 ShufleNet 等,百度推出的轻量化 PaddleOCR 模型规模减小至 2.8Mb,在 GitHub 上开源后受到热捧「生成式人工智能」技术不断成熟,未来听、说、读、写等能力将有机结合。目前,「生成式人工智能」技术被广泛应用于智能写作、语音导航、代码生成、新闻播报、有声阅读、影像修复等领域,通过机器自动合成文本、视频、图像、语音等推动互联网数字内容生产的变革。听、说、读、写等能力的有机结合成为未来发展趋势。例如央视、新华社、光明网等均推出了数字人主播。
据天眼查知识产权不完全统计,人工智能相关的专利申请自 2023 年 1 月以来,已有 1610 余项,其中,发明专利占比超过 7 成。
3. 算力(硬件):日行千里 事半功倍
人工智能算力应需求驱动不断突破,训练用和推断用的芯片仍在加速发展。一方面在模型训练阶段,根据 Open AI 数据,模型计算量增长速度远超人工智能硬件算力增长速度,存在万倍差距。另一方面,由于推断的泛在性,推断用算力需求持续增长。与此同时,新的算力架构也在不断探索中,类脑芯片、存内计算、量子计算等备受关注。
训练芯片创新加速,推断芯片朝着专用定制化发展。基于 GPU 的训练芯片持续增多,面向 GPU 创新的企业开始发力,出现了摩尔线程、天数智芯、壁仞科技等一批专注 GPU 赛道的初创公司。基于 ASIC 等架构云端训练芯片能力提升显著,寒武纪的思元 370、原科技的「邃思 2.0」以及百度的昆仑 2 等相对上一代产品均有 3-4 倍以上的算力提升。
专用定制的端侧推理芯片百花齐放,面向手机应用的智能芯片成为亮点。2021 年 1 月,联发科推出了高端手机芯片 Dimensity 1200,可边缘处理 5G、AI 和图像数据等。8 月,谷歌为其 Pixel 系列手机专门推出了首款智能手机芯片 Tensor。类脑芯片、存内计算、量子计算等依旧是重点探索方向。类脑芯片、存内计算、量子计算等技术在理论层面可实现高算力、低功耗等优点,虽然取得了一些进展,但总体而言目前技术成熟度相对较低。
据天眼查投融资数据不完全统计,与 GPU 相关的融资事件合计发生 98 起,融资金额超 280 亿元;其中,2023 年融资事件合计发生 3 起,融资金额超 4 亿元。
4. 数据标注:人工智能背后「人工」的力量
人工智能,其实是部分替代人的认知功能。人工智能算法是数据驱动型算法,也就是说,如果想实现人工智能,首先需要把人类理解和判断事物的能力教给计算机,让计算机学习到这种识别能力。
类比机器学习,我们要教它认识一只猫,直接给它一张猫的图片,它是完全不知道这是什么。我们得先有猫的图片,上面标注着「猫」这个字,然后机器通过学习了大量的图片中的特征,这时候再给机器任意一张猫的图片,它就能认出来这是猫了。
所以目前人工智能需要标注大量数据,即对原始信息进行数据标注。数据标注是大部分人工智能算法得以有效运行的关键环节。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别。这类工作量极大、过程极其枯燥且耗时的手动数据标记过程,已经成为 AI 经济体系中的重要组成部分。
据天眼查知识产权不完全统计,与数据标注有关的专利申请,自 2023 年 1 月以来,已有 34 项,均属于发明专利。
三、应用领域:从知识学习、到交通出行改变你我的生活
1. 大模型
3 月 14 日,Open AI 正式发布多模态大模型 GPT-4,迭代速度较快。创始人 Sam Altman 表示,GPT-4 是迄今为止功能最强大、最一致的大型多模态模型,能够接受图像和文本输入,在各种专业和学术基准上均表现出了人类水平。人工智能的发展已经进入了认知智能领域,文本智能、图像智能、音频智能、视频智能以及多模态认知智能,将会逐步诞生,未来为了应对复杂和多变的应用场景,多模态智能的发展方向将成为必然。
2. 自动驾驶
自动驾驶技术是一个涉及多个领域的复杂技术,人工智能技术是其中重要的一环。在自动驾驶中,人工智能主要负责实现自主决策和智能感知。其中,自主决策涉及到在各种不同的驾驶情境下,根据各种因素做出最佳的决策。这些因素包括道路情况、交通情况、天气情况、行人和其他车辆的行动,以及其他各种因素。而智能感知则主要负责实现对周围环境的感知,包括车辆和行人的位置、速度、方向等信息的获取和分析,这些信息将为自动驾驶汽车用来做出最佳的决策和行动提供支持。
3. 生命科学
人工智能不止在工程领域取得了了不起的建树,在生命科学领域也有着不俗的战绩,比如:Alphafold。2022 年,DeepMind 公司与欧洲生物信息研究所的合作团队公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)系统 AlphaFold 预测出超过 100 万个物种的 2.14 亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。预测蛋白质形状的能力对科学家很有用,因为它对于了解其在体内的作用以及诊断和治疗被认为由错误折叠的蛋白质引起的疾病至关重要,例如阿尔茨海默氏症,帕金森氏症,亨廷顿氏症和囊性纤维化。
四、前景预测
1. 政策层面:鼎力支持
人工智能是引领未来的新兴战略性技术,是驱动新一轮科技革命和产业变革的重要力量。
近年来,中国人工智能行业受到国家的高度重视和重点支持,国家推出多项政策,保障我国人工智能产业长期发展。
从数据要素层面来看,十四届全国人大会议提出成立国家数据局、重组科学技术部等有力举措。国家数据局的成立有望加速数据要素市场化。
从自主创新层面来看,重组科学技术部、健全新型举国体制有利于推动我国科技自主创新发展。
2. 应用层面:前景广阔
AIGC 领域目前呈现出的内容类型不断丰富、内容质量不断提升、技术的通用性和工业化水平越来越强等趋势,这使得 AIGC 在消费互联网领域日趋主流化,涌现了写作助手、AI 绘画、对话机器人、数字人等爆款级应用,支撑着传媒、电商、娱乐、影视等领域的内容需求。目前 AIGC 也正在向产业互联网、社会价值领域扩张应用。
天眼查研究院认为,未来,人工智能是否会真正替代人的讨论仍将持续。人工智能,是一场关于知识学习的革命,机器学习、深度学习、大模型等让人望而却步的概念不过是机器理解世界的范式。与其杞人忧天,担心自己被机器所替代,不如与「机器」同行,学习它,掌握它,用好它,成为为我所用的工具。