对阵 ChatGPT 们,存算一体超异构突破算力天花板在即

摘要

国产自主意识爆发,3.14, 亿铸率先提出存算一体超异构, 引领新一代技术潮流。

AI 3.0 时代, 国产自主意识爆发

ChatGPT 自出世以来, 在国内 AI 界卷起千层浪:

先是百度、科大讯飞等 AI 大厂纷纷表示自己有着类 ChatGPT 能力;再是国家发布东数西算一体化算力服务平台, 支撑中国人工智能运算平台急需的大算力服务。

而大算力的实现, 都需仰仗「大脑AI芯片。

纵观 AI 芯片在国内的发展史, 我们大致可以将 AI 芯片国产化分为几个时代。

AI芯片国产化1.0时代, 继 Google 推出 ASIC 芯片后, 国内寒武纪、灵汐、华为等国内厂商陆续跟上脚步, 针对云端 AI 应用推出 ASIC 架构芯片。

接着 AI 芯片国产化进入2.0 时代。在看到以英伟达为代表的 GPGPU 架构在 AI 算力芯片上有着不错的性能表现后, 国内多个厂商例如天数智芯、珠海芯动力、壁仞等纷纷布局 GPGPU 芯片, 主打 CUDA 兼容, 试探着 AI 算力芯片的极限。

在前两个时代中, 国产 AI 芯片厂商都在竭力顺应时代潮流, 前赴后继地跟随国际大厂的步伐, 通过研发最新芯片解决 AI 算力芯片的挑战。

现如今, 随着 ChatGPT 等大模型掀起热潮, 我们站在 AI芯片国产化3.0时代的门口, 面对越发严峻的地缘政治处境, 国产芯片厂商自主意识更为强烈, 希望能够自发提出芯片解决方案。

例如,国内 AI大算力芯片企业亿铸科技,为中国的 AI 大算力芯片一次又一次提出先进的解决方案:

先是在 2020 年, 亿铸科技一成立就尝试通过架构创新突破冯·诺伊曼瓶颈, 成为首个研发基于 ReRAM(RRAM) 全数字存算一体 AI 大算力芯片的企业, 为解决国内 AI 算力尤其是大算力的困局提供了新的方向。

再是今年 3.14 日, 在《电子创新网》「从 ChatGPT 的角度聊聊存算一体 AI 大算力芯片」直播中, 亿铸科技创始人熊大鹏博士首次提出「用存算一体超异构做 AI 大算力芯片」的技术思路。

亿铸科技多次提出新解法是因为,种种迹象表明,AI算力难题愈发严重,国产化 AI芯片的处境越来越难

先是算力本身就因摩尔定律失效在加速狂飙, 每 5-10 个月就要翻倍:

(不同机器学习时代的算力增长趋势 图源:浙商证券研究所)

到 2021 年, 全球计算设备算力总规模达到 615EFlops, 增速 44%。浙商证券预测,2030 年, 算力有望增至 56ZFlops,CAGR 达到 65%。而这还是 ChatGPT 还未降临之时, 正常的算力需求预测值。

(全球算力规模及增速 图源:浙商证券研究所)

2022 年底,ChatGPT 来临之后,无疑拔高算力的增长曲线:

根据通信世界数据,ChatGPT 的总算力消耗约为 3640PF-days (即假如每秒计算一千万亿次, 需要计算 3640 天) , 需要 7-8 个投资规模 30 亿、算力 500P 的数据中心才能支撑运行。

而这才是参数规模 1750 亿的 GPT-3, 除此之外还有参数 5620 亿的 PaLM-E······彼时, 算力以及其背后的功耗还能顾得过来吗?

AI 算力需求如脱缰的野马,FPGAASICGPGPU芯片本身, 已苦于先进制程久矣。据芯粒说表示, 目前芯片先进制程升级面临着性能极限、技术极限、成本极限。成本极限具体来说就是, 到了 5nm 以下, 建造一座先进制程的晶圆厂动辄需要上百亿美元的投入。

钱是花了,工艺到头了, 但能效比提升有限:

传统架构下, 由于数据需要频繁地在存储、计算单元间来回跑, 随着数据越增越多,「存储墙」、「能耗墙」、「编译墙」等问题也愈发严重。

现如今, 这「三堵墙」已导致大量算力无谓浪费:据统计, 在大算力的 AI 应用中, 数据搬运操作消耗 90% 的时间和功耗, 数据搬运的功耗是运算的 650 倍。

ChatGPT 们正提出「极为离谱、不切实际」的算力需求, 而芯片们又陷入先进制程升级濒临极限、能效比提升受阻等困境, 时代正呼吁着新鲜的血液注入 AI 大算力芯片。

突破天花板的底气

亿铸科技自发提出的存算一体架构、存算一体超异构计算皆能为 AI大算力困局「排忧解难」:

存算一体架构, 将存储和计算的融合, 能够打破传统架构下的三堵墙, 彻底消除访存延迟, 并极大降低功耗。同时, 由于计算完全耦合于存储, 因此可以开发更细粒度的并行性, 获得更高的性能和能效。

超异构计算, 能够把更多的异构计算整合重构, 从而各类型处理器间充分地、灵活地进行数据交互而形成的计算。

简单来说, 就是结合 DSA、GPU、CPU、CIM 等多个类型引擎的优势, 实现性能的飞跃:

DSA 负责相对确定的大计算量的工作;

GPU 负责应用层有一些性能敏感的并且有一定弹性的工作;

CPU 啥都能干, 负责兜底;

CIM 就是存内计算, 超异构和普通异构的主要区别就是加入了 CIM, 由此可以实现同等算力, 更低能耗;同等能耗, 更高算力。另外,CIM 由于器件的优势, 能负担比 DSA 更大的算力。

亿铸科技创始人、存算一体 AI 大算力芯片的开拓者熊大鹏博士表示,其好处在两个方面:一是在系统层, 能够把整体的效率做到最优;二是在软件层, 能够实现跨平台架构统一。

亿铸选择将两大技术结合, 即存算一体超异构的想法,与苏妈的「系统级创新谋而合:在 ISSCC 2023, 苏妈提出系统级创新概念, 即从整体设计的上下游多个环节协同设计来完成芯片性能的提升, 并给出使用该概念实现数量级的效率提升案例。

也就是说, 若是将存算一体Chiplet(芯粒)、3D 封装等技术同步使用, 很有可能带来数量级的效率提升, 从而突破性能瓶颈。

亿铸提出这一极具创新度的构想, 也是因为其底气十足。亿铸科技拥有实力雄厚的研发、工程及顾问团队:

其核心研发团队成员均为来自国内芯片大厂的资深专家, 毕业于斯坦福大学、哈佛大学、上海交通大学、复旦大学和中国科学技术大学等。研发能力覆盖工艺器件、架构设计、电路设计和软件生态等全链条;

其工程团队核心成员平均拥有 25 年以上的高端集成电路设计和量产经验, 有着丰富的应用和产品化实战经历。

基于此, 作为首发存算一体超异构概念的亿铸科技,提出了自己的技术畅想:

若能把新型忆阻器技术 (RRAM)、存算一体架构、芯粒技术 (Chiplet)、3D 封装等技术结合, 将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而抬高 AI 大算力芯片的发展天花板。

(关于存算一体+超异构 做 AI大算力芯片的技术畅想 图源:亿铸科技)

一方面,ChatGPT 等大模型的发展对算力提出了史无前例的要求, 吞噬着算力与能源;

另一方面,ChatGPT 也为存算一体架构、超异构等技术带来核级推动力。无论是大厂和初创公司, 都在为突破算力瓶颈「奋力一搏」。基于亿铸科技有最适合大算力的器件 (RRAM), 再加上 3D 封装和 Chiplet 等技术, 熊大鹏博士表示, 亿铸科技能够为解决存储墙、能耗墙问题带来杀手级的硬件解决方案。

摩尔定律几近终结、ASIC、FPGA 以及 GPGPU 架构能效比难以提升的当下, 亿铸科技率先提出「存算一体超异构架构」这一全新的技术发展路径, 为我国 AI 大算力芯片进一步发展, 增添了新的动能。

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。