
DeepSeek与昇腾的深度适配,不仅打破了技术封锁,还确保了大模型在本土算力平台上的高效运行。
在全球大模型竞赛日益激烈的背景下,DeepSeek以技术创新和工程优化迅速崛起,成为业界焦点。作为国内领先的大模型之一,DeepSeek不仅在训练效率、推理性能和模型优化方面取得突破,还推动了人工智能在各行业的快速落地。
在工程创新方面,DeepSeek训练效率提升2-3倍,推理效率提升5-7倍,大幅降低AI应用的落地成本。在产业应用方面,国内外已有160多家企业接入DeepSeek,ToB端企业纷纷部署,ToC端用户增长呈现爆炸式趋势,推动超级应用的出现。
DeepSeek的爆发式增长推动了大模型应用规模化,但同时带来了算力资源紧张的问题。大量用户反映DeepSeek难以连接,主要原因在于算力需求远超现有供应。此外,市场上存在满血版与非满血版DeepSeek一体机的区别,部分用户受限于算力环境,难以获得最佳体验,这进一步凸显了高效、稳定算力底座的重要性。
当前,DeepSeek已在昇腾平台上实现广泛部署,截至2月12日,已有80+客户/伙伴基于昇腾快速上线DeepSeek,20+正在适配测试,预计两周内全面上线,全国超70%区域可获取DeepSeek服务,助力20+省、25座城市AICC启动部署DS系列模型。
昇腾不仅是国内唯一覆盖预训练、微调和强化学习全流程的AI训练平台,同时在推理端创新突破,采用双机并行推理+专家负载均衡方案,使推理吞吐性能提升30%+。此外,昇思MindSpore AI框架支持DeepSeek-V3全流程开箱即用,实现天级复现,为企业提供更加高效的AI开发环境。
DeepSeek与昇腾的深度适配,不仅打破了技术封锁,还确保了大模型在本土算力平台上的高效运行。
昇腾成为DeepSeek最优算力底座
2月12日,DeepSeek-V3正式发布后,即原生支持昇腾,并迅速在国内完成大规模适配和部署。截至目前,已有80+企业/机构基于昇腾快速上线DeepSeek系列模型,另有20+企业处于适配测试阶段,预计在未来两周内全面上线,整体来看,国内70%的DeepSeek应用基于昇腾落地。与此同时,昇腾联合30+软硬件伙伴推出DeepSeek一体机方案,实现高并发、高稳定性AI推理服务,成为支持DeepSeek模型快速上线、赋能千行百业的“最优解”。
为什么昇腾能够成为DeepSeek最优算力底座?
早在2024年,昇腾团队便已针对DeepSeek大模型架构展开深度优化研究。DeepSeek V3/R1采用的小专家架构带来了通信耗时和专家负载均衡的挑战,昇腾通过双机并行推理+专家负载均衡技术,使推理吞吐性能提升30%+,显著提升推理效率。同时,昇腾平台在训练方面展现出独特优势,成为国内唯一从预训练、微调到强化学习全流程适配DeepSeek的AI训练平台。昇思MindSpore支持DeepSeek-V3预训练、微调、推理全流程开箱即用,实现天级复现,CANN异构计算架构提供深度优化的高性能算子库,进一步提升训练效率。基于这些能力,昇腾超节点成为DeepSeek V3/R1最佳训练平台,支持DualPipe、跨节点All2All等DeepSeek核心优化技术,超大带宽通信域更适配流水线并行和冗余专家计算,为DeepSeek模型提供强大算力支撑。
除了强大的技术实力,昇腾的生态优势也是企业选择其作为DeepSeek算力底座的重要原因。作为一个开放的AI计算平台,昇腾提供Atlas系列硬件、异构计算架构CANN、全场景AI框架昇思MindSpore、一站式开发平台ModelArts等全栈产品体系,并构建了庞大的产业生态。截至2024年12月31日,昇腾已发展60+硬件合作伙伴,2500+行业合作伙伴,330万+开发者,并孵化了150多个昇腾原生硬件产品,超过5800个解决方案。DeepSeek的快速适配,也进一步推动了昇腾生态的繁荣发展。
面向DeepSeek推动的大模型普及浪潮,昇腾已成为全国范围内大模型落地的重要基石。据公开数据显示,昇腾目前已助力20+省、25城市AICC公共算力服务平台启动DeepSeek模型部署,全国超70%区域可获取本地支持。随着大模型应用在产业和消费市场的逐步深化,AI算力需求仍将持续增长,昇腾正以其领先的软硬件协同能力和完善的生态布局,成为AI时代的算力底座,推动大模型技术从研发走向广泛应用。
产业生态未来:技术摸高和效率优化
DeepSeek降低了推理成本,但这并不意味着云厂商和计算平台的需求会减少,反而推动了产业向两个方向发展——技术摸高和效率优化,而这两类都需要算力支持。
技术摸高型厂商正在加大预训练投入,推动AI模型向更高水平发展,算力需求持续增长,过去两年模型竞赛的投入也在不断增加。而DeepSeek这类高效优化的模型,降低了硬件要求,使其能够更快落地到企业端,并带来了新的算力需求,即预训练后的后训练。这类需求过去较小,如今正在快速增长,并且不局限于头部互联网或模型厂商,而是扩展到更多软件和AI服务企业。
与此同时,DeepSeek的普及带动了AI的广泛应用,提升了企业和公众的AI认知,进一步刺激了推理需求的增长。近年来,AI的发展在落地闭环方面遇到挑战,特别是大模型的闭环进展缓慢,而DeepSeek的出现可能会催生新一轮推理需求的爆发。企业在AI应用上的接受度提高,无论是To C的消费级市场还是To B的生产制造领域,都在加快AI技术的落地。
这种趋势将推动三类算力需求的持续增长——预训练、后训练和推理。
预训练的技术门槛最高,算力需求持续攀升。例如,DeepSeek使用2000张GPU,而更高阶模型可能需要万卡甚至十万卡,这对算力集群的扩展性、通信架构和计算框架提出了更高要求。当前,InfiniBand、NVLink等高速互连技术,以及Tensor Parallel、Pipeline Parallel等计算优化策略,正成为提升预训练效率的关键。Mixture of Experts(MoE)等新型架构的探索也在减少计算成本,使更大规模的模型训练成为可能。
后训练需求增长,核心挑战在于工具链、模型架构和硬件适配。传统全参数微调计算开销巨大,而LoRA、QLoRA等方法正在降低计算负担,同时保持模型的高适应性。不同硬件架构(如NVIDIA CUDA、华为MindSpore)的差异,使软硬件协同优化成为关键,良好的适配将加速AI在医疗、金融等领域的落地。
推理的关键在于提高计算资源的利用率,优化通信、内存和量化计算。例如,在大规模推理任务中,服务器间的通信开销会导致性能下降,Zero Redundancy Optimizer(ZeRO)等优化方案正在减少跨节点传输成本。同时,FP16、INT8等低精度计算降低了存储和算力开销,而多服务器协同推理的优化方向,如动态负载均衡、分布式共享内存等,可能成为未来突破点。
DeepSeek虽然降低了推理成本,但整体算力需求仍在增长。预训练依赖超大规模算力,后训练决定AI应用落地效率,而推理优化则影响AI的普及速度。未来,提升算力资源的效率利用、优化计算架构,将成为AI产业竞争的核心。