《2025 大模型服务商能力榜》发布,谁在 MaaS 赛道领跑?

摘要

在今日举办的 GOSIM2025 大会上,清华大学携手中国软件评测中心联合发布了《2025 大模型服务性能排行榜》。

在今日举办的 GOSIM2025 大会上,清华大学携手中国软件评测中心联合发布了《2025 大模型服务性能排行榜》。当下,借助云服务商调用大模型,已然成为众多开发者轻量开发的首选途径。然而,面对市场上众多的大模型服务供应商,开发者该如何科学地挑选出符合自身需求的厂商呢?这份榜单为市场提供了一份权威、可靠的大模型服务商选型指南。

真难选! 大模型服务现状与挑战

模型即服务(MaaS,Model as a Service)凭借低成本、低门槛、易上手等优势,正快速普及开来。从企业开发者、个人开发者到科研人员乃至普通消费者,都能借助 MaaS 服务来提升业务效率、加速应用开发。但随着供应商的大量涌现,用户在选择时却面临诸多难题:不同供应商在延迟、吞吐量、可靠性、价格、上下文长度以及最大可输出长度等关键性能指标上存在显著差异,这无疑给用户的选择带来了极大困扰。例如,同样是部署 DeepSeek,不同平台之间在价格和性能上就会有明显差别,以最为知名的数家互联网厂商云服务、电信运营商为例,相同模型的各供应商之间输出吞吐最高相差 4.9 倍,首字延迟最高相差 4.3 倍。

权威评测为选型护航

《2025 大模型服务性能排行榜》的发布,为开发者提供了一份极具价值的选型指南。为了确保评测数据的全面性和真实性,本次评测涵盖了 20 余家大模型服务商提供的数百个模型服务,包括阿里云百炼、并行科技、硅基流动、火山方舟等知名平台,以及 DeepSeek-R1-0528、DeepSeek-V3.1、 Kimi-K2-Instruct、Qwen3-235B-A22B 和 Qwen3-32B 等核心模型。评测团队进行了长周期、高频率、多时段的测试,最终形成了包含十个性能榜单和一个模型丰富度榜单的综合评测结果。此次评测不仅对单个 MaaS 服务的性能进行了细致评估,还综合考量了平台服务的丰富度等多个维度,力求为用户提供客观公正的参考依据。

AI Ping:模型服务界的大众点评

本次榜单的评测工具和数据展示平台是清华系人工智能企业清程极智打造的—AI Ping(aiping.cn)。AI Ping 是一个面向大模型使用者的全面、客观、真实的大模型服务评测与信息汇总平台,旨在为开发者提供大模型服务商的多维度数据参考,助力提升 AI 产品开发效率与服务质量。目前,该平台已接入 20 多家厂商的 230 多项模型服务,覆盖主流厂商与模型。基于 7×24 小时持续监测,AI Ping 能够精准洞察不同时段的性能波动,真实反映不同平台服务的长期可靠性。此外,平台还提供了全面聚合和指标齐全的服务,用户可根据自身需求,依据吞吐量、延迟、可靠性、价格、上下文长度、最大可输出长度等众多指标,轻松筛选出符合自身需求的大模型服务,堪称模型服务界的大众点评。

推动行业健康有序发展

《2025 大模型服务性能排行榜》的发布,为 AI 服务选型树立了权威标杆。展望未来,AI Ping 平台将持续拓展评测范围,涵盖更多模态模型,如图片、视频和语音等。同时,平台还将增加更多测试服务器地点,覆盖华东、华南和西南等地区,并引入更多评测指标,如服务可靠性、性能稳定性、波动率等,以满足用户日益增长的需求。

清华大学、中国软件评测中心和清程极智的三方协作,为大模型服务性能评测开创了全新范式。《2025 大模型服务性能排行榜》不仅为开发者和企业提供了实用的选型参考,也将有力推动整个大模型服务行业的健康、有序发展。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。