WPS AI 表格Agent登顶SpreadsheetBench榜单,首次超越人类专家水平

摘要

中国 AI 登顶全球表格自动化榜单,WPS AI 超越一众国际科技巨头

 

616日,全球电子表格自动化领域最具权威性的公开基准 SpreadsheetBench 公布最新榜单,WPS AI 表格 AgentSeed 2.0) 以 73.46% 登顶Full 912(全量榜单) ,位列全球第一,不仅超越 GoogleMicrosoftOpenAIAnthropic 等国际知名科技公司旗下产品,还首次超越该榜单设定的人类专家基准线。这意味着 WPS AI 处理复杂表格任务的能力,已经跨越了一个关键门槛。

 

616日,WPS AI 表格 Agent 登顶 SpreadsheetBench Full 912 (全量榜单)

 

SpreadsheetBench 是业界衡量表格 AI 实战能力的权威基准,它源自一篇 2024 年发表于 AI 顶级学术会议 NeurIPS 的研究论文。该基准包含 912 个来自真实 Excel 论坛的实际问题,其中 42.7% 的表格含非标准结构,35.7% 含多表格,还涉及颜色、跨工作表等复杂操作。换句话说,它考的不是 AI 会不会读表格,而是 AI 能不能像人一样,理解任务意图、把结果做出来。论文发布时测定的 Excel 专家人类基线为 71.33%,此后也被视为衡量AI表格能力的重要参照。

论文原始评测数据显示,人类专家在软限制标准下的整体表现为 71.33%(红框标注)

 

此次登顶的 WPS AISeed 2.0),是金山办公基于自研表格 AI 基座 Qingqiu Agent 打造的业务 Agent。今年 5 月,Qingqiu Agent 已在SpreadsheetBench Verified 400(专家精标榜单)以 94.75% 的成绩登顶;此次 Full 912(全量榜单)再度夺冠,更是首次超越71.33%的人类专家基准线,实现了从基座能力到产品能力的完整跑通。

榜单验证的是底层能力,这份能力已经落地到真实业务中。吉林财经大学是一个典型案例,过去教师评职称,几百人提交材料,每份几十页,审核人员要逐份核对证书真伪,要提炼成果亮点,还要横向对比谁更优秀,看一份材料就要半小时起步。现在用 WPS 多维表格,AI 自动识别材料真伪,一键生成成果摘要,自动完成对比分析,审核效率提升 60% 以上。制造业同样受益于这份能力,过去销售、计划、采购、生产各干各的,数据互不同步。一家数千人的工厂用 WPS 多维表格实现了 3000 人同时在线协作,所有数据实时同步,跨部门协作从 2 天缩短到 2 小时。而在医疗行业,呼和浩特第一人民医院过去护士排班全靠手工,纸质台账容易丢,排班耗时长,还经常出错。现在用 WPS 多维表格,AI 一键自动排班,排班结果直接显示在日历视图上,排班效率大幅提升。这些场景背后,都是登顶 SpreadsheetBench WPS AISeed 2.0) 在支撑。

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。