
向开发者「对齐」,其实是 Qwen3 未被点破的一个核心战略。
各位有没有发现,最近大家对大模型已经有些看麻了?反正我是看到相关话题的文章流量、社交平台上的热度,对模型的关注度明显有点降下来了。
比如最近 Qwen3、Gemini2.5、GPT-4.1 和 Grok-3 等这么密集的有明显新进展的优秀模型发布,要是放到 2 年前,铁定是个炸裂的一个月。
不过当我在开发者群体里问了一圈后,发现大家实际的情况倒不是「麻了」,而是把「旁观的兴奋」变成了「行动上的提速」,开发者们对模型开始从「看」到「干」,已经转变了关注视角——模型的能力进步之外,是不是一个可以对自己所做的事情带来能力明显提升,或者说这个模型和开发者的「对齐」到底怎么样,开始整了一个重要视角。
比如 Qwen3 发之前身边的很多创业者和开发者就都知道 Qwen 团队在憋大招,不仅提早一个多月就在「蹲守」,而且也在第一时间就把他们手中正在开发的 AI 应用背后的模型切到了 Qwen3。最近跟他们聊起模型层面的新变化,发现 Qwen3 被提及的越来越多。
在他们看来,像过去两年那样只是看模型跑分来评价模型性能已经没有太大意义,因为随着模型能力的继续提升有了明确路径——预训练+后训练+强化学习,很多评测基准评估的比如像代码、写作等单项能力各家都会拉平,更重要的是它已经不能反映现实环境中实际使用模型的场景,尤其是今年按下了 AI Agent 应用的加速键后。
从这个角度看,Qwen3 在模型基础能力的提升之外,其实是向开发者层面的真实需求和场景做了大量「对齐」,可以说是专为开发者和企业易于采用来设计和打磨的。
举个例子,Qwen3 整体的一个优化目标就是以更低的成本实现强劲的性能,让开发者更容易能用起来、用得好,在这背后 Qwen3 其实做了大量目标拆解和技术实现,比如之前最受企业欢迎的 Qwen 模型尺寸其实是 72B,但在收到开发者反馈,说 72B 需要两张 H800 才能跑、不方便时,Qwen 团队探索了现在更高效的 32B,开发者也用得更好了。
Qwen3 的这条路径其实很有启发意义,通过在实际场景里向开发者做「对齐」来持续优化,Qwen3 也正在成为企业和开发者的「AI 应用落地最优解」。有了这样的预期,顺着模型的持续、全面迭代,水涨船高地做 AI 应用也成为开发者和企业在今年最确定的事。
01
如何向开发者「对齐」
其实最近 OpenAI 研究员姚顺雨(Deep Research、Operator 核心作者)在「AI 的下半场」一文中完整地聊过模型层面的变化,在创业者和开发者圈层也引起了可以说今年以来最广泛的共鸣。
在他看来,随着强化学习终于找到了可以泛化的路径,不再只是在特定领域奏效,比如打败人类棋手的 AlphaGo,而是可以做到在软件工程、创意写作、IMO 级别的数学、鼠标和键盘操作等等各方面都做到接近人类竞赛的水平。
这种情况下,比拼榜单分数、在更复杂的榜单上得更高的分数会更容易。换言之,这种评价方式已经过时了,现在比拼的是定义问题的能力。
从这个角度看模型,也才是 Qwen3 真正的含金量。因为基准评测里模型能力都很强,但一个评测基准里名列前茅的模型,对开发者来说却不一定是最优。
在这种情况下,开发者在实际场景中对模型更看重的东西是什么?
大的维度上,大概是模型性能、成本、易部署等几个角度。但在具体的场景里,就是不同的模型及其工具的技术实现方式了。这也是为什么 Qwen 一直采取全尺寸、全模态的智能上限探索,也会发布不同量化精度的模型版本让开发者在选择上有更大的自由度。
一位开发者帮我拆解了下,他说 Qwen3 系列有 8 个模型,包括两款 MoE(混合专家)模型和六个稠密模型,可以服务不同场景的不同需求。
在稠密模型当中,0.6B 和 1.7B 模型特别适合研究人员使用,它甚至可以在没有 GPU、没有独立显卡的情况下就可以跑起来验证一些数据集,做一些数据配比工作。
4B 和 8B 的模型则适合消费电子和汽车行业,因为这两个模型适合入端;4B 模型适合手机,8B 模型可以放在 AIPC 和智能座舱里面。
32B 的模型则在企业大规模部署上广受欢迎。另外对于 MoE 的两个模型,可以直接通过服务器做规模化部署,提高利用效率的同时、可以应用在更大规模的场景。
他觉得这么做是对的,因为只有像这样考虑到最多的细分需求组合,才能争取让各个场景里做不同产品的开发者都能有一个拿来就用的最佳实践模型,哪怕后续还需要开发者自己 DIY。
这次 Qwen3 在这个方向也作了进一步延伸,作为国内首个混合推理模型,将快速、简洁响应的快思考和更深层思维链推理能力整合于单一模型中,实现了推理模型和非推理模型的统一,开发者甚至可以自选「思考预算」来适配多样化任务需求。
企业场景里,基本上都会基于开源模型,结合自己的数据做一些微调。就像 Qwen3 这次的模型升级支持了 119 种语言,在日本市场虽然 Qwen3 才发布半个月,但已经比 Claude、GPT-4o 等模型还要更受欢迎,因为企业在开源的 Qwen3 基础上灌一些日语场景数据,这个效果就比单纯支持日语的闭源模型更灵活,可以实现四两拨千斤的效果。
当然这些之外,开发者对 Qwen 的态度,很大程度上还是来自于他们说的最多的一点——底模好。
底模好,意味着在基座模型上做蒸馏、微调后训练、强化学习等等都会有更好的效果。尤其是强化学习的 Scaling Law 更需要有一个优质的预训练模型,这是模型能够泛化的决定性因素之一。印象里,就连 DeepSeek-R1 那篇论文里展示的蒸馏小模型,也选了 Qwen 作为底模,通过利用 DeepSeek-R1 生成的推理数据,对 Qwen-7B 基础模型进行微调,将 DeepSeek-R1 的推理能力通过知识蒸馏的方式传递给 Qwen-7B,模型性能很好。
极客公园团队的同学和阿里云通义大模型业务总经理徐栋专门探讨过开发者体感上的底模好,到底意味着什么?怎么做到的?
徐栋认为每次模型能力的提升一定会体现在两点上,知识密度和指令遵循上。这使得过去的一些做不到、或者成功率低、需要抽卡的 AI 应用场景里,模型更「听话」了。Qwen3 就通过数据工程和算法迭代,进一步提升了在知识密度和指令遵循上的表现。
现在 Qwen3 可以在数据挖掘的任务上,依赖模型强大的知识密度与 SFT 阶段精细化训练,从 600 页招投标文档中精准抽取 88 个字段;在舆情监测场景,Qwen3 可以将消费者评价抽象为「小型车辆」「轿车」等标准化标签,避免过度拟合或笼统概括;在更常见的智能客服场景,Qwen3 可以精准捕捉用户需求、引导商品推荐时机,降低客户流失率。
随着今年整个行业开始跑步进入 Agent 领域,Qwen3 这次也非常及时地提高了 Agent 场景对模型提出的能力需求,优化了 Agent 工具调用和代码能力,同时也加强了对 MCP 的支持。结合封装了工具调用模板和工具调用解析器的 Qwen-Agent 框架,大大降低了编码复杂性,手机及电脑 Agent 操作等任务都开始变得更可行了。
这个优化还在继续,上周在 QwenChat 的官方网页上,我们还看到了 Deep Research(深度研究)和 WebDev(生成网页)这两个功能上线。这些是基于 Qwen 的 Agent 框架实现的。Qwen3 支持 agent 调用工具、也原生支持 MCP 协议,在对工具调用能力的 BFCL 评测中是顶尖模型里表现最好的。
Qwen3 的 Agent 增强能力,也在各行各业的客户场景中发挥作用。比如联想百应智能体平台在 Qwen3 发布后,马上就把他们平台背后的大模型引擎切过去。作为 IT 解决方案,百应平台利用 Qwen3 开源和对 agent 工具调用、MCP 支持的特点,再加上更强的推理能力,升级了 IT 运维(AI 服务)、AI 办公、AI 营销等场景方案,让中小企业在 AI 时代可以自己 DIY 垂直场景中的各种 Agent,实现了从提供生产工具到直接输送「数字员工」生产力的跃迁,进一步实现降本增效。
围绕开发者场景做模型的进一步迭代,向开发者做对齐,其实也是最近大模型厂商需要进行的集体转向。
前段时间 OpenAI GPT-4.1 核心研究员 Michelle Pokrass 也指出,有时候为了优化基准测试而调整模型,结果看起来不错,实际使用却发现一些问题,比如模型不遵循指令、格式怪异,或者上下文太短。这些反馈才确定了哪些评估指标是客户真正需要重点优化的。在她看来,GPT 4.1 的目标是让开发者在使用时感到愉快。GPT-5 现在的优化目标是让模型自己能分清楚什么时候开启聊天、什么时候开启深度思考,减少 OpenAI 模型供给带给开发者的复杂和浪费问题。
中美优秀模型开始有这样的共识,开始有意识地有了向开发者「对齐」,所以接下来的 AI 价值落地绝对是个利好。
02
「无脑入」之前破解下阿里的 COT(思维链)
跟用 Qwen 的开发者逐渐交流的过程,你会发现 Qwen 竟然开始有了粉丝效应一样的信任。这个信任其实根本上是来自于长期「情绪稳定」的成长。
你会发现 Qwen 一个月一更新,甚至 Qwen3 发布半个月,Qwen 家族就又更新了好几个模型了,这比 Llama 开起来「更勤奋」。
我记得 Hugging Face 中国区负责人王铁震总结他在 Hugging Face 开源社区上看到的 Qwen 为什么受欢迎的原因是,「量大管饱、更新快、底模好」,这份确定性让开发者确信持续会有最新最好最快的模型在手。
这个现象还挺有意思,AI 应用至少是下一个十年里相对长期和复杂的建设,确信有一个持续投入的模型,这件事太重要了。我们都说要水涨船高地做 AI 应用,AI 应用的开发者一定会希望水流量大、水涨得快、水源源不断,才能更安心地做应用。
想必这也是为什么 Qwen 会成为全球拥有最多衍生模型的开源模型,建立了自己的全球影响力。估计也是看到了 Llama 虽然坚持开源,但更新速度和性能距离同时期的闭源模型有差距。Qwen 如果可以一直坚持持续、快速给大家发最好的「枪」,持续开源全模态、全尺寸的 SOTA 模型,那这个开源旗帜就应该是 Qwen 扛起来。
所有的「如果」背后都必须有逻辑链的支撑。那么,阿里是不是会支持 Qwen 坚决地持续、全面开源 SOTA 模型这件事,就必须看一下阿里自己的 COT 是否和这个期待是相符的。
此前我写的分析阿里 AI 战略的文章梳理过,出于阿里巴巴自身的场景,一定会持续探索智能的上限。AI 时代,阿里「让天下没有难做的生意」的延长线,必然还是要为千行百业的 AI 创新和转型提供基础设施。这意味着,从算力到模型再到应用的每一层平台型机会——阿里云、Qwen 模型家族及其开源生态、应用平台都需要持续进化。其中最主要的目标,一定是追求 AGI 的实现,以此来突破现有业务的 AI 转型升级和 AI 原生应用。
而且,不同于比如背靠 Meta 的 Llama,阿里即便把研发成本高昂的 SOTA 模型开源,也可以通过阿里云实现业务闭环,作为亚太最大的云厂商,这是阿里坚决开源的底气。极客公园社区的很多创业者和开发者都跟我分享,别看开源模型好像不赚钱,只图技术品牌,但其实,Qwen 系列开源模型给阿里云带来了实实在在的收入增长,可以说是过去一年多阿里云最好的销售。选择了 Qwen 开源模型,一个很自然的选择就是购买阿里云,因为使用整个通义以及通义的衍生模型,在阿里云上面运行效率最好。
「阿里云是全世界唯一一家积极研发基础大模型并全方位开源、全方位贡献的云计算厂商」这句话阿里云说的其实体现了他们的目标。
因为 MaaS 已经成为阿里云的商业模式中非常重要的组成部分。从阿里云过往 7 个季度的增长看,使用通义 API 的客户,会带动相当多其他云产品的使用,这是非常明显的客户关联销售的效果。对阿里而言,无论未来模型能力和 AI 应用如何演进,AI 和云计算基础设施都有非常明确的商业模式——云计算网络。
Qwen 持续开源 SOTA,不仅和开发者、客户的利益是一致的,与生态上下游的利益也是一致的。这也是为什么 Qwen3 发布的第一天,非常多的终端和芯片企业宣布支持了 Qwen3 的模型,包括像英伟达,联发科和 AMD。某种程度上,开源的最大的朋友就是英伟达和服务器厂商,有了最好的开源模型,他们可以卖一体机、卖更多的 GPU。
可见只有促进了所有的生态上下游的繁荣,Qwen 本身的价值才可以在阿里更大的业务闭环里得到价值闭环。这个逻辑下,Qwen 必然「不用扬鞭自奋蹄」要扛起开源 SOTA 大旗,这是个让人看起来更安心的逻辑链。
终于有了让开发者「无脑入」、无风险、「薅羊毛」无压力,让开源模型可以成为商业世界可以稳定预期的一种技术基础,这非常重要。也是 AI 应用价值落地开始提速的重大利好。