阿里Qwen3系列模型发布,中美基础大模型竞争强度加大





中美十家主要大模型公司平均每8.5天就会发布一款新的基础大模型,全球大模型赛程加快


文|《财经》研究员 吴俊宇
编辑|谢丽容

全球基础大模型玩家主要在中国和美国,两国核心玩家自今年初开始,在新一代大模型的发布节奏上越来越密,一代比一代强——大模型的竞争中,卷模型这件事情依旧是确定的。

4月29日凌晨4点,阿里发布了Qwen3系列模型,这是阿里的大模型系列中最强的。它再次缩小和美国头部基础大模型之间的能力差。Qwen3在全球开发者社区GitHub发布后四个小时获得1.7万个星标,刷新了开源大模型的热度纪录。

Qwen3系列模型包含2个混合专家(MoE)模型和6个稠密(Dense)模型,覆盖6亿、17亿、40亿、80亿、140亿、320亿、300亿、2350亿全尺寸参数规模。

其中,Qwen3-235B-A22B是Qwen3系列模型中性能最强的,它仅次于全球性能最强的大模型——OpenAI旗下的o3。阿里Qwen3技术文档披露,它在基准测试中的得分,和DeepSeek-R1、OpenAI旗下的o1、o3-mini,谷歌的 Gemini-2.5-Pro等全球一流大模型不相上下。

让模型性能提升的有效方式包括,准备更多算力或更多数据。Qwen3没有披露训练过程使用的算力规模,但披露了使用的数据量。

Qwen3技术文档披露,训练使用的数据量相比上一代显著增长。上一代Qwen2.5是在18万亿个token(词元,大模型推理算力单位,每个字符都是一个Token)上进行预训练的,但Qwen3使用的数据量几乎是其两倍,达到了约36万亿个token,甚至涵盖了119种语言和方言。

全球大模型行业在2024下半年一直存在一个共识——“Scaling Law”(规模定律,模型性能由算力、模型、数据规模决定)在放缓。简单的堆砌算力已经无法让模型性能得到大幅度提升。然而,没有任何一家大公司因此放弃训练基础模型,它们仍在探索新的模型性能提升的方法。

仅在今年1月至4月末,包括阿里、腾讯、字节跳动、百度、DeepSeek等中国主要的大模型公司,以及OpenAI、Anthropic(亚马逊投资的AI创业公司)、xAI(特斯拉创始人马斯克旗下的AI创业公司)、谷歌、Meta等美国主要的大模型公司均发布了新款基础大模型。

2025年过去了119天,中国、美国参与模型竞争的10家主要大模型公司,发布或更新了14款基础大模型。平均每8.5天就会更新一款新的基础大模型。大模型的军备竞赛,仍然在提速。

大模型的军备竞赛强度加大

2023年-2024年,全球大模型的性能提升幅度极大。2024年下半年开始有所放缓,但各家竞争强度依旧没有降低,基础模型能力的竞争仍然激烈。

因为,模型能力始终是决定客户规模的核心因素。

一位科技公司算法负责人今年1月曾对我们表示,大模型是长跑,模型每3个-6个月就会有一轮重大升级。长期迭代并保持性能领先很重要。一旦模型能力落后,就会被竞争对手抢走客户。这也是为什么,几乎每一家大型科技公司,仍然在训练自己下一代大模型。哪怕需要万卡、十万卡,训练也始终不会停止。

中国大模型创业公司DeepSeek是加快赛程的鲶鱼。DeepSeek在倒逼大厂重拾紧迫感。今年2月,一位中国科技公司大模型领头人形容,“几个大厂不紧不慢地赛跑。现在,赛道上突然横插进一匹黑马,但现在赛道上突然横插进DeepSeek这匹黑马,格局完全乱了。”

他的团队对DeepSeek-R1迅速参考借鉴后,在2月末上线了自研的推理大模型。他承认,这款模型是“赶鸭子上架”,整个训练周期不到两周,甚至没有经过反复测试就上线了。

中国在这场模型竞争中,目前紧紧咬住了美国公司。国际市场调研机构Artificial Analysis今年1月末发布的《人工智能现状:中国报告》显示,美国大模型的性能依旧领先,但中国不落后,且差距在缩小。全世界最顶尖的21款模型,阿里的通义、DeepSeek等中国公司一共跻身六款,其中阿里有两款。

2025年大模型除了卷性能,另一个竞争方向是,降低算力成本。

阿里云通义大模型业务总经理徐栋4月9日对《财经》表示,2025年中国大模型的发展主脉络之一仍是,提升精度并降低算力成本。这在工程化上有很多工作可以做。中国客户最希望用到的模型,简单说就是多、快、好、省。

比如,阿里最新发布的Qwen3家族模型,一共有八款。模型参数(可以理解成模型大小,参数越大往往性能越强、精度越高)覆盖了6亿、17亿、40亿、80亿、140亿、320亿、300亿、2350亿等不同范围。模型参数覆盖广,意味着可以适用于不同的业务之中,可以满足多种需求。其中小尺寸模型可以在满足基本需求的情况下节省算力成本,大尺寸模型则适合追求极限性能的用户。

Qwen3模型的部署成本大幅降低。其中Qwen3-235B-A22B这款旗舰模型参数虽然高达2350亿,但由于采用了MoE(混合专家模型)架构,提问时它会把问题分派给不同的专家模型。因此,每次调用时只激活220亿参数。它所需要的算力也大幅减少。

阿里方面称,使用Qwen3-235B-A22B大致需要4张英伟达H20 AI芯片。它消耗的算力仅为DeepSee-R1旗舰671B版本的25%-35%,模型部署成本可以降低60%。

商业化是赛点

为什么一定要降低算力成本?逻辑很简单。

其一,2025年大模型的竞争焦点从训练走向推理,低成本、高性能的模型变得更重要。

其二,AI应用正在爆发,固化多年的互联网应用格局可能会出现新的生机。

对大厂来说,现在比两年前大模型爆发初期的机会更多了,但竞争难度在变大。

前两年,它们只需准备万卡算力、训出千亿参数的模型,然后看别人“卷”应用。现在,它们得买十万卡的算力,训又好又便宜的模型,还要自己下场在To B(面向企业级)、To C(面向消费者)两个方向同时探索AI应用。

不过正是由于模型性能不断提升、成本不断降低,它的商业模式正在逐渐跑通。

某科技公司的一位战略规划人士透露,2024年中国各个模型厂商的模型调用收入普遍只有千万元、数亿元。这部分收入寥寥无几。但模型调用带来的算力消耗、公共云四大件(计算、存储、网络、数据库)收入增长,反而更可观。因此,阿里云等厂商愿意用免费开源的方式,刺激市场需求。

国际市场调研机构IDC数据显示,2024年12月中国大模型日均调用量9522亿次,2024年6月这个数据只有963亿次。也就是说,2024年6月-12月中国大模型日均调用量增长了近10倍。

阿里、字节跳动等大厂的模型调用增长速度更快。《财经》了解到,阿里、字节跳动近一年日均Token调用量增长已经超过100倍。阿里方面预期,通义模型2025年模型调用增长量还将增长数十倍。这意味着阿里、字节跳动的这部分收入的规模将远超2024年。

某中国头部科技公司的一位战略规划人士分析,以字节跳动旗下的豆包大模型为例,豆包日均token使用量12万亿。如果模型调用价格不变,按照每百万tokens平均定价0.8元计算,单月收入约为2.88亿,全年收入有可能在30亿元左右。不过这只是静态、粗略的计算方式。因为随着模型调用量数十倍增长,模型价格可能也还将以十倍的速度下降。

另一家中国头部科技公司的一位战略规划人士则认为,目前在云计算的赛场上,阿里和字节跳动竞争是最激烈的。字节跳动旗下云服务火山引擎正在全力投入人工智能,不惜用价格战的方式争夺阿里云的市场份额。由于不计成本投入,火山引擎目前暂时尚在亏损。

某云计算头部公司的一位一线销售人士今年1月曾对《财经》表示,火山引擎甚至用2折-3折的方式挖角阿里云的客户。《财经》获得的一份资料显示,火山引擎预计2025年营收将超过200亿元,预计营收增速远超60%。

不过,阿里云的优势是,营收、利润规模更大,目前有足够厚的家底应对竞争,而且已经走上了正向循环。2024年阿里云营收1135亿元,同比增长7.3%;EBITA(阿里云通常把EBITA利润作为盈利指标,该口径剔除了股权激励、无形资产摊销等非现金因素)利润96亿元,利润率8.4%。

阿里云也是大模型的最大受益者之一。在大模型的带动下,阿里云2024年营收增速、利润水平都在不断回升。2024年四季度,阿里云营收317.4亿元,增速回升到两位数,达到13.1%;EBITA利润31.4亿元,利润率为9.9%,达到历史最高水平。

图片

责编 | 要琢

图片

相关文章

  • 国网甘肃电力1项成果荣获数字中国创新大赛二等奖

    4月28日,2025数字中国创新大赛在福州举办,国网甘肃电力申报的《产业园区能碳数智化管理及应用》斩获碳排放监测分析典型应用场景实践方案赛二等奖,彰显了该公司在支撑绿色低碳发展的创新实力。本次大赛共分12个赛道、43个课题,每个课题设置一等奖1名、二等奖2名、三等奖3名。该公司项目参加的碳排放监测分

    2025-04-29 12:42:00
    0
  • 国家数据局最新报告:2024年数字经济核心产业增加值占GDP比重约10%

    人民财讯4月29日电,4月29日,在第八届数字中国建设峰会主论坛上,国家数据局发布《数字中国发展报告(2024年)》显示,近三年数字中国发展指数保持10%以上的稳步增长。数字经济发展提质增效,数字经济核心产业增加值占国内生产总值比重10%左右。《报告》显示,2024年数字中国发展基础进一步夯实,数字

    2025-04-29 12:22:00
    0
  • 商务部新闻发言人就波音公司飞回拟交付飞机答记者问

    有记者问:据媒体报道,近日,波音公司飞回3架拟交付中国航空公司的波音737Max飞机,称中方已停止接收波音客机,请问中方有何评论?答:我们注意到有关报道。中美两国在民航领域保持了长期互利合作,有力推动了两国贸易和人员往来。美方挥舞关税大棒严重冲击全球产业链供应链稳定,扰乱国际航空运输市场,很多企业无

    2025-04-29 11:37:00
    0
  • 【光明时评】“从跟跑到领跑”彰显科技创新强劲实力

    【光明时评】作者:田鹏颖(全国红色基因传承中心特约研究员、教育部长江学者特聘教授)近日,中国科学技术发展战略研究院发布的《国家创新指数报告2024》显示,2024年中国国家创新指数综合排名跃居世界第10位。2012年我国国家创新指数排名第20位,短短10余年间位次大幅提升,更是唯一跻身世界前十的中等

    2025-04-29 11:11:00
    0
  • 阿里Qwen3系列模型发布,中美基础大模型竞争强度加大

    中美十家主要大模型公司平均每8.5天就会发布一款新的基础大模型,全球大模型赛程加快文|《财经》研究员 吴俊宇 编辑|谢丽容全球基础大模型玩家主要在中国和美国,两国核心玩家自今年初开始,在新一代大模型的发布节奏上越来越密,一代比一代强——大模型的竞争中,卷模型这件事情依旧是确定的。4月29日凌晨4点,

    2025-04-29 10:42:00
    0