Qwen 3 将于本周发布!

阿里通义千问Qwen团队确认:Qwen3本周正式发布,将推理和非推理能力首次合二为一。

——多位网友晒出ICLR 2025 大会上的截图,并如是转发宣称。

据爆料称,通义千问(Qwen)团队的Junyang Lin 在ICLR 2025大会上的演讲中提及了这一确定性的重要消息:

Qwen3本周必定上线!

而本次更新,不仅仅是例行升级,Qwen团队显然是下了功夫,提出了一个相当有野心的计划——

打造一个真正意义上的通用模型/智能体(Generalist Model/Agent)

从官方释出的幻灯片来看,Qwen3的技术路线清晰明了:

在原有基础模型(Initial Base Model)的基础上,进行「渐进式长文本预训练(Progressive Long-Text Pre-Training)」,并在后续进行「长文本后训练(Long-Text Post-Training)」。

Qwen3渐进式训练

具体而言,基础模型先经历4k tokens预训练(基准10k tokens),再逐步推进到惊人的256k tokens预训练(基准1000k tokens)。而后,在指令模型(Instruct Model,256k)基础上,进一步经历RLHF(人类反馈强化学习)和SFT(监督微调)多个阶段,逐步达到32k到256k的精细化训练。

此外,Qwen3不仅能处理超长文本,还能具备高效的推理与非推理任务融合能力,将模型和智能体两大概念完美融合在一起

Adam BEN KHALIFA(@Thunderhead_exe) 也表达了自己的期待:

@ZhaoTing1024 这一个月真的太疯狂了!看来到四月底,所有AI巨头都会有大动作 🤯

Jonathan(@Yang_davidbowie)则更关心多模态的表现:

@nopainkiller @JustinLin610 多模态也会同时发布吗?这次发布的会是全尺寸模型,还是专注单一尺寸?

根据此前Qwen团队的传统来看,每次重磅发布都极具规模,及发布时机的精心选取。

如刚刚过去的2025年春节期间(具体为1月29日,农历新年第一天),Qwen 于一次性推出了包括旗舰MoE架构模型Qwen2.5-Max、多模态的Qwen2.5-VL系列以及长文本模型Qwen2.5-1M在内的多项重量级产品,展示了其强大的工程实力。

不得不说,Qwen 团队实在是太会挑日子了。就有网友对其发布时间表示又期待又想吐槽:

qwen团队贼恶心,一定要在某个长假前发布🤮

无论刻意或无意,虽然发布时间略有微词,但不能否认的是,Qwen团队已经成为中国AI在全球竞争中的一面重要旗帜。尤其是去年发布的Qwen2.5,在各类国际基准测试中频频超越GPT-4o与Gemini 2.0 Flash,技术实力毋庸置疑。

随着Qwen3的到来,即DeepSeek R2 的发布传言,AI 模型或又将迎来新一轮的技术升级潮。

这一次,通义千问将如何定义「通用模型」与「智能体」?

拭目以待!

(信源来源于网络,真实度有待考证,还请谨慎辨别。)

(文:AGI Hunt)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往