复杂任务归档

国产大模型高考出分了：裸分683，选清华还是北大？

2025年6月26日16时作者量子位

在，也是时候揭晓全球第一梯队的大模型们的“高考成绩”了——
我们先来看下整体的情况（该测试由字节跳动

2025年6月21日14时作者小兵的AI视界

MAS-Zero 是 Salesforce 推出的一个创新框架，能够在零监督下自动设计和优化多智能体系统（MAS），显著提高系统对新任务的适应性和性能。

2025年6月12日16时作者新智元

OTA模型，256k对话窗口，深度思考最长上下文。它不仅能看会想，还能动手操作GUI，
国内最有潜力

2025年6月9日23时作者新智元

，一夜刷屏。然而，GitHub高级软件工程师怒不可遏，怒斥相关「流言」。
最近，苹果公司发表了预印本

2025年6月5日16时作者量子位

。
但在数学和物理等STEM之外，当LLM落到更多实际应用领域之中，大模型的推理能力又有多大的潜能和

2025年5月29日16时作者量子位

华为提出S-GRPO方法，通过’串行分组 + 衰减奖励’设计让大模型提前终止思考，提高推理效率60%，生成更精确的答案。

2025年5月23日8时作者 AI前线

ic 的首届开发者大会上，Anthropic CEO Dario Amodei 宣布 Claude

2025年5月21日23时作者量子位

英伟达的DreamGen项目通过梦境学习技术，仅凭少量现实视频数据就能让机器人学会执行多种新任务。该技术利用AI视频世界模型生成神经轨迹，显著提升了复杂任务的成功率，并首次实现了从0开始的泛化能力。

2025年5月20日16时作者机器之心

方向？」
在解这道题时，我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型，如 G

2025年5月14日8时作者 NLP工程化

Seed1.5-VL是专为通用多模态理解和推理设计的视觉-语言基础模型，仅用5.32亿视觉编码器和200亿参数的MoE LLM实现顶尖性能，在60个公共基准测试中有38项达到最佳水平。