日期: 2025 年 4 月 17 日
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理
伯克利联合英伟达提出PS3视觉编码器,首次在4K超高分辨率下高效预训练,并引入高分辨率基准测试集4KPro。该方法显著提升了高清场景下的表现和效率。
豆包1.5深度思考模型发布:暴砍参数量,能看图思考,数学编程超DeepSeek-R1
字节跳动发布豆包1.5·深度思考模型,采用MoE架构,参数量为200B,激活参数仅20B,在多项基准测试中达到或接近全球第一梯队水平,具备‘边想边搜’、视觉理解等实用能力。
浙大×小红书发布MT-R1-Zero:强化学习重塑机器翻译,7B小模型媲美GPT-4o
MT-R1-Zero首次将R1-Zero范式扩展到机器翻译领域,通过规则-度量混合奖励机制实现无需监督微调的端到端强化学习优化。该方法在多项指标上超越了现有模型。
Grok Studio 来了:能写代码、做报告、做网站!
Grok Studio 是一款革命性的AI编程工具,支持Python代码执行、Google Drive集成和游戏开发等功能。它还提供智能文档生成、实时代码执行、协同办公整合等特性,并展示了浏览器游戏开发和数据仪表板设计能力。
OpenAI发布o3和o4-mini,全面支持图像推理
OpenAI 创始人 Sam Altman 宣布 o3 和 o4-mini 双模型同步上线,两款模型具备’视觉思考’能力,开启 AI 视觉推理新纪元。o3 模型速度提升24%,错误率下降39%;o4-mini 支持全面的图像理解能力和复杂推理,将引领AI视觉推理的新时代。