SOTA 归档 - 每时AI

ICCV 2025 Ross3D：让多模态大模型真正“看懂”三维世界！

2025年7月11日23时作者极市干货

在ICCV 2025上，作者提出了Ross3D方法，通过重构式视觉指令微调和3D感知自监督实现了超越其他模型的出色表现。

2025年7月10日8时作者 NLP工程化

Hugging Face 发布了3B参数的SOTA模型 Smollm3，支持Think/No-Think模式，默认不支持汉语，未来将发布其详细信息及构建方法。

2025年7月4日23时作者极市干货

本文提出了一种名为REG的方法，通过将低级图像潜在表示与高级类别令牌进行‘纠缠’来加速扩散模型的训练，并在ImageNet上实现了高达63倍的训练加速。

2025年6月30日23时作者头部科技

百度正式宣布开源文心4.5系列模型，该系列包含多模态异构MoE预训练、可扩展高效的基础设施以及针对特定模态的后训练技术。模型在多个基准测试中表现优异，覆盖了文本和多模态任务。

2025年6月30日16时作者 AI前线

百度正式开源文心大模型 4.5 系列，涵盖多种参数的混合专家（MoE）和稠密型模型，系列权重按照 Apache 2.0 协议开源。

2025年6月30日16时作者量子位

百度发布文心大模型4.5系列正式开源，涵盖多种参数和任务需求的10款模型，并提供API服务与Apache 2.0协议支持。

2025年6月27日16时作者机器之心

LLM 智能体自主决策能力提升带来安全性评估难题，研究者提出 AgentAuditor 解决方案，显著提升 LLM 评估器精确度至人类水平。

2025年6月17日16时作者量子位

DeepSeek新版R1-0528在编程能力测试中表现突出，能在网页编程上击败Claude Opus 4。实测显示其能快速生成太阳系动画、AGI主题网站及俄罗斯方块游戏代码，并且对国内用户更为友好。

2025年5月23日23时作者开源AI项目落地

字节开源的Seed1.5-VL是视觉-语言多模态大模型，支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型，已在多个公开基准中表现出色。

2025年5月20日16时作者量子位

智源研究院发布三款向量模型，包括代码向量模型BGE-Code-v1、多模态向量模型BGE-VL-v1.5和视觉化文档向量模型BGE-VL-Screenshot，它们在代码及多模态检索中取得了最佳效果，并登顶多项测试基准。这些模型目前已向社区开放，支持各类应用场景。