多模态理解归档 - 每时AI

比Gemini Diffusion更全能！首个多模态扩散大语言模型MMaDA发布，同时实现强推理与高可控性

下午11时 2025/05/22 作者机器之心

论文提出MMaDA，首个系统性探索扩散架构的多模态基础模型，实现文本推理、多模态理解与图像生成的统一建模。该模型在多任务协同上表现出色，并通过混合长链思维微调和统一策略梯度优化提升性能。

获信通院“4+级”评级，文心大模型最新版有何技术创新？百度吴甜详解

下午11时 2025/05/20 作者头部科技

在百度AI Day活动上，文心4.5 Turbo和X1 Turbo大模型展示了多项技术创新。通过混合训练技术提升跨模态学习效率和多模态融合效果，后训练采用自反馈增强技术优化生成结果质量，同时具备数据建设闭环以提供丰富多样高质量数据。百度文心大模型在推理能力评估中获得最高级评级，并成功应用到数字人主播等实际场景中。

国产大模型「五强争霸」，决战AGI！

下午4时 2025/05/12 作者新智元

经变成了「基模五强」——字节、阿里、阶跃星辰、智谱和DeepSeek。接下来的巅峰之战，关键制胜点又

原来，AI也有「搜商」高低的差别？

下午4时 2025/05/08 作者机器之心

真理：出门旅游，光靠一腔热情远远不够。
翻了三十个小红书帖子，打开十几个 App 对比攻略，还没出发

【AI Agent深度研究报告】2025年，AI Agent应用全面爆发：它到底能干掉多少岗位？

下午2时 2025/05/03 作者 AI技术研习社

五年前的Siri到如今的ChatGPT再到未来的AI智能体（Agent），它能听懂指令、自动执行任务，还能自主学习和灵活应变。未来五年，AI智能体会全面改变我们的工作与生活方式。

GPT-4.1深夜偷袭！OpenAI掏出史上最小、最快、最便宜三大模型，百万token上下文

上午8时 2025/04/15 作者智东西

智东西4月15日报道，刚刚，OpenAI一口气掏出了
GPT-4.1系列的三款模型
，并称这是其有

ILLUME+：华为诺亚探索新GPT-4o架构，理解生成一体模型，昇腾可训！

下午4时 2025/04/07 作者机器之心

面。像 QwenVL 和 InternVL 这样的模型已经展示了在视觉理解方面的卓越表现，而以扩散模