多模态能力归档

我们用世界名画和Meme“拷打”了智谱9B的视觉推理模型，结果出人意料

2025年7月2日16时作者硅星人Pro

源领域的竞赛异常激烈，主要围绕着几个核心方向展开：首先是效率竞赛，各路玩家不再单纯追求千亿、万亿参数

谷歌放大招了，开源命令行AI编程Agent，每天1000次免费调用，编程只是基础功能。

2025年6月26日23时作者开源AI项目落地

Gemini CLI 是谷歌推出的开源 AI 命令行工具，基于 Gemini 2.5 Pro 模型，支持百万 token 上下文，提供免费 API 请求额度，并具备智能代码处理、多模态能力、实时信息整合和高度可定制性等功能。

谷歌 Gemini 2.5 技术白皮书来了：顶级推理、百万上下文、多模态理解

2025年6月21日14时作者 AI信息Gap

谷歌发布Gemini 2.5系列模型，包含Pro、Flash和Flash-Lite三个版本。Pro版支持多模态输入、超长上下文处理能力；Flash版优化推理速度与成本效率；Flash-Lite版主打极低延迟和高性价比。Gemini 2.5 Pro采用稀疏激活MoE架构、大规模TPU v5p训练及强化学习控制的思维路径，显著提升性能与效率。测试显示其在编程、数学等领域能力全面提升，并具备多模态任务合成与创作输出的能力。