谷歌放大招了,开源命令行AI编程Agent,每天1000次免费调用,编程只是基础功能。

Gemini CLI 是谷歌推出的开源 AI 命令行工具,基于 Gemini 2.5 Pro 模型,支持百万 token 上下文,提供免费 API 请求额度,并具备智能代码处理、多模态能力、实时信息整合和高度可定制性等功能。

谷歌 Gemini 2.5 技术白皮书来了:顶级推理、百万上下文、多模态理解

谷歌发布Gemini 2.5系列模型,包含Pro、Flash和Flash-Lite三个版本。Pro版支持多模态输入、超长上下文处理能力;Flash版优化推理速度与成本效率;Flash-Lite版主打极低延迟和高性价比。Gemini 2.5 Pro采用稀疏激活MoE架构、大规模TPU v5p训练及强化学习控制的思维路径,显著提升性能与效率。测试显示其在编程、数学等领域能力全面提升,并具备多模态任务合成与创作输出的能力。

一周1.2k星!兼具质量与效率的OCR模型MonkeyOCR,支持多样化的中英文PDF

MonkeyOCR采用结构-识别-关系(SRR)范式提升文档解析性能,相比MinerU和端到端模型,在九种文档上的表现均有提升。它支持快速开始安装、推理等步骤,并提供了多种示例文档展示效果。