一周1.2k星!兼具质量与效率的OCR模型MonkeyOCR,支持多样化的中英文PDF

MonkeyOCR采用结构-识别-关系(SRR)范式提升文档解析性能,相比MinerU和端到端模型,在九种文档上的表现均有提升。它支持快速开始安装、推理等步骤,并提供了多种示例文档展示效果。

Facebook广告库MCP服务器,Claude Code + Gemini AI 协作平台,DevSeeker:AI代码生成

五个AI工具介绍:Facebook Ads Library MCP Server、Claude Code + Gemini MCP Server、Fire Enrich、Devseeker和Chrome MCP Server。它们分别专注于广告分析、代码生成与改进、数据增强、浏览器自动化助手等领域,支持集成、模型上下文协议(MCP)服务器和自然语言处理等功能。

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

近日,微软研究院与北京大学联合发布的新框架Next-Frame Diffusion(NFD)实现了每秒超过30帧的视频生成速度,并保持高质量画面。相比现有自回归视频生成模型,NFD采用帧内双向注意力和帧间因果依赖机制建模视频,并通过多步迭代和并行采样提高效率。

杨立昆亲自发布:Meta最强世界模型开源!

Meta发布最新世界模型V-JEPA 2,实现最先进的视觉理解和预测能力,大幅提高物理推理效率。该模型使用超过1百万小时的视频进行自监督学习训练,并通过联合嵌入预测架构(JEPA)来增强AI理解、预测和规划物理世界的性能。