2天1k多星!BAGEL横空出世:字节跳动发布全球首个多模态全能AI,开启智能新纪元!

BAGEL 是一个开源多模态基础模型,拥有70亿活跃参数,在标准多模态理解排行榜上超越了当前顶尖开源模型,并展示了高级编辑能力及扩展至世界建模的能力。

无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext

docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。

告别OCR!无需OCR的开源文档提取神器:DocExt,VLM驱动,安全高效!

Docext 是一个基于视觉语言模型的文档结构化信息提取工具,支持发票、护照等敏感文档处理。它通过本地部署确保数据隐私,并提供自定义字段和表格提取功能,适用于多种场景如发票管理、证件录入等。

英伟达开源「描述一切」模型,拿下7个基准SOTA

研究提出「描述一切模型」(DAM),能生成图像或视频中特定区域的详细描述。用户可通过点、框等方式指定区域,DAM则提供丰富的上下文描述。此模型在多个任务中均表现优异,并支持多粒度输出。

物理视频真实生成!大连理工&莫纳什大学团队提出物理合理的视频生成框架

近日,大连理工大学与莫纳什大学的研究团队提出VLIPP框架,通过引入物理规律提升视频生成的物理真实性。论文指出视频扩散模型在物理场景下表现不佳的原因,并提出两阶段方法,利用视觉语言模型预测运动路径,再用细粒度的视频扩散模型生成符合物理规则的视频。