AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体

基于强化学习训练的视觉语言模型成功在开放GUI环境中进行了自我探索,提升了智能体的交互能力。该研究展示了如何结合探索奖励、世界模型和GRPO强化学习来增强智能体的探索效率,并通过经验流蒸馏技术进一步提升了其自主性。

让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%

香港中文大学与新加坡国立大学的研究者提出了一种名为TON的新颖选择性推理框架,让视觉语言模型可以自主判断是否需要显式推理。该方法显著减少了生成的思考链长度,提高了模型推理过程的效率,并且在不牺牲准确率的前提下提升了响应多样性。

2天1k多星!BAGEL横空出世:字节跳动发布全球首个多模态全能AI,开启智能新纪元!

BAGEL 是一个开源多模态基础模型,拥有70亿活跃参数,在标准多模态理解排行榜上超越了当前顶尖开源模型,并展示了高级编辑能力及扩展至世界建模的能力。

无需 OCR 就能从各类文档中提取结构化信息的本地化开源工具docext

docext是无需OCR的新工具,用于从发票和护照等文档图像中提取结构化信息。它利用视觉语言模型准确识别并提取数据和表格信息。智能文档处理排行榜追踪和评估其在关键任务中的表现。