日期: 2025 年 5 月 30 日
让AI学着“看菜下碟”!港中大等新框架让推理长度减少90%,准确率反增17%
香港中文大学与新加坡国立大学的研究者提出了一种名为TON的新颖选择性推理框架,让视觉语言模型可以自主判断是否需要显式推理。该方法显著减少了生成的思考链长度,提高了模型推理过程的效率,并且在不牺牲准确率的前提下提升了响应多样性。
GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题
上海人工智能实验室等团队发布全新图像编辑评测基准RISE,评估了九个视觉编辑模型的复杂指令理解和执行能力。结果显示GPT-4o-Image仅能完成28.9%的任务,显著低于预期;RISEBench覆盖时间、因果、空间和逻辑四种核心推理类型,为视觉编辑模型的发展提供了新的视角。
AI生图大洗牌!流匹配架构颠覆传统,一个模型同时接受文本和图像输入
新模型FLUX.1 Kontext能接受文本和图像输入,具备角色一致性、局部编辑等特性。它被用于生成与修改上下文相关的图像,并通过官方试玩平台Flux Playground提供两种型号供选择。
AI生图迎来大升级:图像编辑达到像素级!背后团队大多来自Stable Diffusion模型基础技术发明团队
rest Labs(黑暗森林实验室,简称 BFL)刚刚发布了发布一款名为 FLUX.1 Kontex
半年三轮!「鹿明机器人」完成天使++轮融资
鹿明机器人宣布完成天使++轮融资,复星锐正、德马科技和吴中金控等投资。资金将用于完善产品及深化产业协同,加速与各产业方的深度合作,推动具身智能核心产品的商业化落地。
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
MME-VideoOCR团队评估MLLM在视频OCR中的能力,构建精细任务体系和高质量数据集,揭示了当前模型的局限性,并提出了优化建议。