浙江大学
Agent主题百校联动,首场来北大了!
2025年5月26日,Datawhale与字节跳动扣子空间联合主办‘AI+X高校行’首场活动在北大启动,聚焦Agent技术普及,覆盖百所高校,提供从理论到实践的学习体验。
在线教程丨9 秒处理一张图!In-Context Edit 高效图像编辑框架上线
浙江大学和哈佛大学的研究团队推出了In-Context Edit(ICEdit),一款基于指令的图像编辑框架,仅需极少的文本指令即可实现精准的图像修改。
首个,专攻点云上下文学习自适应采样!支持点级、提示级|CVPR 2025
浙江大学与内华达大学里诺分校提出MICAS,一种专为3D点云上下文学习设计的多粒度自适应采样机制,显著提升ICL在去噪、分割、重建和配准等任务中的性能。
GUI智能体“大脑”升级!浙大&港理工等提出InfiGUI-R1,用强化学习实现深度推理
文章介绍了InfiGUI-R1,一个基于Actor2Reasoner框架训练的GUI智能体。该模型旨在提升AI在多步骤操作任务中的能力和可靠性,并能像人类一样先思考后行动。通过推理注入和深思熟虑增强两阶段训练方法,30亿参数的InfiGUI-R1-3B模型在多个基准测试中表现出色。
转身世界就变样?WorldMem用记忆让AI生成的世界拥有了一致性
本文介绍了一种名为WorldMem的世界生成模型,通过引入记忆机制解决了上下文时间窗口受限导致的一致性问题,在Minecraft数据集上进行验证并展示良好效果。
挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16%
香港中文大学等机构联合推出FormalMATH基准测试,包含5560道经过验证的数学题。尽管大语言模型在自然语言处理和代码生成领域表现优异,但在数学定理证明任务中成功率仅为16.46%。研究提出了一套三阶段过滤框架用于自动形式化和语义一致性检测,并分析了现有LLM证明器的表现,发现代数较强而微积分较弱,存在滥用自动化策略的问题。
大模型集体“挂科”!全新中文网页检索测试:GPT-4o准确率仅6.2%
BrowseComp-ZH团队发布新基准测试集,对20多个主流大模型进行中文网页能力测试,结果显示多数模型在中文互联网检索上准确率低于10%,仅有少数能突破20%。研究揭示了模型在中文信息环境中的“死角”,强调了推理能力和多轮策略的重要性,并指出搜索功能的不当使用可能误导模型。
ChatGPT4o修图平替:开源ICEdit(附工作流)
浙江大学和哈佛大学团队推出免费开源的ICEdit,相比ChatGPT4o等商业模型,仅需小部分训练数据和参数即可实现高效且强大的图像编辑功能。
浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
InfiGUI-R1 是基于 Actor2Reasoner 框架训练的一个 GUI 智能体,旨在提升其规划和反思能力。该模型通过小规模参数量实现了出色的表现,包括强大的 GUI 元素定位能力和复杂任务执行能力。