日期: 2025 年 6 月 7 日
多模态模型挑战北京杭州地铁图!o3成绩显著,但跟人类有差距
近年来多模态大模型在理解和复杂推理任务中取得进展,但其对高分辨率图像(如地铁图)的理解能力仍存争议。为此,西湖大学、新加坡国立大学等团队提出ReasonMap评测基准,聚焦于高分辨率交通图的多模态推理,发现当前开源模型存在性能瓶颈,并指出强化学习后训练模型在某些维度上优于现有模型。
高考第一天,用豆包修图3.0花式「整活」送祝福,已原地笑翻!
新智元报道编辑:XZH
豆包最新版智能修图功能进化至3.0时代,仅需一句指令便能精准生成各种图片效果,从高考祝福到古画风格迁移无所不能,堪称AI修图领域的重大突破。
速递|6周交付MVP,非洲明星创始人携Thunder Code回归揽金900万美元,押注AI测试平台
联合创始人卡里姆·朱伊尼和吉赫德·奥斯马尼将他们的费用管理公司Expensya出售给瑞典采购软件企业Medius,随后二人共同创立了Thunder Code,一个由生成式AI驱动的软件测试平台,并获得900万美元种子轮融资。
生图效果媲美GPT-4o,一键搞定各类视觉生成任务丨港科广&字节全新框架
港科大(广州)和字节联合出品的开源框架ComfyMind,能够根据一句描述生成高质量图像或视频。它结合树状规划与局部反馈执行机制,性能超越现有开源方法并接近闭源GPT-4o-Image。
速递| 获a16z领投1700万美元,AI语音新星Toma意外切入汽车经销商,两周定制训练自动化
Toma联合创始人Monik Pamecha在汽车经销商中实地考察,发现电话咨询需求量大。他们设计语音助手测试并进行训练,目前服务于100多家经销商,采用订阅制收费模式。