ICCV’25 视觉Token跳起来!上交大×蚂蚁联手推出多模态通用加速框架
近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架,该框架通过训练阶段的Skip-FFN和推理阶段的Skip KV-Cache机制减少视觉Token的冗余计算与保留关键信息,实现多模态模型在精度和效率上的双重优化。
近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架,该框架通过训练阶段的Skip-FFN和推理阶段的Skip KV-Cache机制减少视觉Token的冗余计算与保留关键信息,实现多模态模型在精度和效率上的双重优化。
近日,上海交通大学人工智能研究院晏轶超副教授联合蚂蚁集团的研究团队提出Skip-Vision框架,无需额外预训练或重新训练大模型,在SFT流程中插入即可加速视觉-语言模型。该框架通过跳过冗余视觉Token和使用Summary Token机制在保留理解能力的同时显著降低计算开销和延迟。
上周,作者的母亲转发了一篇关于蔬菜致癌的文章给作者。蚂蚁发布的新AI健康应用”AQ”解决了网络信息真假难辨的问题,通过权威资料辟谣并给出科学建议。此外,它还拥有名医AI分身功能和强大的匹配能力,使患者能够便捷咨询专家。”AQ”上线不到一年已有7000万用户使用。作者认为这体现了科技的最大善意,即解决人们生活中的实际问题,并让人们感到更安心、健康。
蚂蚁集团发布的独立AI健康应用AQ旨在解决医疗信息鱼龙混杂的问题。它通过多轮追问的交互模式提高搜索准确性,并连接百万医生和智能硬件提供全面服务。AQ强调专业性、全面性和可信度,包括千人医学团队和院士‘AI训练师’的支持。其目标是利用技术改善医疗资源分布不均问题,尤其是为基层医生赋能。
蚂蚁集团近期在具身智能赛道投资三家公司,包括宇树科技、钛虎机器人和灵心巧手。此次投资进一步巩固了蚂蚁在该领域的领先地位,并在其自研机器人项目上取得进展。
全球科技巨头蚂蚁集团布局AI医疗服务闭环,推出智能体应用及全栈解决方案,旨在通过产品化、服务化和私有化部署,将大模型技术真正应用于医疗场景,为患者提供便捷的线上问诊服务,并推动医疗机构实现智能化升级。