紧跟阿里,蚂蚁全力拥抱AI

蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。蚂蚁团队设定的目标是“不使用高级GPU”来扩展模型”。

作者 | 黄心怡

继阿里巴巴CEO吴泳铭宣布要全面“AI 化”后,阿里系相关的蚂蚁集团近期在AI上也动作不断。

今日,针对关于蚂蚁百灵大模型训练成本的报道,蚂蚁集团第一时间回应《科创板日报》称:蚂蚁针对不同芯片持续调优,以降低AI应用成本,目前取得了一定的进展,也会逐步通过开源分享。

蚂蚁集团在本月发布的最新研究论文显示,其推出了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus),前者参数规模为168亿(激活参数27.5亿),Plus基座模型参数规模高达2900亿(激活参数288亿)。实验表明,其3000亿参数的MoE大模型可在使用国产GPU的低性能设备上完成高效训练,性能与完全使用英伟达芯片、同规模的稠密模型及MoE模型相当。

根据论文,虽然DeepSeek、阿里通义千问、MiniMax等系列的MoE大模型在特定任务中展现出卓越性能,但是MoE模型的训练通常依赖高性能计算资源(如英伟达H100/H800等先进GPU),高昂成本制约了在资源受限环境中的普及应用。同时,近年来英伟达高性能芯片持续短缺,相比之下,低性能加速器供应更充足且单机成本更低。这种差异凸显了构建跨异构计算单元与分布式集群无缝切换技术框架的必要性。

因此,蚂蚁团队设定的目标是“不使用高级GPU”来扩展模型,通过在模型训练环境、优化策略、基础设施、训练过程、评估结果、推理等层面进行优化和落地,旨在突破资源与预算限制实现高效大语言模型训练。

蚂蚁Ling团队在五种不同的硬件配置上对9万亿个token进行Ling-Plus的预训练。其中,使用高性能硬件配置训练1万亿token的预训练成本约为635万元人民币,但蚂蚁的优化方法将使用低规格硬件的训练成本将降至508万元左右,节省了近20%的成本,最终实现与阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相当的性能

作为蚂蚁集团自研的大模型,百灵大模型重点布局在生活服务、金融服务、医疗健康等场景的应用。后续,蚂蚁百灵大模型Ling-Plus 和 Ling-Lite将计划开源。

近来,蚂蚁集团在人工智能领域频频加码,其中医疗是一大重点方向。3月21日,蚂蚁集团对外公布了在医疗机构、医生、用户三端最新AI产品体系升级。其中,面向医疗机构,其联合华为医疗卫生军团、阿里云等推出“蚂蚁医疗大模型一体机”;面向好大夫在线的29万注册医生,发布AI医生助手系列工具;同时,服务用户的健康应用“AI健康管家”也推出智能思考、健康自测等十余项新功能。

此外,蚂蚁集团也在拓展具身智能、AI眼镜等方向。

蚂蚁集团已注册成立了上海蚂蚁灵波科技有限公司。作为蚂蚁集团拓展具身智能和机器人业务的主要载体,蚂蚁灵波科技将面向在家庭、养老、医疗健康等领域,助力上海浦东加快技术引领、行业集聚、产业升级步伐,打造以人形机器人为引领的具身智能创新高地和具有行业影响力的创新产业生态。

而招聘信息显示,蚂蚁集团近日正招聘AI智能眼镜的产品专家,要求有2C产品的经验。《科创板日报》从接近蚂蚁集团的人士处了解到,蚂蚁近期确实在扩充准备智能眼镜相关业务。


(文:财联社AI daily)

欢迎分享

发表评论