多模态大模型
阿里深夜开源Qwen2.5-Omni,7B参数完成看、听、说、写
阿里发布全新 Qwen2.5-Omni 多模态大模型,支持语音和视频聊天,并开源了7B参数的Thinker-Talker架构模型,性能优于单模态模型。
阶跃星辰 Tech Fellow 段楠:Step-Video 系列模型的关键技术解读
4 月 18-19 日,由 CSDN&Boolan 联合举办的「2025 全球机器学习技术大会」将在上海虹桥西郊庄园丽笙大酒店隆重举行,云集多位重量级嘉宾分享前沿议题。段楠博士将详解多模态大模型进展,并深入剖析 Step-Video-T2V 和 Step-Audio 模型的最新成果和挑战,为参会者提供宝贵见解。
Gemini 2.0的“用嘴改图”终于上线了,这是AI绘图的新范式。
Google开源Gemini 2.0多模态生图功能,用户只需一句话即可对图片进行修改或创作,如换发色、闭眼、改变对象身份等,展示了生成式AI在图像编辑领域的巨大进步。
财联社《做多中国行》走进阶跃星辰 实地探访AI大模型独角兽
3月10日,《做多中国行》上市公司行走进上海徐汇的阶跃星辰/财跃星辰。活动吸引超过30名投资者参与,双方介绍大模型应用及生态合作。阶跃星辰发布11款多模态大模型,涵盖语音识别、图像生成等,包括全球参数量最大的开源视频生成模型和业内首款产品级开源语音交互模型。
生数挖来骆怡航担任CEO,视频生成公司们终于要拼商业化落地了
原字节跳动AI大将骆怡航加入生数科技担任CEO,全面负责公司研发、产品、商业化及团队管理工作。唐家渝仍保留总裁一职,专注于战略发展和品牌等核心职能。