Phi 4 Multimodal:微软开源的多模态大模型,支持音频、视觉和文本处理
微软开源的多模态大模型Phi 4 Multimodal,在OpenASR排行榜上排名第一,性能卓越;支持音频、视觉和文本处理。亮点包括使用LoRAs混合技术添加模态适配器等。参数量达38亿的Phi-4-Mini版本已发布。
微软开源的多模态大模型Phi 4 Multimodal,在OpenASR排行榜上排名第一,性能卓越;支持音频、视觉和文本处理。亮点包括使用LoRAs混合技术添加模态适配器等。参数量达38亿的Phi-4-Mini版本已发布。
阶跃星辰在生态开放日上展示了其多模态大模型的发展,并展望了智能终端Agent的应用前景,包括多模态生成能力、自主任务执行、情感陪伴等功能,强调了智能汽车、手机、具身智能及IoT等关键应用场景。
机器人初创公司 Field AI 正在与投资者洽谈,以 20 亿美元的估值筹集资金。该公司已开始通过销售专业模型产生数百万美元的收入,这些模型指导其他供应商的机器人执行各种任务。
吉利汽车集团与阶跃星辰联合宣布,将Step系列多模态大模型向全球开发者开源。包括参数量最大的视频生成模型和首款语音交互大模型。阶跃Step-Video-T2V可直接生成高质量视频,而阶跃Step-Audio是业内首个产品级的开源语音交互模型。
中国研究员联合DeepMind团队提出的新研究《Lavender: Diffusion Instruction Tuning》,通过“注意力对齐”让Stable Diffusion教Llama-3.2等模型“看图说话”,性能提升30%,且代码、模型、训练数据将全部开源。