Phi 4 Multimodal:微软开源的多模态大模型,支持音频、视觉和文本处理

微软开源的多模态大模型Phi 4 Multimodal,在OpenASR排行榜上排名第一,性能卓越;支持音频、视觉和文本处理。亮点包括使用LoRAs混合技术添加模态适配器等。参数量达38亿的Phi-4-Mini版本已发布。

新突破!微软开源多模态AI Agent,通杀数字、物理世界

微软开源多模态AI Agent基础模型Magma,具备跨数字、物理世界的多模态能力。Magma可自动处理图像、视频等数据,并内置心理预测功能。MAGMA架构使用视觉与大语言模型的混合技术实现多模态能力,展示了其在不同场景中的应用。