Phi 4 Multimodal:微软开源的多模态大模型,支持音频、视觉和文本处理
微软开源的多模态大模型Phi 4 Multimodal,在OpenASR排行榜上排名第一,性能卓越;支持音频、视觉和文本处理。亮点包括使用LoRAs混合技术添加模态适配器等。参数量达38亿的Phi-4-Mini版本已发布。
微软开源的多模态大模型Phi 4 Multimodal,在OpenASR排行榜上排名第一,性能卓越;支持音频、视觉和文本处理。亮点包括使用LoRAs混合技术添加模态适配器等。参数量达38亿的Phi-4-Mini版本已发布。
国际妇女节特别版活动在深圳举行,聚焦AI领域女性领导力。微软Code Without Barriers系列活动第三站邀请科技、投资及创业领袖分享见解与经验。
TRELLIS 是一款由微软、清华大学和中国科学技术大学联合开发的开源项目,专注于提供高质量的3D资产生成模型。它支持从文本或图像提示生成各种格式的3D资产,并具备灵活编辑功能。
专注AIGC领域的专业社区分享了开源优化并行策略DualPipe和EPLB。DualPipe用于V3/R1训练中减少流水线气泡,显著提高效率;EPLB通过动态调整专家负载保持平衡,避免通信开销增加。
科技巨头纷纷推出深度推理模型。微软面向所有Copilot用户免费提供语音和深度思考功能,并宣布由OpenAI的o1模型支持。近期多家AI企业如OpenAI、谷歌等也发布了新的深度推理/深度思考模型。
微软开源多模态AI Agent基础模型Magma,具备跨数字、物理世界的多模态能力。Magma可自动处理图像、视频等数据,并内置心理预测功能。MAGMA架构使用视觉与大语言模型的混合技术实现多模态能力,展示了其在不同场景中的应用。
微软取消多个数据中心租赁协议涉及数百兆瓦。TD Cowen认为这表明微软可能面临供应过剩问题。鉴于其资本支出增长曲线最大,其他公司可能会效仿。此举引发对AI投资热潮的担忧。
微软发布3.48T token训练数据集及高质量处理框架,覆盖通用、代码、数学和问答等多领域。REDSTONE项目显著提升数据质量和处理效率。