38亿归档 - 每时AI

Phi 4 Multimodal：微软开源的多模态大模型，支持音频、视觉和文本处理

上午8时 2025/03/05 作者 NLP工程化

微软开源的多模态大模型Phi 4 Multimodal，在OpenASR排行榜上排名第一，性能卓越；支持音频、视觉和文本处理。亮点包括使用LoRAs混合技术添加模态适配器等。参数量达38亿的Phi-4-Mini版本已发布。