Phi 4 Multimodal：微软开源的多模态大模型，支持音频、视觉和文本处理

上午8时 2025/03/05 作者 NLP工程化

Phi 4 Multimodal：微软开源的多模态大模型，支持音频、视觉和文本处理。亮点：1. 使用“LoRAs混合”技术，在不微调基础模型的情况下添加模态适配器；2. 在OpenASR排行榜上排名第一，性能超越多个大型模型；3. Phi-4-Mini版本参数量达38亿，性能卓越。

参考文献：
[1] https://huggingface.co/microsoft/Phi-4-mini-instruct
[2] https://huggingface.co/microsoft/Phi-4-multimodal-instruct

（文：NLP工程化）