Phi 4 Multimodal:微软开源的多模态大模型,支持音频、视觉和文本处理。亮点:1. 使用“LoRAs混合”技术,在不微调基础模型的情况下添加模态适配器;2. 在OpenASR排行榜上排名第一,性能超越多个大型模型;3. Phi-4-Mini版本参数量达38亿,性能卓越。


参考文献:
[1] https://huggingface.co/microsoft/Phi-4-mini-instruct
[2] https://huggingface.co/microsoft/Phi-4-multimodal-instruct
(文:NLP工程化)