多模态RAG及多模态R1推理中如何为不同的视觉数据生成描述Caption?OMNICAPTIONER实现思路 下午2时 2025/04/10 作者 老刘说NLP 度依赖开源,开源大多数只能赶凑合,能快速上线,但是带来的风险是会黑盒化,不可控。我们如果要开发自己的