

我们诚挚地邀请您提交论文参加即将在 ACM Multimedia 2025 (ACM MM 2025) 会议上举办的 LGM3A Workshop。此次Workshop的主题为“基于大语言模型的多模态研究和应用”(LGM3A 2025: the 3rd Workshop on Large Generative Models Meet Multimodal Applications),旨在探讨如何利用大型生成模型变革我们与多模态信息交互的方式。
ACM MM是全球多媒体领域的顶级国际会议,已被中国计算机学会(CCF)评为 A 类学术会议,并在 CORE 国际排名中被评为 A* 级学术会议。自首次召开以来,该会议已成功举办了32届。ACM MM 2025会议将于2025年10月27日至31日在爱尔兰都柏林召开。
关于LGM3A Workshop
该Workshop聚焦于大型生成模型(LLMs)在多模态交互中的潜力。大型语言模型(LLM)代表了一种先进的人工智能形式,专为理解和生成自然语言文本而设计,典型技术包括GPT、LLaMA、Flan-T5、ChatGLM和Qwen等。这些模型经过海量文本数据集的训练,展现出强大的语言生成能力、零样本迁移能力和上下文学习(ICL)等显著特性。随着近期图像、视频、音频和3D模型等多模态内容的激增,大型多模态模型(LMMs)也取得了显著提升。这些改进使得传统的大型语言模型可以支持多模态输入输出,如BLIP、Flamingo、KOSMOS、LLaVA、Gemini、GPT-4等。
同时,一些研究项目也深入探索了特定模态的生成,如Kosmos2和MiniGPT-5专注于图像生成,以及SpeechGPT专注于语音生成。还有一些努力旨在将大型语言模型与外部工具结合,以实现近乎“任意对任意”的多模态理解和生成能力,这在Visual-ChatGPT、ViperGPT、MMREACT、HuggingGPT和AudioGPT等项目中得到了体现。
该Workshop旨在提供一个平台,探讨大型生成模型在多模态应用中的最新趋势与最佳实践。同时,我们欢迎不限于此类模型的广泛研究,特别关注大语言模型与其他人工智能技术融合所面临的挑战与机遇。研讨会鼓励参与者展示研究成果、分享经验,并探讨潜在的合作方向。诚邀您的参与,共同推动该领域的发展。
征稿要求
我们特别邀请研究人员和专家们提交包括但不限于以下主题的论文:
-
多模态数据增强
-
多模态数据分析与理解
-
多模态问答
-
多模态生成
-
多模态检索增强
-
多模态推荐
-
多模态总结和文本生成
-
多模态智能体
-
多模态提示(prompting)
-
多模态持续学习
-
多模态信息融合与整合
-
多模态应用/框架
-
多模态系统管理与索引
-
多模态移动端/轻量级部署
提交的论文必须与主会议的格式和模板相同(ACM Conference)。提交格式的长度限制为以下两种选项之一:
-
4页正文加1页
(文:PaperWeekly)