ACM MM 2025 LGM3A研讨会征稿：探索大模型与多模态的融合创新

我们诚挚地邀请您提交论文参加即将在 ACM Multimedia 2025 (ACM MM 2025) 会议上举办的 LGM3A Workshop。此次Workshop的主题为“基于大语言模型的多模态研究和应用”（LGM3A 2025: the 3rd Workshop on Large Generative Models Meet Multimodal Applications），旨在探讨如何利用大型生成模型变革我们与多模态信息交互的方式。

ACM MM是全球多媒体领域的顶级国际会议，已被中国计算机学会（CCF）评为 A 类学术会议，并在 CORE 国际排名中被评为 A* 级学术会议。自首次召开以来，该会议已成功举办了32届。ACM MM 2025会议将于2025年10月27日至31日在爱尔兰都柏林召开。

关于LGM3A Workshop

该Workshop聚焦于大型生成模型（LLMs）在多模态交互中的潜力。大型语言模型（LLM）代表了一种先进的人工智能形式，专为理解和生成自然语言文本而设计，典型技术包括GPT、LLaMA、Flan-T5、ChatGLM和Qwen等。这些模型经过海量文本数据集的训练，展现出强大的语言生成能力、零样本迁移能力和上下文学习（ICL）等显著特性。随着近期图像、视频、音频和3D模型等多模态内容的激增，大型多模态模型（LMMs）也取得了显著提升。这些改进使得传统的大型语言模型可以支持多模态输入输出，如BLIP、Flamingo、KOSMOS、LLaVA、Gemini、GPT-4等。

同时，一些研究项目也深入探索了特定模态的生成，如Kosmos2和MiniGPT-5专注于图像生成，以及SpeechGPT专注于语音生成。还有一些努力旨在将大型语言模型与外部工具结合，以实现近乎“任意对任意”的多模态理解和生成能力，这在Visual-ChatGPT、ViperGPT、MMREACT、HuggingGPT和AudioGPT等项目中得到了体现。

该Workshop旨在提供一个平台，探讨大型生成模型在多模态应用中的最新趋势与最佳实践。同时，我们欢迎不限于此类模型的广泛研究，特别关注大语言模型与其他人工智能技术融合所面临的挑战与机遇。研讨会鼓励参与者展示研究成果、分享经验，并探讨潜在的合作方向。诚邀您的参与，共同推动该领域的发展。

征稿要求

我们特别邀请研究人员和专家们提交包括但不限于以下主题的论文：

多模态数据增强
多模态数据分析与理解
多模态问答
多模态生成
多模态检索增强
多模态推荐
多模态总结和文本生成
多模态智能体
多模态提示（prompting）
多模态持续学习
多模态信息融合与整合
多模态应用/框架
多模态系统管理与索引
多模态移动端/轻量级部署

提交的论文必须与主会议的格式和模板相同（ACM Conference）。提交格式的长度限制为以下两种选项之一：

4页正文加1页

（文：PaperWeekly）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复