跳至内容
12月5-6日,2024中国生成式AI大会(上海站)「GenAICon 2024」将在上海中星铂尔曼大酒店盛大举办。中国生成式AI大会已成功举办两届,迅速成长为国内生成式AI领域最具影响力的产业峰会之一。
此次也是中国生成式AI大会首次登陆上海举办。大会由智一科技旗下智能产业第一媒体智东西、AI与硬科技知识分享社区智猩猩共同发起主办。上海市人工智能行业协会为大会的指导单位。
大会上海站由“主会场峰会+分会场研讨会+展览区”组成。主会场将进行大模型峰会、AI Infra峰会,分会场将进行端侧生成式AI技术研讨会(收费制)、AI视频生成技术研讨会(收费制)和具身智能技术研讨会(收费制)。展览区则紧邻会场门口设置,14家展商将进行技术产品展示。
上海站以“智能跃进 创造无限”为主题,50+位嘉宾将带来致辞、演讲、报告和对话讨论,基于前瞻性视角解构和把脉生成式AI的技术产品创新、商业落地解法、未来趋势走向与前沿研究焦点。
已经迫不及待报名的朋友,可以先扫描下方二维码添加小助手报名啦!
目前,50+位嘉宾已确认参与主题演讲、高端对话和圆桌Panel。接下来为大家一一介绍。此外,分会场研讨会议程也已经完全敲定。
复旦大学计算机科学技术学院教授、上海市智能信息处理实验室副主任 张奇
2023年大型语言模型迎来了迅猛的发展,在自然语言处理、智能问答、文本创作等多个领域展现出了前所未有的能力。这一系列令人瞩目的成果,使得各界对于通用人工智能(AGI)的实现满怀憧憬与期待,甚至有不少乐观的预测认为,基于大模型构建的通用人工智能在短时间内便会成为触手可及的现实。然而,在这一片乐观的喧嚣背后,我们更需冷静思考:大语言模型那令人惊叹的能力究竟源自何处?其能力的拓展是否存在着无法逾越的边界?大语言模型未来又将沿着怎样的路径持续演进与发展?本次介绍就将围绕上述这些问题展开初步的深入探讨,以期抛砖引玉,让大家对大语言模型有更为透彻与清晰的认知。
北京大学(临港)大模型对齐中心执行主任、北京阿莱门科技有限公司首席执行官 徐骅
报告主题:《破解大模型安全与实用性矛盾:多模态对齐的探索与实践》
本次演讲将首先介绍当前大模型面临着两难境地,过于安全可能致其无用,而安全性不足则可能引发隐患,亟需找到安全与实用的动态平衡。之后,将重点介绍北大研究团队探索的对齐技术的多样化框架。包括基于人类反馈的强化学习RLHF;针对复杂场景的灵活对齐工Aligner;多模态对齐技术,实现语言、图像、视频等信息的高效融合;以及Inference Time对齐实现推理阶段实时调整输出。接着会分享多模态对齐技术的实践案例,多模态对齐目前已应用于医疗影像分析和处方检查,RLHF+Aligner能够提升法律问答准确性,多模态对齐助力具身智能领域的智能驾驶座舱和机器人交互。在未来,我们致力于推动从研究到产业的深度融合,推动RLHF与Aligner技术在更多领域的纵深应用,构建面向严肃场景的高效推理对齐框架,支持实时响应和个性化调整。使对齐技术驱动生成式AI在医疗、教育、法律等领域的行业变革,促进生成式AI在社会中的可信落地。
演讲主题:《以多模态智能体为中心的AI原生应用和开源生态》
智能体作为应用前沿,正在重塑技术与场景之间的互动方式。
本次演讲以智能体的开发与应用为核心,重点介绍Om Agent平台在AI原生应用中的实践,包括如何快速构建、部署和管理AI原生应用,让每个智能硬件设备具备人类认知级别的智能体,快速适应、赋能各种场景,以及在不同行业与领域的原生应用案例。同时,强调构建开源生态也是推动智能体应用创新的重要依托,更多开发者的加入与应用的产生将能够服务更广泛的用户,让每个人都能真正地享受到技术创新成果。
多模态大模型正在重新定义人工智能的应用边界。通过整合文本、图像、音频、视频等多种形式的数据,多模态大模型在许多领域展现了强大的理解和生成能力。随着模型能力的不断提升,多模态大模型不仅正在助力形成新质生产力,还在多个行业场景中展现出巨大的潜力。
此次演讲MiniMax将分享如何在多模态大模型研发中不断创新,并实现大模型技术的快速落地。通过不同的实际案例,MiniMax将向大家展示如何利用多模态大模型技术解决不同行业场景的复杂问题。
腾讯优图实验室天衍研究中心负责人、专家研究员 吴贤
演讲主题:《从深度学习到大模型,医学AI上的一些尝试》
在医学领域,几乎所有的通用 NLP 任务都可以找到相应的实际应用场景,例如医患对话、医学信息提取、疾病诊断、药物推荐以及报告生成等。目前,已有大量的研究将 LLM应用于医学领域,部分大型模型甚至已经高分通过了医师资格考试。然而,仍有许多问题需要进一步研究。本次分享旨在深度探索大模型技术在医学领域的研究和应用问题,包括训练效率问题,包括幻觉问题,包含在临床场景中实际遇到的问题等。
银河通用机器人合伙人、大模型负责人,北京智源人工智能研究院具身智能 PI 张直政
机器人从“专用”到“通用”的发展是具身智能的使命,而大模型技术是推动这一发展的关键。本报告将首先从数据、模型、系统的角度介绍对于具身智能的Scaling Law探索,并介绍这一探索的重大意义。其次,报告将深入剖析机器人从“专用抓取”到“通用抓取”,从“通用抓取”到“通用操作”,再到面向终局的端到端具身大模型的科研思路和最新成果。最后,报告将讨论这一系列前沿探索在相关产业中形成新质生产力的诸多机会和可能性。
单目深度估计旨在从单张图像中预测场景的深度信息。与双目深度估计相比,单目深度估计具有更高的应用灵活性,但也面临缺乏三维信息导致的复杂性和不确定性问题。近年来,单目深度估计在自动驾驶、机器人导航和生成式人工智能等领域获得了广泛关注。最近的研究趋势集中于全场景通用的单目深度估计大模型的开发。传统的深度估计模型通常针对特定场景进行训练,难以在多样化的场景中取得理想的性能。而全场景通用的单目深度估计大模型旨在实现一个能够适配多种复杂场景的模型,显著提升其通用性和鲁棒性。为了实现这一目标,研究者们在过去两年中在多个方面取得了重要进展。本次报告将讨论几个学界重点关注的研究方向,包括如何利用海量无标注或弱标注数据来增强模型的泛化能力,如何设计更有效的监督训练范式和损失函数,以及如何更好地利用大模型的先验知识来提升深度估计的精度和稳定性。
演讲主题:《非Transformer架构大模型Yan在端侧的实践》
本次演讲将探讨生成式AI在端侧面临的挑战,详解国内首个非Transformer架构大模型Yan的技术路线及其落地应用,还将分享大模型从单体智能到群体智能的发展路径。
演讲主题:《大模型加持,3D AIGC的发展与应用》
生成式语言大模型在近两年取得了突破性的进展,在蚂蚁内部也有大量的业务在应用llm来进行各种各样的业务改造和创新,并取得了一些结果,例如蚂蚁的支小宝,医疗管家等业务。在业务应用LLM的过程中也遇到了一些挑战,主要集中在可信,以及效率等方面,例如在模型的部署服务过程中,就面临资源利用率,推理速度等效率相关的问题,在用户的应用过程中也遇到一些和大模型幻觉相关的挑战,本次分享会介绍蚂蚁在这两个方面上的一些工作和尝试。
西湖心辰CEO、西湖大学深度学习实验室成果转化负责人 醒辰
演讲主题:《让AI懂人心,说人话——多模态情感大模型的应用探索》
语言、文字的发明都是为了沟通和交流,在AI技术高速发展的今天,人机交流的种种矛盾也被放到台前。“AI不明白我的意思”,“AI理解不了我的心情”大众对此很有共鸣,也是一定程度上排斥AI的原因。AI的智商虽然关键,情商更为重要,它是AI与人类和谐共存的基石。
怎么让AI模型懂人心?说人话?西湖心辰自创立以来一直深耕打造“高情商”“超拟人”的AI模型,并且持续探索其应用边界,以期为公众带来福祉并创造社会价值。
在本次演讲中,将重点介绍我们的模型能力在心理领域的落地应用,包括端到端多模态识别与交互、长程对话能力以及情感感知等关键能力。用实际案例证明AI模型不论是基于文字还是语音都能懂人心、说人话,共同探讨AI在个性化心理健康服务领域的未来发展。
演讲主题:《让每个人体验音乐创作——音乐生成大模型的创新实践》
随着AIGC技术的成熟和广泛应用,AI和音乐可以碰撞怎样的火花?如何降低门槛让普通用户体验音乐创作的乐趣?趣丸科技推出了自主研发的全球首个多模态音乐生成大模型——天谱乐AI。该模型集成音频处理、深度学习及大数据分析等领先技术,不仅支持文生音乐、音频生音乐,还首创图片/视频生音乐功能,生成的歌曲自带人声唱词,效果达到专业发行水准。
本次演讲聚焦AI音乐,重点分享趣丸科技自研的音乐生成大模型天谱乐AI的初衷、产品研发、应用实践和愿景。AI音乐工具不仅是技术的堆砌,更是用户情感的载体。天谱乐AI通过技术创新降低音乐创作门槛,让用户不再受限于专业的乐理知识,复杂的音乐制作流程和昂贵的版权费用,就可以轻松通过音乐创作记录生活的切片,在创作中提升审美自觉和音乐生产能力。
演讲主题:《法律大语言模型在社会治理中的落地应用》
随着大语言模型(LLM)在自然语言处理和法律推理中的突破性进展,我们正迎来一个法律科技变革的新时代:法律大语言模型能够理解、生成和分析法律文本,全面提升法律服务的效率和公平性。如何将法律大语言模型的认知智能和推理智能应用于社会治理的广泛领域,从事更多智能化、精准化的法律服务,是法律科技和社会治理研究的重要方向。在此背景下,华院计算实践出了一套面向法律大语言模型应用的产品架构,以智能法律服务的理念帮助政府和企业解决法律服务效率低、资源不足、应用落地难等现实问题。
在本次分享中,我们将介绍该框架的基础概念和原理,并通过具体案例展示法律大语言模型在法律咨询、案件分析和智能审判等任务中的应用。此外,我们还将介绍法律大语言模型的训练方法、推理机制以及在不同法律场景中的实际应用效果,通过这些实践案例展示法律大语言模型如何实现社会治理的智能化和高效化。
演讲主题:《基于大模型构建多智能体商务互联平台的实践》
76秒创建AI商务应用,顾学斌先生将分享WeMeet荟神如何基于大模型构建多智能体商务互联平台的实践和案例,帮助与会者了解如何精准分析AI应用场景的痛点、需求和用户意图,进而结合大模型和多智能体的技术进展,构建可满足用户和场景中长期需求的平台。
生成式语言大模型在近两年取得了突破性的进展,在蚂蚁内部也有大量的业务在应用llm来进行各种各样的业务改造和创新,并取得了一些结果,例如蚂蚁的支小宝,医疗管家等业务。在业务应用LLM的过程中也遇到了一些挑战,主要集中在可信,以及效率等方面,例如在模型的部署服务过程中,就面临资源利用率,推理速度等效率相关的问题,在用户的应用过程中也遇到一些和大模型幻觉相关的挑战,本次分享会介绍蚂蚁在这两个方面上的一些工作和尝试。
上海交通大学副教授、无问芯穹联合创始人兼首席科学家 戴国浩
演讲主题:《软硬协同与多元异构,共筑大模型算力底座》
在AI技术迅猛发展的今天,算力底座的不充分发展,已成为制约AI广泛应用的主要瓶颈。本报告创新性地将影响AI模型算力供给的关键要素归纳为“软硬协同”与“多元异构”,并集中探讨了算力供给错配的问题。深入分析AI在持续发展和应用落地过程中所面临的算力挑战,并从技术创新和产业实践的角度出发,提出了一种创新的解决方案。该方案旨在持续扩大AI算力供给,提升面向大模型场景的token吞吐效率,降低大型模型部署的算力成本,以推动AI技术的持续进步,促进更多AI应用的成功落地,实现更广泛的社会和经济效益。
演讲主题:《全球化布局:AI 企业如何补齐算力短板,保障GPU集群稳定性》
随着全球数字化进程的推进,越来越多的企业希望将自己的 AI 应用拓展到海外市场。然而,AI 出海面临诸多挑战,本次演讲重点关注如何突破算力挑战。
稳定的 GPU 集群对突破算力挑战至关重要。GPU 集群能并行处理海量数据,其稳定性确保计算持续高效。通过合理架构设计、优质硬件支持、智能监控和维护系统等,可保障集群稳定,释放强大算力。GMI Cloud作为一个基于高稳定性 GPU 集群的云计算平台,便为 AI 应用出海提供一系列服务和支持。
本次演讲,将介绍AI出海常见的基础设施问题以及高稳定性的重要性,并着重探讨如何利用 GMI Cloud 的优势,帮助企业突破算力挑战。之后,还将通过成功案例,分享 GMI Cloud 在不同行业应用的实践经验。
演讲主题:《从数据到知识:AI 重塑百行千业的基石》
随着人工智能技术的快速发展,大模型成为了企业智能化的重要工具。然而,要让这些模型真正为企业服务,不仅需要强大的技术,更需要找到技术与业务需求的结合点,充分利用企业多年积累的本地“知识”,构建“知识”为中心的支撑平台,驱动丰富可信的智能化场景的建设。
本次分享将深入浅出地为大家分享如何通过以“数据”和“知识”为核心的方法,将企业的海量数据转化为有价值的知识,并结合创新技术让 AI 更高效、更可靠地解决实际问题。并通过真实案例展示如何帮助企业实现智能化转型,让 AI 技术融入到企业的场景价值当中,从而实现真正的AI+行业的转型与落地。
枫清科技创立以来,一直坚持为客户打造知识引擎与模型算法双轮驱动的新一代智能体平台,在多家行业龙头企业的多智能场景的平台建设中体现了其核心价值。
LLM正在对企业软件生态进行重构,RAG已经成为企业级LLM应用的标准化架构。然而,RAG并非简单的搜索系统,它需要针对来自企业的各种非结构化数据作出处理,准确识别用户意图,帮助LLM在上下文窗口内定位到足够精准的片段,这就意味着它必须成为AI和Data协同工作的最具代表性的载体和场景。随着LLM多模态能力的增强,RAG也需要步入多模态时代,它并不限于对日常图片,音视频的检索增强,还应该涵盖当下占据大部分的非结构化文档,发掘出这些数据的商业价值。本演讲结合我们在过去的工作,从基础设施角度来给出多模态RAG的工程实践,以及未来如何迭代和演进的趋势。
在当今时代,AI和大模型的应用已成为焦点。本演讲将探讨如何利用AI让大模型更加智能,扩大其应用场景,以提高个人的工作效率和生活质量。我们将深入解析其工作原理和优势,并通过实际案例展示大模型在个人服务中的具体应用。此外,本演讲还将探讨当前面临的挑战及未来发展方向,为您揭示通向个人大模型之路的关键所在。
演讲主题:《从长窗口到多向量:RAG范式下AI Infra的机遇和挑战》
在本次演讲中,我们将深入探讨RAG(Retrieval-Augmented Generation)范式在大模型的实际应用中遇到的机遇和挑战。RAG不仅能够补足大模型记忆的不准确性,还有效降低了注入新知识的成本,尤其是在私有知识的访问方面表现出色。尽管长窗口大模型技术取得了长足进步,但其并不会取代RAG范式,反而推动了RAG依赖于支持长窗口输入的向量模型的需求。我们将讨论jina-embeddings作为全球首款支持8k窗口的开源向量模型的成功,以及长窗口输入逐渐成为多模态向量模型的新标配。尽管如此,长窗口模型带来了信息丢失和推理成本上升的挑战,这也催生了多向量表示的需求,以弥补单一向量带来的信息缺失。例如,ColBERT和ColPali分别针对文本和图文内容提供了多向量表示方案,然而支持多向量的AI基础设施仍然不足。此外,RAG的PoC阶段面临着GPU推理成本高、资源利用率低的问题,市场缺乏类似Modal lab的GPU共享服务。通过本次演讲,我们将总结RAG范式的长期发展前景,阐明向量模型在长窗口和多模态输入上的进化需求,并探讨AI基础设施如何更好地支持多向量表示和GPU共享,以降低RAG的应用成本。
演讲主题:《全栈“AI工厂”推动生成式AI可持续创新》
回顾人类历史上通用技术的发展,从技术的产生到社会经济结构与生产模式发生根本性变化,需要生产工具和生产系统的整体变革才能促成。今天,汹涌而来的AI也是如此。未来,如何让AI赋能千行百业,成为新质生产力?
本次演讲,北电数智将带来关于人工智能这项通用技术,在中外的产业发展格局差异,进行系统化变革面临的挑战,及北电数智在算力、算法、数据与生态构建方面,全面构建AI生产线的实践思考,以期与产业各方共同推动AI产业的系统性变革,让AI能够真正被使用起来,成为真正的新质生产力。
2017年阿里云从多模态搜推场景的需求起步,开始投入智算集群的产品研发,2022年商业化发布,通过自动驾驶、LLM/VLM应用场景的持续打磨,目前已经服务了国内一半以上的大模型企业/科研机构。
本次分享主要就智算集群的产品和方案设计方向,呈现阿里云的产品设计思考及实践。
RAG(检索增强生成)结合生成式AI与向量数据库,为知识获取与生成开辟了新路径,但落地实践中依然面临数据质量、检索效率、成本控制与安全性等挑战。
本次演讲将深入探讨RAG落地的关键实践,向量数据库如何在生成式AI时代发挥更大价值,以及其在性能、精准度与成本间的未来演进方向。
演讲主题:《TencentVDB向量数据库在AI中的实践》
随着AI应用的快速发展,向量数据库逐步脱颖而出,越来越多的企业正在或考虑使用向量数据库在企业中业务场景中落地,以发挥更大的数据价值,最终为企业起到降本增效的作用。腾讯云向量数据库团队积累了大量的客户最佳实践,在综合效果、性能、成本等方面有深刻的理解,并致力于打造最好用的向量数据库,在AI时代帮助更多的企业挖掘出更多的数据价值。
本次演讲,谢宇将介绍向量数据库的应用场景和行业中的定位,以及未来定位是什么,并分享VectorDB在RAG中提升效果的实践技巧;此外,还将从索引结构、算法、成本逻辑、稀疏向量、Embedding、多租户等方面阐述VectorDB向量数据库的基本原理和应用实践。
演讲主题:《国产 TPU 芯片“No CUDA”软件栈的构建实践》
国产自研高性能芯片面临的诸多挑战中,性能和生态是两个不能避免的话题。英伟达的 CUDA 生态帮助了很多类 CUDA 架构公司解决了可用性和部分性能问题,但也带来了诸多自主可控上的担忧。
本次演讲将从实际的芯片软件栈构建思路出发,结合实际 AI 芯片软硬件架构,介绍在真实的大模型落地实践中,多层次软件栈实现所面临的问题、挑战、以及过程中的选型决策。
演讲主题:《生成式AI驱动实时互动的技术变革与体验革新》
实时互动技术正经历一场从“为人类设计”到“为人类与模型共同设计”的变革。过去十年,实时互动行业完成了从关注服务质量(QoS)到体验质量(QoE)的跨越,推动用户从“听得到”到“听得清”的感受提升。生成式AI的发展,正在开启“跨模态QoE”时代,使实时互动从“听得懂”向“听得心”迈进。
此次演讲主要探讨生成式AI如何驱动实时互动的技术与体验革命,深入剖析AI RTE产品的技术架构及其应用前景。通过解读从服务端AI模块到多模态交互的演进,探讨技术如何突破模态限制,创造更加沉浸式的互动体验。希望激发行业对未来AI RTE的无限可能的探索。
随着AI技术的发展,尤其是大模型技术的应用,数据量呈现爆炸性增长。AI训练和推理需要处理的数据集规模从几TB增长到PB级别,与此同时,数据往往来自多个数据源,很多数据存放在不同的云服务中。当AI算力集群从这些数据源获取数据时,很容易遭遇带宽低下、延迟较高的困境,使算力资源的宝贵时间白白浪费在等待数据这一环节上。Alluxio 通过帮助企业构建大模型时代的高性能AI数据底座以应对I/O挑战,提升AI算力的效率与性能,被广泛应用于模型训练与推理、自动驾驶、AI制药、金融量化以及视频渲染等场景。
本次演讲,首先会介绍常见的 I/O 挑战及其对 GPU 利用率和整体性能的影响,并着重讲解如何将高性能数据访问层无缝集成到 AI 流水线中,以减少 I/O 开销。最后,将结合实际案例分享提高 AI 工作负载性能的缓存策略。
联想集团首席研究员、联想研究院人工智能实验室研发总监 师忠超
本次演讲将重点介绍联想AIPC端侧智能体的独特架构,旨在通过开发端侧智能体,显著提升端侧大模型在处理复杂任务和场景应用时的性能。我们将深入探讨联想端侧个人智能体如何结合大模型的关键能力定向增强与端侧异构加速技术,在设备资源有限的条件下达到卓越的性能。此外,本次演讲也将展示联想如何运用混合意图理解与复杂任务自动分解策略等创新方法,优化个人知识库及工具库的应用,进而为用户提供更智能、更个性化的服务体验。
vivo AI全球研究院 AI算法技术总监 李方圆
演讲主题:《智能手机的未来:端侧大模型重塑用户体验》
手机是从早到晚伴随我们工作、学习、生活、娱乐最长时间的智能设备。在AIGC时代,现有的手机AI功能已无法满足用户对更高层次体验的追求,主要表现在单点功能与系统融合不够紧密、机械的被动执行缺乏主动性,通用的功能难以与用户个性化需求相结合等不足。手机终端大模型凭借其强大的语义理解、语言生成和逻辑推理能力,一方面能够大幅提升传统AI功能的准确性和效果,另一方面能够理解执行用户更加复杂的指令,结合用户使用手机的情景,提供更加主动、个性化的智能服务。
本次演讲,将分享vivo如何从传统的AI时代迈向大模型AI时代的技术演进之路。围绕记忆、端侧化、主动执行3个方面探索更懂用户、更懂手机、更加主动的个人智能的应用场景,并与大家揭秘背后的核心技术蓝心端侧大模型的构建思路与方案。
报告主题:《神经网络剪枝、蒸馏在Efficient AI中的发展与应用》
AI模型深刻改变了我们的生活,但这些模型无论是训练还是测试阶段都需要消耗大量资源,导致速度慢、能耗高、存储及运存冗余等问题,解决这些问题亟需提高AI模型的效能(Efficiency),因此需要Efficient AI。Efficient AI涉及软硬件、算法等多个维度的协同设计和优化,硬件不足时往往可以通过在算法上的改进来补齐短板。在算法层面,要想实现提高效能,需要解决两个问题:(1)效能如何提高,(2)性能如何保证。前者一般是通过缩小模型大小来实现,最具代表性的方法就是神经网络剪枝(Pruning);后者一般是通过重训练(Retraining)、微调(Fine-tuning)得到,最具代表性的方法就是知识蒸馏(Knowledge Distillation)。
在这次交流中,我将介绍剪枝和蒸馏的主要历史背景和当前研究现状,结合我的研究经历,重点介绍如何利用剪枝和蒸馏实现对神经辐射场(NeRF)、文生图(T2I)等任务进行效能提升。其中文生图加速的工作SnapFusion(NeurIPS’23)是世界上首个端上文生图时间小于2s、且性能可以对标SD-v1.5的模型。
随着大模型的发展,AI已从简单的图像分类识别功能,升级为对视频、音频、文字等多模态信息的整合分析,实现对内容更深刻的理解。多模态大模型已成为推动各行各业发展的重要力量。然而,要将大模型应用于端侧设备,面临着算力、带宽、功耗和成本之间的多重平衡挑战。爱芯元智致力于打造世界领先的AI芯片,积极布局多模态大模型,助力大模型在端侧的普及和高效部署。
本次演讲,将通过展示实际应用案例,探讨多模态大模型如何在更广泛的应用场景中发挥更大的价值。同时,还将与行业伙伴共同探索大模型在端侧应用的无限可能,推动“普惠AI,造就美好生活”的使命。
近年来,多模态大模型的不断进步也对端侧设备的部署和使用提出了更大的要求。针对该问题,罗根博士将从感知、建模与计算三个方面进行深入探讨:在感知层面,主要介绍通过混合分辨率视觉融合实现高效的视觉感知;在建模层面,主要介绍通过内生视觉专家实现紧凑的一体化多模态建模;在计算层面,主要介绍通过混合深度计算实现稀疏的模型动态推理。
随着大模型技术的快速发展,视频大模型(VLM)正与短视频产业结合并迎来新的爆发机遇,逐渐成为互联网应用的热点。
本次分享从视频大模型与世界模型的角度,对比主流视频生成大模型架构,探讨视频生成的关键技术(包括NaViT、RADM等),分析视频生成类大模型的主要挑战与发展趋势;探讨内存墙(Memory Wall)和通信墙对视频大模型GPGPU/TPU集群训练和部署的挑战,并针对这类视频长序列模型的算力芯片级训练部署,结合具体项目给出软硬结合的解决方案与系统经验。
自今年2月OpenAI发布Sora起,视频生成大模型成为了热点方向。但其具体落地的业务场景却一直不明确。近期,井英科技通过视频生成模型实现了100分钟以上短视频的制作,并成功实现了用户付费观看的商业模式。
本次分享将介绍AI短剧从最初的不可行到现如今可行的关键技术突破,并探讨了除视频生成大模型之外的其他关键技术进展。
“人”一直是视频生成的核心对象,面对大规模视频的生成需求,利用生成式人工智能技术产生高拟真,规模化的虚拟数字人正逐渐成为研究热点。三维高斯、大模型等技术在过去一年快速发展,并与数字人技术进行了广泛结合,本次报告将从数字人重建、生成、编辑等方向介绍数字人视频生成领域的最近进展,对三维数字人技术的发展趋势进行探讨。
演讲主题:《视频垂直大模型在智能数字人生成中的应用》
在生成式AI技术蓬勃发展的背景下,智能数字人已成为内容创作、虚拟助手和人机交互等领域的重要应用之一。然而,传统生成模型在高精度、多模态的智能数字人生成中仍面临诸多挑战。为此,垂直领域的大模型提供了一条全新路径。
本次演讲,首先会介绍从通用大模型到垂直大模型的演进,之后将着重讲解新壹视频大模型的整体架构设计及其在数字人视频生成与优化中的核心技术突破;此外,还将对智能数字人生成的技术难点,包括数字人生成中实现自然语言驱动动作与表情生成的关键技术等进行深入分析,并分享视频垂直大模型驱动的智能数字人在相关领域的典型应用案例。
短视频、影视和游戏动画创作正在迅速发展。然而,传统的视频制作过程耗时耗力,通常需要大量的人工后期编辑。视频生成大模型算法提供了一种低成本、高效的高质量视频内容生成解决方案。但视频生成算法生成的内容可控性不足,限制了其实际应用的有效性。因此,如何实现视频生成内容的可控性仍是一大关键挑战。
在本次报告中,我将介绍 MegActor 系列工作,这是一种支持混合模态控制的人像视频生成算法。该算法支持角色自定义(包括真实人物、二次元人物和游戏人物等),并能够通过视频、音频和文本输入实现单独和混合控制。其功能涵盖了控制角色说话、唱歌和生成表情动画等。MegActor 系列是社区内的首个开源可控人物视频生成大模型,将持续优化以推动技术的不断发展。
上海科技大学信息科学与技术学院助理教授、博士生导师 顾家远
报告主题:《服务于具身智能的仿真评估平台和数字资产》
在具身智能领域,通用机器人决策模型的开发取得了显著进展。然而,收集真实世界的训练数据和对这些模型进行真实环境下的评估仍然成本高昂。仿真技术提供了一种可行的替代方案,但其有效性高度依赖于多样且逼真的数字资产。传统上,这些资产主要由游戏产业创建,但随着具身智能的发展,对高质量数字资产的需求激增,以提高仿真环境的多样性和逼真度。这引发了一系列关键问题:这些资产的真实程度应达到何种水平?我们如何有效地创建这些仿真环境?在此过程中,哪些工具是必不可少的?在这个过程中,哪些工具是必不可少的?
在本次报告中,我将介绍最近的工作SimplerEnv,一个专为评估基于真实世界数据训练的决策模型而开发的仿真环境平台。该平台支持对多种通用机器人操作模型的评估,如RT-1和Octo。此外,我还将讨论另一个研究成果Point-SAM,一个3D原生工具,能够对三维部件和物体进行交互式分
近年来,大模型的成功以及模仿学习、强化学习等方法的突破持续推动着具身智能的快速发展。但这一领域仍然面临着数据匮乏的核心问题,大规模训练和评测仍存在客观瓶颈。生成式 AI 的进展为解决这一问题提供了重要路径。
本报告将聚焦于三维场景中具身多模态感知相关的具体任务,详细介绍团队利用多模态大模型的生成能力设计三维多模态数据的自动化标注管线,从而形成大规模三维物体、场景在不同粒度全方位的语料标注,构建带有显式三维建模和空间感知能力的具身感知基础模型,并最终利用大模型实现更符合人类判断的自动化评测。最后,报告将展望生成式 AI 在机器人交互数据方面的巨大潜力,同时探讨其潜在的局限性。
国地共建具身智能机器人创新中心数据智能负责人 李广宇
数据稀缺是目前困扰具身操作研究的共识。从各种机器人整机、机械臂、灵巧手等本体厂家纷纷推出的遥操作采集系统,到以UMI为代表的低成本采集设备,再到各类人类操作动作捕捉方案,以及各种仿真数据合成方法。如何高效的获取具身操作数据,已经成为学术界和产业界的研究重点。
另一方面,针对不同途径获取的数据,具身数据金字塔的概念已经广为传播:下层是数据量大、获取成本低,但单位价值较低的互联网数据和仿真合成数据;顶层是采集成本昂贵,单位价值高的真机遥操作数据;而中间层是介于真机遥操作和仿真合成之间的,人类动作捕捉数据和仿真遥操作数据。同时当前的机器人数据中,本体构型丰富多样,传感器配置各异。如何有效融合多种来源,多种本体的具身数据,也是研究者和工程师的关注点。
本次报告中,我将梳理具身数据方向的各种技术路线,并介绍具身智能国创中心在数据方面的进展,包括数据采集和训练基地建设情况、数据集开源开放情况,以及一些围绕数据融合方向的探索和尝试。
报告主题:《万物具身:耦合空间智能与具身智能的复空间具身体系》
空间智能旨在开发理解三维物理世界的模型,模拟物体物理特性、空间位置和功能,具身智能通过赋予智能“身体”,与环境交互反馈中实现智能增长和环境自适应,二者既有区别又相互补充。本报告旨在尝试联结空间智能与具身智能,构思出“万物具身(Embodiment-of-Objects)”概念,设计了复空间具身体系(Multiverse Embodied System)计算范式,探索了“超图+空天世界模拟器+空天世界模型”的研究路线,初步形成思维超图引导的智能体世界模型、异质超图引导的智能体关联导航、时空超图引导的智能体预测规划等关键技术,推动从单体智能向空天地海任务、环境、场景耦合的体系智能演进。
报告主题:《Real2Sim2Real:一种基于多信息源的具身操作技能开发系统》
数据是具身智能在今天面临的核心问题之一。如何利用来自不同信息源的数据,例如仿真数据、人类演示数据、静态视觉数据等,构建数据金字塔,共同实现具身操作技巧开发,降低对真实机器人数据的依赖与数据成本成为值得关注的课题。过去几年,我们构建了包含Real2Sim、Learn@Sim、Sim2Real模块的具身智能系统,旨在通过各类感知技术对现实物理世界进行建模,基于建模在人类演示数据、自然语言提示词等的指导下于仿真环境中学习开发特定的机器人操作技巧,并将仿真中学习到技能迁移到真实环境中。相关成果发表在IJRR、RSS、CoRL、ICRA等期刊与会议上,曾获选RSS 2023 Best System Finalist。
随着深度学习、大模型技术的突破性进展,人工智能的发展从感知智能和认知智能,逐步向能够与真实物理环境进行交互的具身智能阶段发展,并在大模型在多种任务上的强大泛化能力和人形机器人对于人类社会场景的适应能力的基础上,有望通过具身智能的发展,最终实现通用人工智能。不过,具身智能为我们带来希望的同时,也更多的带来了挑战,机器人如何感知世界、理解世界?如何拥有对自己行为的认知?如何高效合理的运动?等等。
本次报告将从大模型技术和人形机器人技术是如何推动具身智能发展的角度进行切入,阐述当前大模型技术在解决具身智能问题时的诸多不足,进而详解具身智能大模型在感知、规划、导航、乃至机器人操控方面有哪些亟待研究的关键问题,同时也将对未来具身智能如何更好发展做出展望。
与今年4月成功举行的北京站相比,2024中国生成式AI大会(上海站)在日程上也有所升级。两天的大会将进行两场主峰会和三场技术研讨会。
主会场将于12月5日举行大模型峰会,AI Infra峰会将在12月6日进行。在分会场,12月5日下午端侧生成式AI技术研讨会将率先开启;12月6日上午将举行AI视频生成技术研讨会,下午将进行具身智能技术研讨会。
2024中国生成式AI大会(上海站)的观众报名已进入最后阶段,电子门票先到先得!
上海站设置了三类电子门票,分别是免费票、通票和贵宾票。持有免费票可参加两场主会场峰会(大模型峰会、AI Infra峰会);持有通票和贵宾票,可参加全部两场主会场峰会,以及三场分会场研讨会(端侧生成式AI技术研讨会、AI视频生成技术研讨会和具身智能技术研讨会)。
不过,免费票申请后,需经审核通过方可参会;通票和贵宾票则需要购买。
大家可以扫描下方二维码添加小助手“泡泡”进行申请免费票或购买门票。已添加过“泡泡”的老朋友,可以给“泡泡”私信,发送“GenAI24”即可报名。
(文:特工宇宙)