AI Agent成主打!谷歌发布超强多模态大模型—Gemini 2.0
谷歌发布全新多模态大模型Gemini 2.0,支持图像、视频和音频等多模态输入与输出,并能调用原生工具进行复杂任务处理。性能提升显著,新增AI Agent提供智能体自动化功能,增强用户交互体验。
谷歌发布全新多模态大模型Gemini 2.0,支持图像、视频和音频等多模态输入与输出,并能调用原生工具进行复杂任务处理。性能提升显著,新增AI Agent提供智能体自动化功能,增强用户交互体验。
北京智源人工智能研究院创始理事长,美国国家工程院外籍院士 张宏江
12月6日-7日,2024 T-E
Kimi最近将AI生成MV的能力移植到国内的平台上。特工展示了平台上的AI视频生成功能——Kimi 创作空间,并分享了几个官方模板视频范例以及自定义创作流程和效果。
OpenAI发布o1多模态版本及Pro订阅套餐,称是世界上最聪明的模型,支持图像处理等多模态功能,并提供更快响应和更优答案;价格暴涨至200美元/月。
一周前谷歌的Gemini-Exp-1114模型取代GPT-4o成为AI多模态大模型榜首。但GPT-4o更新后再次夺回第一。谷歌和OpenAI在多模态大模型上的竞争激烈,技术正向原生多模态方向发展。多位审稿人将在12月6日带来关于多模态大模型的公开课。
智能体技术的发展催生了‘超级人工智能即服务’(IaaS)的新商业模式,特斯联发布了由其驱动的多模态多智能体协作AI Agent——Hali。Hali具备类人思考、长记忆、对物理世界的感知以及多智能体协同等特性。