谷歌王炸:Gemini 2.0 闪电版来袭,这次不只是快 2 倍那么简单

全新 Gemini 2.0 Flash 横空出世,这次不只是升级那么简单。就在 OpenAI 的圣诞礼包还在发酵的时候,谷歌选择了这个时间点发布重磅产品,不得不说,这场 AI 巨头之间的较量越发精彩了。

风起云涌的 AI 市场上,每一次技术突破都牵动着人心。这次的 Gemini 2.0 Flash 不负众望,带来了一系列让人眼前一亮的新特性。它不仅能理解和生成文本,还具备了原生的图像生成和音频输出能力。想象一下,你可以让 AI 用 8 种不同的声音为你朗读文章,甚至可以让它用海盗的语气说话,是不是很有趣?

不止于快

速度提升是最直观的变化——新版本的处理速度直接翻倍,达到了 1.5 Pro 版本的两倍。但更令人兴奋的是它的多面手特性。它能调用谷歌搜索、执行代码,甚至可以连接第三方应用,就像一个无所不能的智能助手。

在安全性方面,谷歌也做足了功课。所有由 2.0 Flash 生成的图像和音频都将使用 SynthID 技术加入水印,这在深度伪造日益猖獗的今天,无疑是一个负责任的举措。据统计,仅在 2023 到 2024 年间,全球检测到的深度伪造案例就增加了 4 倍。

让我们看看本次 Gemini 2.0 主要更新了哪些能力。

  • 速度和性能提升:Gemini 2.0 Flash 模型的速度是前代产品 Gemini 1.5 Pro 的两倍,并且在关键基准测试中表现出更强的性能和更低的延迟。

  • 多模态输入和输出:Gemini 2.0 支持图像、视频、音频等多模态输入,同时也支持多模态输出,包括与文本混合的原生图像生成和可自定义的文本转语音(TTS)多语言音频输出。

  • 原生工具调用:Gemini 2.0 可以原生调用工具如 Google 搜索、代码执行以及第三方用户定义函数,增强其处理能力和实用性。

  • 改进的空间理解能力:Gemini 2.0 提高了对杂乱图像中小对象的理解和标记能力,且能更好地识别对象并添加字幕。

  • 新的多模态 Live API:这项功能允许开发者创建实时视觉和音频流应用程序,支持低延迟的双向语音和视频交互。

  • 多模态理解与复杂推理:Gemini 2.0 在多模态理解、复杂推理和工具集成方面实现了重大突破,进一步增强了其作为通用 AI 助手的能力。

Gemini 2.0 三大项目

Project Astra 作为通用 AI 助手,不仅能理解多种语言,还具有流畅的多语言对话能力,包括法语和泰米尔语等,能够理解不同口音和生僻单词。此外,Project Astra 具备强大的记忆功能,能够记住门禁密码等信息,并在需要时准确调取。

它还可以调用 Google Search、Google Lens 和 Google Maps 等工具,进一步增强其在日常生活中的助手功能。其长达 10 分钟的对话记忆能力使其在用户交互中显得更加智能和人性化。

Project Mariner 则化身为浏览器智能助手,专为在网页任务完成方面提供帮助。根据 WebVoyager 基准测试,它在端到端的真实世界网页任务中展现出惊人的 83.5% 准确率。尽管目前运行速度较慢且不总是准确,但这已经表明了其在浏览器任务中的潜力。从安全性角度看,Project Mariner 在执行某些敏感操作前会要求用户确认,确保操作的安全进行。

对于开发者来说Jules 这样的专业编程助手提供了深入的编程支持。它能有效地处理 Python 和 Javascript 中的编码任务,包括 bug 修复和修改多个文件。它可以直接集成到 GitHub 工作流程中,帮助开发者专注于更复杂的开发任务。

Jules 的能力不仅限于代码生成,还包括提供代码补全、解答问题、查找相关资源和添加代码注释等功能。这些技术将被整合到 Android Studio 和 Chrome 开发工具等多个产品中,极大地提升了开发效率和工具的智能化水平。

写在最后

在这个 AI 技术日新月异的时代,Gemini 2.0 的发布无疑是一个重要里程碑。正如谷歌 CEO 皮查伊所说:「如果说 Gemini 1.0 是关于组织和理解信息,那么 Gemini 2.0 就是关于使其更加有用。」

当下用户已经可以通过 Gemini API 和 Google 的 AI 开发平台开始体验这些新功能,而完整版本将在 2024 年 1 月全面上线。这不仅是一次产品升级,更预示着 AI 技术正在向着更实用、更智能的方向迈进。在这场 AI 革命中,谷歌用实际行动向我们展示了:未来不是遥不可及的想象,而是正在眼前徐徐展开的现实。


作者:Fish   

(文:毫河风报)

欢迎分享

发表评论