DeepSeek重磅升级，豆包深度思考，ChatGPT原生生图，谷歌Gemini 2.5！ AI Weekly 3.24-30

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🔄 DeepSeek-V3 重磅升级 ：新版本 DeepSeek-V3-0324 发布，在推理、前端开发和中文写作方面全面提升，推理能力超过 GPT-4.5。

2️⃣ 👁️ 阿里发布视觉推理模型 ：通义千问团队推出 QVQ-Max，具备细致观察、深入推理和灵活应用三大核心能力。

3️⃣ 🧠 豆包推出新版深度思考 ：支持”边想边搜”，可在思考过程中多次调用工具、搜索信息，提供更全面准确的结果。

4️⃣ 💰 Manus 公布收费方案 ：提供 39 美元和 199 美元两档订阅，分别获得 3900 和 19900 积分，支持不同并行任务数量。

5️⃣ 🔍 微信 AI 搜索更新 ：新增”快速思考”功能，由腾讯自研的 混元 T1 模型提供支持，优化搜索体验。

6️⃣ 🎨 OpenAI 推出 GPT-4o 原生图像生成 ：不依赖 DALL·E，可直接生成高质量图像，文本渲染表现出色。

7️⃣ ⚡ ChatGPT 生图功能限流 ：需求过高导致 GPU 资源承压，OpenAI 临时实施频率限制，提高系统效率。

8️⃣ 🎭 ChatGPT 引发版权争议 ：吉卜力风格图像生成引发热议，触及艺术风格模仿与版权保护的法律边界。

9️⃣ 📊 GPT-4o 功能升级 ：优化多指令解析、技术问题处理、逻辑推理与创造力，精简交互界面。

1️⃣0️⃣ 🔊 ChatGPT 语音模式更新 ：减少不必要打断，新增暂停功能，付费用户享受9种风格化人声选项。

1️⃣1️⃣ 🚀 谷歌发布 Gemini 2.5 Pro ：在 LMArena 领先 Grok-3 和 GPT-4.5 整整 40 分，创下历史最大分数飞跃。

1️⃣2️⃣ 📝 Claude 扩展上下文窗口 ：Claude 3.7 Sonnet 计划将上下文窗口从 20 万扩展至 50 万 tokens。

1️⃣3️⃣ 🖼️ Reve Image 1.0 挑战巨头 ：新兴 AI 文生图工具以高质量低成本特点挑战 Midjourney，文字渲染能力出色。

1. 新版 DeepSeek-V3 模型全面进阶

3 月 25 日，DeepSeek 官方宣布其 DeepSeek-V3 模型完成小版本升级，最新版本号为 DeepSeek-V3-0324。用户可通过官方网页、App 或小程序进入对话界面，关闭“深度思考”功能即可体验新版模型，API 接口和使用方式保持不变。

此次升级在多个关键领域取得了显著提升：

推理任务表现提高：新版 V3 模型借鉴了 DeepSeek-R1 模型训练中的强化学习技术，在数学和代码相关评测集上取得了超过 GPT-4.5 的成绩，推理能力大幅增强。
前端开发能力增强：在 HTML 等前端代码生成任务中，新版 V3 模型生成的代码可用性更高，视觉效果更加美观，富有设计感。
中文写作升级：新版 V3 模型在中文写作任务方面进行了优化，特别提升了中长篇文本创作的内容质量，生成的文本更具条理性和连贯性。

此外，DeepSeek-V3-0324 与之前的 V3 使用相同的基础模型，仅改进了后训练方法。模型参数约为 6850 亿，开源版本支持 128K 的上下文长度（网页端、App 和 API 提供 64K 上下文）。模型权重可通过 ModelScope 和 Huggingface 下载，采用 MIT License，允许用户自由使用，包括商业用途。

2. 阿里发布视觉推理模型 QVQ-Max

3 月 28 日，阿里巴巴旗下通义千问团队正式推出新一代视觉推理模型 QVQ-Max。该模型具备强大的多模态处理能力，能够深入理解并分析图片和视频内容，结合背景知识进行推理，提供解决方案。无论是数学题、生活问题，还是编程代码、艺术创作，QVQ-Max 都展现出卓越的能力。

QVQ-Max 的核心能力体现在三个方面：

细致观察：对复杂图表或日常照片中的细节进行精准解析，快速识别关键元素，如物品、文字标识等。
深入推理：在识别内容的基础上，进一步分析信息，结合背景知识得出结论。例如，在几何题中，根据图形推导答案；在视频中，预测可能发生的情节。
灵活应用：除了分析和推理，QVQ-Max 还能完成插画设计、生成短视频脚本等创作任务，甚至根据用户需求创建角色扮演内容。

目前，用户可通过 Qwen Chat 体验 QVQ-Max。只需上传图片或视频并提出问题，即可获得视觉推理结果。

3. 字节豆包新版深度思考功能开启测试

3 月 28 日，字节跳动旗下 AI 助手豆包宣布启动新版深度思考功能的测试。与此前版本不同，新版功能将推理过程的思维链与搜索深度相结合，支持“边想边搜”。在思考过程中，豆包可基于推理多次调用工具、搜索信息，提供更加全面、准确的结果。例如，在制定清明旅游方案时，豆包经过三轮搜索，综合各类情况，撰写出足够完备的方案。

新版深度思考功能还可辅助专业文章写作。豆包能够深层次检索资料信息，梳理复杂问题脉络，提升思考深度。例如，围绕小说《边城》，豆包可展开两轮搜索，深度挖掘创新方向，为论文提供参考思路。

此外，面对模糊条件搜索，豆包可检索尽可能多的结果，交叉验证核心信息，精准锁定目标答案。例如，用户仅提供某部老动画片的模糊关键词，豆包可围绕相关细节，经过三轮搜索，确定为《超能勇士》。

此前，豆包已在小范围内测试深度思考模型的不同实验版本。据悉，豆包测试的推理模型为公司自研，并未接入 DeepSeek 模型。

4. Manus 公布收费方案：39 和 199 美元

3 月 28 日，仍处于非公开测试阶段的 AI Agent 产品 Manus 宣布其收费计划，提供 Manus Starter 和 Manus Pro 两种订阅选项。Manus Starter 每月收费 39 美元，用户可获得 3900 积分，最多可同时运行 2 个任务。Manus Pro 每月收费 199 美元，用户可获得 19900 积分，最多可同时运行 5 个任务，并支持高投入模式及其他测试功能。两种套餐的用户均享有专属资源以提升稳定性、扩展的上下文长度，以及高峰时段的优先访问权。

积分是 Manus 使用的标准计量单位，任务的复杂度和耗时决定了所需积分的多少。例如，设计并部署一个独特的个人网站这样的复杂任务需要花费 600 积分，持续约 40 分钟。目前，Manus 仍处于非公开测试阶段，普通用户注册后需输入邀请码才能使用。此次收费计划针对持有邀请码的全球用户推出。

Manus 自发布以来备受关注，其邀请码在二手交易平台上的价格一度被炒至高价。此前，Manus 宣布与阿里云旗下的大语言模型通义千问达成合作，旨在在国产模型和算力平台上实现其全部功能。此外，有报道称，Manus 的开发公司蝴蝶效应正与美国风投机构等潜在投资者洽谈新一轮融资，目标估值至少 5 亿美元。

5. 微信 AI 搜索新增“快速思考”功能

近期，微信 AI 搜索功能迎来更新，新增了“快速思考”选项，采用腾讯自研的 混元 T1 模型提供支持。此前，微信 AI 搜索已具备“快速回答”和“深度思考”功能，此次新增的“快速思考”旨在为用户提供更高效的搜索体验。

混元 T1 模型是腾讯于 3 月 22 日正式发布的推理模型，具备更快的响应速度和增强的长文本处理能力。该模型能够保持清晰的逻辑和整洁的文本，且幻觉率极低。

此外，微信 AI 搜索的回答引用消息源包括公众号推文和互联网公开信息，页面底部还支持继续提问，分享转发功能。

6. OpenAI 发布 GPT-4o 原生图像生成功能

3 月 26 日，OpenAI 在直播中宣布，旗下多模态模型 GPT-4o 的原生图像生成功能获得重大升级。此次更新使 ChatGPT 能够直接生成高质量图像，且无需依赖独立的 DALL·E 模型。

GPT-4o 作为一款全能模型，具备处理文本、图像、音频等多种输入输出的能力。通过与人类训练师的合作，OpenAI 对该模型进行了强化学习训练，显著提升了图像生成的准确性和实用性。用户现在可以通过自然语言描述，生成包含复杂细节和文本的图像，例如信息图表、海报设计等。

在直播演示中，OpenAI 展示了 GPT-4o 的多项新功能，包括：

文本渲染：模型能够在图像中准确呈现文字内容，适用于创建带有说明的图表或标注。
多轮交互生成：用户可以与模型进行多轮对话，逐步优化生成的图像，确保细节符合预期。
指令遵循：模型能够精确理解并执行用户的指令，生成符合特定要求的图像。

目前，GPT-4o 的图像生成功能已在 ChatGPT 中上线，面向 Plus、Pro、Team 及免费用户开放。企业和教育用户的访问权限也将在不久后开放。需要注意的是，由于生成高质量图像需要更多计算资源，渲染时间可能会相对较长，通常在一分钟左右。

7. ChatGPT 原生生图太火爆，OpenAI 临时限流

近期，OpenAI 推出的 ChatGPT 图像生成功能受到了用户的热烈欢迎，导致 GPU 资源承受巨大压力。3 月 27 日，OpenAI 首席执行官山姆·奥特曼在社交平台 X 上表示，由于需求过高，公司的 GPU 资源接近“融化”，因此将暂时对 ChatGPT 的图像生成功能实施频率限制，以提高系统效率。

奥特曼并未透露具体的限制标准，但他表示希望这一措施不会持续太久。此外，他提到，免费用户“很快”将每天最多可生成三张图像。此前，OpenAI 推出了基于 GPT-4o 模型的原生图像生成工具，该模型在生成逼真图像和文字渲染方面取得了显著进步。

然而，随着用户大量使用该功能，系统响应速度有所下降，部分用户反映生成一张图片需要较长时间。为缓解 GPU 负载，OpenAI 决定推迟向免费用户开放该功能的时间，并对现有用户实施临时限流措施。

8. ChatGPT 新图像生成器引发吉卜力风格版权争议

3 月 26 日，OpenAI 推出了 ChatGPT 的全新图像生成功能，用户可以生成具有吉卜力工作室风格的图像。这一功能迅速在社交媒体上引发热潮，许多用户分享了以吉卜力风格呈现的个人照片和知名场景。

然而，这一趋势也引发了关于版权和道德的讨论。吉卜力工作室以其独特的艺术风格闻名，包括《龙猫》和《千与千寻》等经典作品。一些法律专家指出，虽然特定作品受版权保护，但对艺术风格的模仿并不明确受到版权法的约束。然而，使用受版权保护的作品来训练 AI 模型可能涉及法律和道德问题。OpenAI 表示，其模型会拒绝生成特定在世艺术家的风格，但允许模仿更广泛的工作室风格。

值得注意的是，吉卜力工作室的联合创始人宫崎骏曾公开表达对 AI 在创作领域应用的反对态度，认为这可能对艺术创作产生负面影响。

9. OpenAI 升级 GPT-4o，付费用户率先体验

3 月 28 日，OpenAI 发布公告，宣布对 ChatGPT 中的 GPT-4o 进行了功能更新，并已向所有 ChatGPT 付费用户开放。免费用户预计将在未来几周内获得相同的功能访问权限。

此次升级主要集中在四个核心方面：

多指令解析优化：显著提升了对包含多重需求的复杂指令的理解能力。
技术问题处理增强：强化了对复杂技术和编程问题的解析与解决方案生成。
逻辑推理与创造力提升：增强了创新性思维与跨领域知识融合的能力。
交互界面精简：减少了表情符号的使用频率，优化了专业场景下的对话体验。

OpenAI 表示，这些改进旨在提升用户体验，并计划在未来几周内逐步向免费用户开放这些新功能。

10. OpenAI 升级 ChatGPT 高级语音模式

3 月 25 日，OpenAI 宣布对 ChatGPT 的高级语音模式进行了更新，旨在提升用户与 AI 助手的对话体验。

此次更新主要针对以下方面进行了优化：

减少不必要的打断：新版本解决了此前用户在停顿思考或深呼吸时，AI 助手可能会意外插话的问题。现在，用户可以在对话中自由停顿，而不会被 AI 打断，从而使交流更加自然流畅。
新增暂停功能：用户现可随时暂停语音对话，整理思路后再继续交流，增强了对话的灵活性和控制感。

此外，针对付费用户（包括 Plus、Teams、Edu、Business 和 Pro 等订阅层级），ChatGPT 的高级语音模式进一步增强了语音个性，提供了 9 种风格化人声选项，模型响应更加生动、直接且简洁。

此次更新已面向全体用户开放，免费用户可体验新功能，但可能存在使用限额。

11. 谷歌发布 Gemini 2.5 Pro，性能大幅跃升

3 月 26 日，谷歌正式发布了其最新的 AI 模型—— Gemini 2.5 Pro。该模型在多个基准测试中表现卓越，尤其在 LMArena 排行榜上，以领先 Grok-3 和 GPT-4.5 整整 40 分的成绩夺得第一名，创下历史最大分数飞跃纪录。

Gemini 2.5 Pro 被定位为“思考”模型，旨在通过逐步处理任务、分析信息、得出逻辑结论，从而提升复杂问题的解答能力。该模型具备原生多模态能力，能够处理文本、音频、图像、视频和代码等多种输入形式，并支持高达 100 万 tokens 的上下文窗口，适用于处理海量数据和复杂任务。

在编程能力方面，Gemini 2.5 Pro 相较于前代版本实现了质的飞跃。在 SWE-bench 编码能力评测中，该模型取得了 63.8% 的成绩，显示出其在创建视觉精美的网页应用和 AI 智能体代码应用方面的卓越表现。

目前，Gemini 2.5 Pro 已在 Google AI Studio 向所有用户免费推出。Gemini 应用中则向 Gemini Advanced 用户优先开放。

12. Claude 3.7 Sonnet 计划扩展上下文窗口至 50 万 tokens

3 月 27 日消息，科技媒体 TestingCatalog 报道称，人工智能公司 Anthropic 正计划将其 Claude 3.7 Sonnet 模型的上下文窗口从 20 万 tokens 扩展至 50 万 tokens。这一扩展将使模型能够直接处理海量信息，适用于政治文档分析、超长代码库管理和跨文档摘要生成等复杂任务。

然而，超大上下文窗口可能带来内存和算力成本的压力，模型的实际利用率仍需验证。据悉，该功能或优先面向企业客户开放，例如编程工具 Cursor 已在其集成开发环境（IDE）中提供了 Claude Sonnet 3.7 MAX 选项。Anthropic 此次升级被视为对标 Google Gemini 等竞品的超长上下文优势。

此次升级恰逢 AI 驱动的“氛围编程”（vibe coding）兴起，开发者通过自然语言描述生成代码。50 万 tokens 的上下文窗口可支持更大型项目的连续开发，减少因 token 限制导致的中断，进一步降低编程门槛。

13. Reve Image 1.0：AI 文生图领域的新锐挑战者

3 月 26 日，科技媒体 WinBuzzer 报道称，新兴的 AI 图像生成工具 Reve Image 1.0 以其高质量且低成本的特点，正式向 Midjourney 和 Flux 发起挑战。

Reve Image 1.0 具备以下显著特点：

精准理解用户指令：能够准确解读并执行用户的文本描述，生成符合预期的图像。
卓越的美学表现：在图像质量和艺术表现力方面表现出色，生成的图像具有专业级的视觉效果。
强大的文字渲染能力：突破了行业内在图像中渲染清晰文字的难题，性能媲美专注于 LOGO 设计的 Ideogram。

该工具支持用户通过自然语言对现有图片进行修改，如调整颜色、透视等，并允许上传参考图以实现风格迁移。

在第三方平台 Artificial Analysis 的“图像生成质量”排行榜中，Reve Image 1.0 超越了 Google Imagen 3 等竞争对手，位居第一，特别是在图像内文字清晰度方面获得高度评价。

Reve Image 1.0 目前提供免费试用，注册用户可获得 100 张免费生成额度，并每日额外获得 20 次免费机会。长期用户可享受每 500 张图像 5 美元的优惠价格。

联合创始人 Michaël Gharbi 表示，团队的目标是构建“人类与机器共通的语义表达层”，而不仅仅追求视觉逼真度。

我是木易，一个专注AI领域的技术产品经理，国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”，致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用AI为你的未来加速。

（文：AI信息Gap）

2025 年 5 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31