智谱发布AutoGLM,GPT-4o原生生图免费开放,Midjourney推出V7! AI Weekly 3.31-4.6

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🤖 智谱发布 AutoGLM 沉思 :首个具备深度研究和操作能力的 AI 智能体,基于自研 GLM-Z1-Air 推理模型,性能媲美 DeepSeek-R1 但成本仅为 1/30,已在智谱清言免费上线。

2️⃣ 🎨 字节即梦 AI 3.0 灰度测试 :新版本显著提升图像质量和中文文字生成能力,支持一句话生成商用级海报,可精准控制文字颜色和位置。

3️⃣ 🖼️ ChatGPT 图像生成免费开放 :OpenAI 向所有免费用户开放原生图像生成功能,基于 GPT-4o 模型,每日限制 3 张图片,引发吉卜力风格图像版权讨论。

4️⃣ 📊 OpenAI 将推开放权重模型 :自 2019 年 GPT-2 后首个开放权重模型,具备推理功能,将举办全球开发者活动收集反馈。

5️⃣ 🚀 OpenAI 近期发布 o3 和 o4-mini :计划在未来几周推出面向开发者和企业的 o3 和 o4-mini 模型,GPT-5 将延后至数月后发布。

6️⃣ 💰 o3 成本大幅上调 :Arc Prize Foundation 估算 o3-high 模型解决单个 ARC-AGI 问题成本高达 3 万美元,是此前估算的 10 倍。

7️⃣ 💵 谷歌公布 Gemini 2.5 Pro 价格 :每百万输入 tokens 1.25 美元,输出 tokens 10 美元,超长内容价格更高,成为谷歌最昂贵 AI 模型。

8️⃣ 👥 谷歌 Gemini 高层调整 :Sissie Hsiao 卸任,Google Labs 主管 Josh Woodward 接任 Gemini 负责人,继续兼任 Labs 职务。

9️⃣ ✏️ Midjourney V7 进入测试 :推出全新草图模式,渲染速度提升 10 倍,成本降低 50%,支持对话式交互和语音识别。

1️⃣0️⃣ 🎓 Anthropic 推教育计划 :Claude for Education 正式进军高等教育市场,引入”学习模式”引导学生思考,与多所高校建立合作。

1️⃣1️⃣ 🔍 微软推出 Copilot Search :将传统搜索与生成式 AI 结合,提供精简答案和智能布局,明确标注信息来源。

1️⃣2️⃣ 🎬 Runway 发布 Gen-4 模型 :AI 视频生成取得突破,单一参考图像可生成保持一致的角色和场景,已向付费用户开放。

1️⃣3️⃣ 🦙 Meta 即将发布 Llama 4 :新模型在数学处理和推理任务表现欠佳,正引入”专家混合”方法提升性能,或先通过 Meta AI 平台发布再开源。


1. 智谱发布 AutoGLM 沉思:首个具备深度研究和操作能力的 AI Agent

3 月 31 日,智谱公司在 2025 中关村论坛上正式发布了其最新 AI 智能体产品——AutoGLM 沉思。该产品集深度研究与实际操作能力于一体,能够自主执行从数据检索、分析到报告生成的全过程,标志着 AI 智能体进入“边想边干”的新阶段。

AutoGLM 沉思 的核心在于智谱全栈自研的大模型技术,包括推理模型 GLM-Z1-Air 和基座模型 GLM-4-Air-0414。据悉,GLM-Z1-Air 的性能可与 DeepSeek 的 R1 模型媲美,且在速度上提升最高可达 8 倍,成本仅为 R1 的 1/30。智谱计划于 4 月 14 日开源上述模型,并陆续上线至其 MaaS 平台(bigmodel.cn),以供开发者和企业用户使用。

目前,AutoGLM 沉思 已在智谱清言 PC 客户端上线,用户可免费体验其深度研究和操作能力。此次发布的为预览版本,主要支持研究场景。未来两周内,智谱将进一步扩展更多智能体的执行能力,包括推出“虚拟机”版本,增强 AI Agent 的实际应用能力。

值得注意的是,AutoGLM 沉思 的发布正值 AI 智能体领域竞争加剧之际。此前,OpenAI 的 Deep Research 和 Manus 等产品相继推出,但多为付费服务。相比之下,智谱选择免费开放 AutoGLM 沉思,旨在降低用户使用门槛,推动 AI 技术的普及与应用。

2. 字节即梦 AI 创作平台 3.0 版本灰度测试

字节跳动旗下的 AI 创作平台即梦近期开始对其 3.0 版本的图像生成模型进行灰度测试,部分用户已获得使用权限。根据现有用户反馈,新版本在生成商用级海报方面表现出色,图像质量和中文文字生成能力均有显著提升。

即梦 3.0 版本支持通过简单的文字描述快速生成高质量的海报,用户可以控制文字的颜色、位置等元素,实现“一句话生成海报”。新版本在影视质感、文字准确性方面有所提升,能够直接生成 2K 高清图像,满足商业用途的需求。

此前,即梦在 2.1 版本中已解决 AI 图像无法生成中文字体的问题,提升了设计师的作图效率。随着 3.0 版本的灰度测试,平台在图像质量和文字生成能力上进一步优化。

目前,3.0 版本仍处于灰度测试阶段,尚未全面开放。

3. ChatGPT 原生图像生成功能向免费用户开放

4 月 1 日,OpenAI 首席执行官萨姆·奥特曼(Sam Altman)宣布,ChatGPT 原生图像生成功能已向所有免费用户推出。

早在此前的 3 月 25 日,OpenAI 宣布将其最新的原生图像生成功能向所有 ChatGPT 用户开放,包括免费用户。该功能由 GPT-4o 模型支持,允许用户直接在 ChatGPT 对话界面中生成高质量图像。

然而,由于功能推出后需求激增,OpenAI 的 GPU 资源承受巨大压力,导致免费用户的使用受到限制。首席执行官 Sam Altman 在社交平台 X 上表示:“我们的 GPU 正在‘融化’。”因此,公司暂时引入了一些速率限制,以确保系统稳定运行。目前,免费用户每天最多可生成三张图像。

值得注意的是,ChatGPT 的图像生成功能在生成吉卜力风格的图像方面引发了广泛关注。然而,这也引发了关于版权和艺术家权益的讨论。

4. OpenAI 宣布即将发布首个开放权重模型

4 月 1 日,OpenAI 首席执行官萨姆·奥特曼(Sam Altman)在社交平台 X 上宣布,公司计划在未来几个月内发布一个“强大的新开放权重语言模型”,并具有推理功能。

这是自 2019 年发布 GPT-2 以来,OpenAI 首次计划发布开放权重模型。开放权重模型意味着其训练参数将对公众开放,开发者和研究人员可以下载并在本地运行,针对特定任务进行微调,或集成到自定义应用中。然而,这并不意味着完全开源,训练代码、数据集等可能仍保持专有。

奥特曼表示,OpenAI 将在旧金山、欧洲和亚太地区举办开发者活动,以收集反馈并提供早期原型试用机会。他强调,希望与开发者共同探讨如何最大化发挥该模型的作用。

此前,OpenAI 的模型主要通过其平台或 API 提供访问,模型本身保持专有。此次开放权重模型的发布,可能是对 AI 领域开源趋势的响应,旨在吸引更多开发者和企业用户,同时应对来自其他开源模型的竞争压力。

5. OpenAI 近期将发布 o3 和 o4-mini

OpenAI CEO 山姆·奥特曼(Sam Altman)4 月 4 日在社交平台 X 上透露,预计在接下来的几周内发布新模型 o3 和 o4-mini,而备受关注的下一代旗舰模型 GPT-5 则将在未来几个月内发布。

奥特曼表示,提前推出的 o3 和 o4-mini 模型主要面向开发者和企业客户,旨在提供更加灵活和高效的 AI 工具。这两款模型被视为当前主流模型的“精简版本”,可满足多数用户在成本和性能之间的平衡需求。同时,推迟发布的 GPT-5 则致力于实现更多突破性功能,但仍需额外数月的优化和测试,以确保更稳定、更强大的表现。

OpenAI 推迟 GPT-5 的主要原因是希望进一步提升其性能,同时在整合各项功能时遇到了预期之外的挑战。

此前,OpenAI 曾计划将 o3 模型直接整合至 GPT-5,而不作为独立产品发布。

6. OpenAI o3 模型运行成本估算大幅上调

近期,负责维护和管理 ARC-AGI 的 Arc Prize Foundation 对 OpenAI 的 o3 推理人工智能模型在 ARC-AGI 基准测试中的成本估算进行了重大修订。最新估计显示,o3 模型中性能最优的配置 o3 high,解决单个 ARC-AGI 问题的成本可能高达约 3 万美元(约合 21.8 万元人民币),而此前的估算仅为约 3000 美元(约合 2.18 万元人民币)。

这一成本估算的大幅上调,凸显了当前先进 AI 模型在特定任务上可能面临的高昂运行费用。尽管 OpenAI 尚未正式发布 o3 模型或公布其定价,但 Arc Prize Foundation 认为,OpenAI 目前最昂贵的 o1-pro 模型的定价可以作为参考。该基金会联合创始人迈克·库诺(Mike Knoop)表示:“我们认为 o1-pro 更接近 o3 真实成本的比较对象,因为两者在测试时使用的计算量相近。”

据 Arc Prize Foundation 介绍,o3 high 在处理 ARC-AGI 任务时,使用的计算资源是 o3 模型中计算量最低的 o3 low 配置的 172 倍。如此巨大的计算资源消耗,直接导致了 o3 high 成本的显著上升。

此外,有关 OpenAI 计划为面向企业客户的高端定制服务收取高额费用的传闻也引发了广泛关注。据报道,该公司可能计划每月收取高达 2 万美元(约合 14.5 万元人民币)的费用,为企业提供专业 AI “代理” 服务。

7. 谷歌公布 Gemini 2.5 Pro API 定价

4 月 4 日,谷歌正式公布了其最新 AI 推理模型 Gemini 2.5 Pro 的 API 定价。对于输入长度在 200,000 个 tokens 以内的请求,费用为每百万输入 tokens 1.25 美元(约合 9.1 元人民币),每百万输出 tokens 10 美元(约合 72.9 元人民币)。对于超过 200,000 个 tokens 的输入,费用增至每百万输入 tokens 2.50 美元,每百万输出 tokens 15 美元。

这一定价使 Gemini 2.5 Pro 成为谷歌迄今为止最昂贵的 AI 模型。相比之下,Gemini 2.0 Flash 的定价为每百万输入 tokens 0.10 美元,每百万输出 tokens 0.40 美元。此外,Gemini 2.5 Pro 的价格也高于一些其他前沿 AI 模型,例如 OpenAI 的 o3-mini(每百万输入 tokens 1.10 美元,输出 tokens 4.40 美元)和 DeepSeek 的 R1(每百万输入 tokens 0.55 美元,输出 tokens 2.19 美元)。

尽管价格较高,Gemini 2.5 Pro 仍低于一些竞争对手的高端模型,如 Anthropic 的 Claude 3.7 Sonnet(每百万输入 tokens 3 美元,输出 tokens 15 美元)和 OpenAI 的 GPT-4.5(每百万输入 tokens 75 美元,输出 tokens 150 美元)。谷歌首席执行官 Sundar Pichai 表示,Gemini 2.5 Pro 已成为公司最受开发者欢迎的 AI 模型,本月 Google AI Studio 平台和 Gemini API 的使用量增加了 80%。

8. 谷歌 Gemini AI 高层人事变动

据外媒报道,谷歌旗下 Gemini AI 部门近期发生重大人事调整。长期担任该部门负责人的 Sissie Hsiao 宣布卸任,其职位将由现任 Google Labs 主管 Josh Woodward 接任。Sissie Hsiao 自 2006 年加入谷歌,曾领导开发了最初名为 Bard、现更名为 Gemini 的 AI 聊天机器人。她计划短暂休息后,以新的角色回归公司。

Josh Woodward 此前在 Google Labs 领导了 NotebookLM 的开发,这是一款将文本转换为类似播客节目的 AI 工具。谷歌 DeepMind 首席执行官 Demis Hassabis 在一份备忘录中表示,此次人事变动旨在“强化我们对 Gemini 应用下一阶段发展的关注”。Woodward 将在继续领导 Google Labs 的同时,负责 Gemini 的未来发展方向。

去年,谷歌曾将 Gemini 应用团队并入其 AI 研究实验室 DeepMind,以优化组织结构,更好地参与生成式 AI 的竞争。

9. Midjourney 推出 V7 模型

4 月 4 日,Midjourney 公司在社交平台 X 上宣布,其 AI 图片生成模型 V7 版本进入 Alpha 测试阶段,主要引入了全新的“草图模式”。

“草图模式”在渲染速度和资源消耗方面表现出色,生成速度比标准模式快 10 倍,成本仅为标准模式的一半。在该模式下,网页端编辑器会自动切换为“对话式交互界面”,用户可以通过输入简单指令(如“将猫替换成猫头鹰”或“转换为夜景”),系统即可实时调整并生成新的作品。

此外,“草图模式”还支持语音识别功能,用户只需在启用该模式后,通过语音指令即可轻松生成图片,甚至支持中文语音输入。该模式还支持指令扩展功能,用户在提示词后加上“–draft”参数,即可解锁多版本迭代、批量生成等高级功能。

需要注意的是,“草图模式”下生成的图片分辨率相较于其他模式会有所降低。目前,超分、编辑、材质替换等功能仍在使用 V6 模型进行处理,但 Midjourney 公司承诺将在未来逐步升级这些功能。

公司还透露,在未来 60 天内,将每 1-2 周发布一次新功能,持续为用户带来更加丰富的创作体验。

10. Anthropic 推出 Claude for Education 计划

4 月 3 日,Anthropic 公司发布了“Claude for Education”计划,正式进军高等教育市场。该计划旨在为高校师生和工作人员提供定制版 AI 聊天机器人 Claude,并配备一系列专门功能,以应对 OpenAI 的 ChatGPT Edu 方案。

“Claude for Education”引入了全新的“学习模式”(Learning Mode),该模式通过苏格拉底式提问,引导学生自主思考,而非直接提供答案。例如,Claude 可能会问:“你会如何解决这个问题?”或“有哪些证据支持你的结论?”,以帮助学生深入理解问题,培养批判性思维能力。

此外,Anthropic 还与多所高校建立了合作伙伴关系,包括美国东北大学(Northeastern University)、伦敦政治经济学院(LSE)和尚普兰学院(Champlain College),这些学校将为全体师生提供 Claude 的访问权限。东北大学的 AI 首席官 Javed Aslam 表示,Claude 可以帮助学生创建学习指南、测验等资源,提升学习效率。

值得注意的是,OpenAI 也在近期宣布了类似的教育计划,提供免费或优惠的 ChatGPT Plus 订阅,以争夺高校市场份额。

11. 微软 Bing 推出 Copilot Search

微软于 4 月 4 日正式发布了 Bing 的全新功能—— Copilot Search,将传统搜索与生成式 AI 无缝结合,旨在提升用户的搜索体验。该功能通过智能整理的信息,为用户提供简明扼要的答案、关键要点的总结,或信息的智能布局,帮助用户更快速地找到所需内容。

Copilot Search 的一个显著特点是其对信息来源的明确标注,确保用户可以验证和深入了解提供的内容。每个生成的回答都会附上清晰的引用来源,用户只需点击即可查看所有用于生成答案的链接列表。此外,Copilot Search 还提供相关主题的建议,方便用户进一步探索感兴趣的内容。

目前,Copilot Search 已在 Bing 官网上线,用户可以通过导航栏或在相关答案下方点击建议的相关主题来访问该功能。移动设备用户也可通过 Bing 移动应用体验这一全新的搜索方式。

12. Runway 发布 Gen-4 AI 视频生成模型

4 月 1 日,人工智能初创公司 Runway 宣布推出其最新研发的 AI 视频生成模型 Gen-4。该模型在保持角色、场景和物体的一致性方面取得了显著进步,旨在解决 AI 视频生成中长期存在的连贯性问题。

Gen-4 允许用户通过提供单一参考图像,生成在不同场景和光照条件下保持一致的角色和物体。用户只需设定所需的外观和风格,模型即可在多个镜头中维持连贯的世界环境,同时保留每一帧独特的风格、情绪和电影元素。

此外,Gen-4 在理解现实世界物理特性和模拟真实运动方面表现出色,能够生成具有高度动态性和真实感的视频内容。该模型现已向付费用户和企业客户开放,Runway 计划在未来几周内逐步推出更多功能。

值得注意的是,Gen-4 的发布正值 AI 视频生成领域竞争加剧之际,OpenAI 和谷歌等公司也在积极开发类似技术。

13. Meta 即将发布 Llama 4

据外媒报道,Meta 公司计划于本月推出其最新的大语言模型 Llama 4。然而,开发过程中,该模型在内部基准测试中未达到预期,特别是在数学处理和推理任务方面表现不佳。

为应对这些挑战,Meta 正在引入类似于中国科技公司 DeepSeek 的“专家混合”(mixture of experts)方法。该技术通过训练模型的不同部分专门处理特定任务,从而提升整体性能。此外,Meta 计划今年投资高达 650 亿美元用于扩展其 AI 基础设施,以在激烈的 AI 竞赛中保持竞争力。

值得注意的是,Llama 4 的发布已多次推迟,且仍可能进一步延迟。Meta 正考虑先通过其 Meta AI 平台发布 Llama 4,随后再将其开源。此前,Meta 于去年发布了 Llama 3,该模型支持八种语言对话,能够编写高质量的计算机代码,并解决更复杂的数学问题。



我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

欢迎分享

发表评论