MiniMax-M1开源,Kimi深度研究内测,GPT-5今夏发布,Gemini稳定上线! AI Weekly 6.16-22

📢本周AI快讯 | 1分钟速览🚀

1️⃣ 🎯 MiniMax 开源百万上下文推理模型 :MiniMax-M1 发布,MoE 架构,总参数 4560 亿,支持百万 tokens 上下文,是 DeepSeek-R1 的 8 倍,AIME 2024 正确率达 86%。

2️⃣ 🎬 MiniMax 推出视频模型 Hailuo 02 :第二代视频模型,参数量提升 3 倍,768p-6s 仅需 0.25 美元,在视频生成榜单排名第二,超越谷歌 Veo 3

3️⃣ 📚 月之暗面 Kimi-Researcher 内测 :定位专业深度研究,生成可追溯的万字级研究报告,基于 Kimi k1.5 长链思考机制,标志月之暗面进军 AI Agent 领域。

4️⃣ 🌟 OpenAI 预告 GPT-5 今夏发布 :Sam Altman 透露 GPT-5 将简化模型体系,实现统一能力输出,自动判断任务所需的思考深度与响应速度。

5️⃣ 📧 ChatGPT 深度集成 Gmail 和日历 :灰度测试在 Connectors 中集成 Gmail 和谷歌日历,可自动分析邮件、生成回复、提取要点并整理入日历,打造全流程办公助理。

6️⃣ 💎 Gemini 2.5 全线稳定上线 :Gemini 2.5 Pro 和 Flash 进入 GA 阶段,新增轻量级 Flash-Lite,专为高吞吐低延迟任务设计。

7️⃣ 🎥 Gemini 新增视频分析功能 :支持上传 5 分钟本地视频进行 AI 分析,可识别对象、描述场景、定位时间节点,已在移动端和网页端推送。

8️⃣ 🗣️ 谷歌 Search Live 语音搜索 :美国地区上线,基于定制 Gemini 模型,支持连贯对话式检索,可后台运行并保存互动记录。

9️⃣ 🖼️ Midjourney 首发视频生成 V1 :将静态图转为动态视频,5 秒短片可延长至 21 秒,但因版权问题遭迪士尼和环球影业联合起诉。

🔟 💻 Cursor 推出 200 美元 Ultra 订阅 :提供 20 倍 Pro 额度,覆盖主流大模型,年化订阅收入达 5 亿美元,估值 90 亿美元。

1️⃣1️⃣ 💸 xAI 被曝资金紧张,年烧 130 亿美元 :开发 Grok 月开销超 10 亿美元,预计 2025 年收入仅 5 亿,正融资 93 亿美元维持运营,计划 2027 年实现盈利。



01|MiniMax-M1 开源模型发布:MoE 架构、百万上下文

6 月 17 日,MiniMax 推出全新开源推理模型 MiniMax‑M1,具备混合注意力(Hybrid Attention)和混合专家(MoE)架构,总参数 4560 亿,在每个 token 上仅激活约 45.9 亿参数。该模型支持高达 100 万 tokens 的上下文长度,为目前开源模型中的最高水平,是 DeepSeek‑R1 上下文长度的 8 倍。

本次发布了 M1‑40K 与 M1‑80K 两款版本,对应不同推理预算,80K 模型在复杂场景表现更优。

  • AIME 2024 数学竞赛:86.0% 正确率,优于所有开源对手,并接近闭源模型表现;

  • SWE‑bench 软件工程任务:56.0%,优于 DeepSeek‑R1 和 Qwen3‑235B

  • 长上下文理解与工具使用场景:在 TAU-bench 和 MRCR 等任务中,M1 性能超过多数开源模型,甚至媲美 Gemini 2.5 Pro 等闭源模型。

MiniMax‑M1 采用 Apache 2.0 许可证完全开源,已发布于 GitHub 与 Hugging Face,用户可自由调用。



02|MiniMax 推出视频生成模型 Hailuo 02

6 月 18 日,MiniMax 推出其第二代视频生成模型 Hailuo 02,在图像和文本生成视频能力上进一步突破,尤其在高复杂场景处理与成本控制方面设立了新标准。该模型集成了核心架构 Noise‑aware Compute Redistribution(NCR),在不提升创作者使用成本的前提下,将参数量提升 3 倍、训练数据量提升 4 倍,同时训练与推理速度提升约 2.5 倍。

视频支持生成 768p–6 s / 768p–10 s / 1080p–6 s 三种规格,其中 1080p 原生分辨率视频的成本远低于行业平均。根据 Novita AI 平台数据,Hailuo 02 的定价为:768p‑6 s 视频仅 0.25 美元,10 s 视频为 0.50 美元,1080p‑6 s 视频 0.44 美元。在人工评测平台 “Artificial Analysis Video Arena” 上,Hailuo 02 排名第二,仅次于 Seedance 1.0,超过谷歌 Veo 3、Kling AI 等竞品。

Hailuo 02 擅长处理极端物理场景,例如体操、高难度动作,展现出高度时空一致性与逻辑连贯性。实测案例显示,从表情微变到复杂动作,小动物动态再到穿越场景,视频生成效果流畅真实。同时,模型提供文本与图像双输入模式,适合娱乐、教育、广告、MCN 内容创作等多场景需求。



03|月之暗面 Kimi-Researcher 开启内测:万字深度研究

6 月 20 日,月之暗面(Moonshot AI)的 Kimi-Researcher 产品正式启动内测,定位专业的深度研究,能够生成“可追溯”、“万字级”的研究报告。根据 Kimi 团队此前发布的 Kimi k1.5 和 kimi-thinking-preview,该模型继承了超长上下文与强化学习驱动的长链思考机制优势,并在内测版本中进一步优化了思维过程输出结构。用户反馈显示,研究报告不仅具有明确思辨路径,还能够生成可复查的引用节点与逻辑链条,大大增强学术型输出的可信度与专业性。

在技术落地方面,Kimi-Researcher 利用了类似于 Kimi k1.5 的长-CoT + 强化学习框架,将 RL 提示词集从 STEM、编码拓展至文献综述、数据评估等科研类任务,并输出透明思考流作为 reasoning_content,便于追踪模型的推理过程。加之 Mooncake 推理架构的 KV‑Cache 分离设计保障了处理效率与高吞吐,能支持万字以上的上下文无损处理。

综合来看,此次内测 Kimi-Researcher 意味着月之暗面在 AI Agent 领域的首次尝试。



04|OpenAI Sam Altman:GPT‑5 今夏登场

6 月 19 日,在最新一期的 OpenAI 官方播客中,首席执行官 Sam Altman 表示,备受期待的下一代大模型 GPT‑5 很可能会在今年夏季正式发布,但具体发布日期尚未确定。

Sam Altman 提到,GPT‑5 将在产品结构上带来重大变化:简化当前复杂的模型体系,避免用户频繁在 GPT‑4oo3 等多个版本间切换,实现以 GPT‑5 调用多种能力的统一体验。这将包括语言理解、多模态记忆、更强推理与深度研究能力,有望让 AI 无需切换模式就能自动判断任务所需的“思考深度”与“响应速度。

此前,OpenAI 曾于今年 4 月延后 GPT‑5 的发布时间,改为先发布 o3 和 o4‑mini。即便目前计划在夏季推进,仍需克服诸多挑战,包括 API 高并发稳态、推理决策可靠度、伦理安全审查、数据一致性保障等。

竞品方面,Anthropic 的 Claude、Google 的 Gemini 系列大模型持续升级,均对 OpenAI 构成压力。GPT‑5 若能实现统一能力输出与高级推理,将可能保持 OpenAI 在 AI 领域的话语权与技术领先地位。



05|ChatGPT 灰度测试深度集成 Gmail 与日历

OpenAI 正在灰度测试 ChatGPT 与 Gmail 和 Google Calendar 的深度集成功能。据 X 平台用户 Tibor 爆料,测试版本中 ChatGPT 不仅能分析用户收到的 Gmail,还可自动生成邮件回复、提取关键内容形成大纲与代办事项,并将其整理入日历中。

此次测试基于新推出的“Connectors”(连接器)功能,ChatGPT 可通过 OAuth 授权访问 Gmail、Google Calendar 等服务,并在 Deep Research 模式下调用查询接口生成高度结构化、上下文关联的输出。用户完成授权后,AI 可以直接读取邮件内容,自动生成回复草稿,同时识别会议、截止日期等要点,生成日程事件并写入 Google Calendar,无需切换应用。

从用户价值来看,这一整合能够把 ChatGPT 的能力大幅提升至全流程办公助理。邮件读取、回复撰写、任务梳理及日程安排都由 AI 自动化完成,极大提升办公效率与准确性。



06|Gemini 2.5 全线稳定上线,推出轻量版 Flash‑Lite

6 月 18 日,谷歌正式宣布,Gemini 2.5 系列中的两大主力模型 —— Gemini 2.5 Flash 和 Gemini 2.5 Pro 已完成所有测试,进入稳定(GA)阶段,面向开发者、企业客户与普通用户全面开放。同时,同步发布全新轻量级版本 Gemini 2.5 Flash‑Lite,现已开启预览,即刻可用。

  • Gemini 2.5 Pro:Gemini 系列目前最强的版本,推理能力、编程、复杂任务处理等方面表现卓越,具备百万 token 上下文能力。此外,它可通过 AgentFlow 平台即插即用,减少试点迭代成本。

  • Gemini 2.5 Flash:优化速度与吞吐量,具备混合推理能力,专为高并发、高性能场景设计。它支持结构化输出、多模态输入,适合大规模文本摘要、对话、数据提取等企业级应用。

  • Gemini 2.5 Flash‑Lite:Gemini 系列中最轻巧、最快速、最具成本效益的模型,专为高吞吐、低延迟任务(如数据分类、翻译)设计。



07|谷歌 Gemini 应用新增视频上传分析功能

谷歌 Gemini 应用近期上线了一项重要更新 —— 支持用户上传本地视频进行 AI 分析。这项功能已在 Gemini 移动端和 Web 网页端逐步推送,适用于免费用户和订阅用户。

功能方面,用户可上传不超过 5 分钟的视频片段,Gemini 会在聊天界面中展示视频播放器,并基于内容回答问题,包括识别对象、场景描述、字幕或时间节点等。例如,用户可询问视频中某个物品出现在哪一帧,或是请求对画面进行详细描述,如“秋天森林”,“日落湖面”等。

不过,该功能仍处于逐步推出阶段:部分账户/设备尚不可用。此外,当前仍不能直接通过 Gemini 应用摄像头录制视频,上传仅限于现有文件。



08|谷歌 Search Live 语音搜索上线

6 月 19 日,谷歌正式在美国地区推送了全新的“Search Live”语音搜索功能,支持 iOS 和 Android 版谷歌应用。该功能需用户在 Labs 中启用 AI 模式,并基于定制 Gemini 模型,为用户提供无缝、对话式的语音检索体验。

用户在启用该功能后可点击搜索框下方的 Live 按钮,通过语音进行实时提问,系统将生成 AI 语音回答,相比单次查询,支持连贯的后续互动。AI 会进行持续对话,无需重新输入。同时,Live 功能还支持后台运行,用户切换到其他应用或锁屏后也可继续语音互动。

此外,系统提供对话文字转录功能、互动记录保存至 AI 模式历史中,还会在界面显示相关网页链接,方便用户查看源信息。谷歌计划在未来数月内加入视觉搜索能力,允许用户在对话中借助摄像头进行实时识别探索。



09|Midjourney 发布其首个 AI 视频生成模型 V1

6 月 18 日,Midjourney 正式上线其首款 AI 视频生成模型 V1,可将静态图像转为动态视频。目前支持用户使用平台生成或自建图像通过“Animate”按钮生成四段 5 秒短片,并可通过“Extend”功能逐次延长,每次约 4 秒,最长可达到 21 秒。此外,视频生成提供“低动感”、“高动感”选项,用户可控制主体与镜头的动态程度。

该功能面向包含 Basic、Pro、Mega 在内的订阅用户开放,起步订阅价为每月 10 美元,其中图像转视频的计算成本约为图像生成的 8 倍,相当于每秒视频消耗一个图像额度。Pro 与 Mega 订阅用户在 Relax 模式下可实现无限制视频生成。

V1 一经推出,立即受到迪士尼与环球影业联合起诉影响。两家公司指出模型通过训练侵权素材,生产包含受版权保护角色(如 Wall‑E、Homer Simpson、Darth Vader 等)的视频片段。WIRED 实测发现,虽然模型实施了一些过滤机制(例如避免 Elsa、Mickey Mouse),但仍可通过变体绕过限制生成动画。诉讼指出,视频功能可能加剧生产侵权内容的危险性,并要求禁令阻止其产品继续传播。



10|Cursor 推出 200 美元 Ultra 订阅计划

6月 16 日,Anysphere 为其 AI 编程工具 Cursor 推出全新订阅等级 —— Ultra 计划,月费高达 200 美元,专为重度开发者与企业用户设计。Ultra 计划提供 20 倍于 Pro 计划的 AI 模型调用额度,涵盖 OpenAI、Anthropic、谷歌和 xAI 等主流大模型,同时享受 PR 索引功能与新功能优先体验。Pro 计划也进行了升级,转为“无限制但限速”模式。

Cursor 已实现 5 亿美元的年化订阅收入,并成长为估值 90 亿美元的“vibe‑coding”代表,其用户包括 Nvidia、Uber、Adobe,甚至亚马逊内部员工已申请全面引入 Cursor 工具。此次 Ultra 定价定位高端用户,与 OpenAI、Anthropic、谷歌等竞争者的高阶订阅模式形成价格阵营竞争。然而,定价 200 美元能否持续赋能极端依赖的用户,还需市场时间验证。



11|xAI 巨额烧钱路:年烧 130 亿美元,收入仅 5 亿

据彭博社 6 月 18 日报道,马斯克的 AI 公司 xAI 为开发 Grok 等高端模型,仅服务器集群与专用芯片每月开销超过 10 亿美元,预计 2025 年总开支将达 130 亿美元,而当年营收仅预估 5 亿美元,明年或增长至 20 亿美元。公司已筹资逾 140 亿美元,年初账户仅剩 40 亿,正努力通过债务与股权融资再集资 93 亿美元,用于维持烧钱节奏。xAI 表示计划 2027 年实现盈利,并借助 X 平台数据和自购基础设施形成长期成本优势。

然而,如此高烧与低营收的结构也引发了市场担忧。尽管马斯克在 X 上斥责“彭博胡说八道”,但多家财经媒体证实其“月烧 10 亿”接近现实,并指出若融资进度不及预期,xAI 将面临现金枯竭风险。与 OpenAI 今年预计 127 亿美元的营收相比,xAI 营收仅为其 1/25,烧钱更是其 26 倍之巨,凸显了极端资本投入方式的高风险性。虽有 Andreessen Horowitz、Sequoia 等知名风投持续注资,xAI 的未来仍取决于其能否在数年内完成盈利转型。




我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。

相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”,用AI为你的未来加速。



(文:AI信息Gap)

发表评论