冷战日记:从AI破局到算力反制,中美交锋实录|赛博月刊 2501-2502

AI 行业大事记

2025 年 1 月 & 2月 

在过去的两个月中,AI 领域风云激荡。DeepSeek R1 的发布,不仅开启了推理新纪元,更深刻影响了中美 AI 竞争格局。

本期《赛博月刊》逐日记录,深度剖析,为您全景呈现这两个月内,全球 AI 领域,特别是中美两国,在技术、应用、政策等各方面的重大事件与发展脉络。


全文 38000 字,敬上。

致敬那些可爱的人。


联合出品: 

Jomy @ 302.AI 

南乔 River @ ShowMeAI 

大聪明 @ 赛博禅心 


概览:中美攻防时间线


1月2日:在经历了 500 天的博弈之后,美国对中国的投资禁令今日生效。 

1月6日:Sam Altman 发文称已找到实现 AGI 的方法,开始向「超级智能」迈进,加速科学发现和创新。 

1月10日:美国最高法院就 TikTok 封禁法案举行口头辩论。 

1月13日:美国商务部发布《人工智能扩散临时最终规则》并征求意见,对先进计算芯片和闭源 AI 模型的出口进行严格管控。 

1月13日:海外用户开始涌入小红书,自称 TikTok Refugee,小红书用户温柔接待了他们,并由此拉开了中美互联网用户第一次大规模交流的序幕。 

1月14日:美国商务部出口管制实体清单新增 25 个中国实体(包含智谱)。 

1月14日:DeepSeek 推出Andriod 和 iOS 移动端应用。 

1月14日:小红书登上全球 87 个国家 App Store 下载榜第一名,成为首款全中文名登顶美区的应用。 

1月17日:TikTok 宣布将于 1 月 19 日停止服务。 

1月18日:TikTok 正式关停美国服务,字节系应用 CapCut、Lemon8 等也同步停服。 

1月19日:小红书紧急上线了 AI 翻译功能。 

1月20日:特朗普宣布推迟禁令,TikTok 逐步恢复运营。 

1月20日:深度求索发布并开源 DeepSeek-R1 推理模型。 

1月21日:Stargate(星际之门)计划开启,四年将投资 5000 亿美元建设美国 AI 基础设施。 

1月23日:梁文峰(DeepSeek 创始人)参加总理座谈会并发言。 

1月23日:美国白宫发布《消除美国在人工智能领域领导地位的障碍》的行政命令。 

1月23日:中国银行宣布为 AI 全产业链提供不少于一万亿元的金融支持。 

1月27日:DeepSeek 同时登顶中国和美国苹果应用商店免费 App下载排行榜。引发美股科技股震荡。 

1月28日(除夕):DeepSeek 官方发布公告称,其线上服务近期遭遇大规模境外网络攻击 

1月28日:宇树机器人在《2025 年央视春晚》扭秧歌转手绢火爆出圈。 

2月01日(初一):DeepSeek 在全球 140 个国家和地区的应用商店下载量排名第一 

2月01日:Sam Altman 称将重新考虑开源战略。 

2月02日:国内主流云厂商和 AI 产品开始陆续接入 DeepSeek R1 模型。 

2月13日:Apple 国行 AI 合作伙伴调整为阿里巴巴百度。 

2月16日:百度官方宣布多款产品接入 DeepSeek R1 模型,包括百度搜索。 

2月16日:腾讯官方宣布多款产品接入 DeepSeek-R1 模型,包括微信。 

2月17日:习近平出席民营企业座谈会并发表重要讲话。 

2月24日:DeepSeek 开源周。 

2月24日:阿里巴巴宣布未来三年投入 3800 亿元建设云和 AI 硬件基础设施。 

3月03日:中国人民银行等五部门召开座谈会,为民营经济发展提供有力金融支持。 


说明: 

① 本文分类中的【模型】均指代语言模型; 

② 国内云平台/计算平台/AI应用,默认已接入 DeepSeek R1 模型(Kimi/智谱清言/豆包/通义还没接入); 

③ 前往 WaytoAGI 专区查看「赛博月刊」飞书版 → https://waytoagi.feishu.cn/wiki/QeQiwmb61iSAXXkNbyic2yksnKc (期待互动👏👏👏) 

9 月刊 | 10 月刊 | 11 月刊 | 12月刊 

 

 

双月趋势观察

 

1. 模型 

✦ 过去两个月,我们共同见证了一场席卷全球 AI 领域的风云巨变。 

✦ o1 惊艳问世后全世界的大模型团队都想找到 OpenAI 藏起来钥匙。没想到,最先踹开这扇门的是一家「名不见经传」中国公司——DeepSeek1月20日,DeepSeek 宣布开源 R1 模型和相关论文,将整个大模型行业急速推进到了推理时代(Test-Time Scaling)。 

✦ 起初,我们以为这只是技术圈层的突破完全没料到它会引发如此深刻的影响,甚至撼动了世界格局。美股暴跌 1.2 万亿,中美在 AI 领域频繁交锋;国内厂商纷纷接入 R1 并拉爆宣传,自家模型研发团队的脸面被按在地上摩擦;春节期间家喻户晓街头巷议,AI 真正「飞入寻常百姓家」而风暴中心的 DeepSeek 默默不语,只是不停地开源。 

✦ Scaling Law 再一次「续命」成功。这次的终点会是哪里呢?Sam Altman 说是——AGI 

 

2. 图像 

✦ 图像模型近期没有大的突破整体在往更快更便宜的方向发展了。 

✦ AI 图像生成去年就已经跨过真假难辨的临界点,成为常用的生产力工具之一。从 LibLibAI 一年融资数亿就能看出,资本市场已经非常看好这条赛道。 

 

3. 视频 

✦ 视频模型底层架构没有大变化,大家都在做一些细节的优化,例如视频音效生成在逐渐成为标配。 

✦ 现阶段,视频模型公司逐渐分化到两个方向:面向 C 端的视频模板方向,核心是好玩和快速,如 Pixverse、Pika 等;面向B端的视频创作方向,核心是高质量和高可控性,例如 Minimax、Runway 等。 

 

4. 音频 

✦ AI 音频在去年跨越了真假难辨的临界点所以音频领域继图像领域之后,第二条被资本看好的 AI 赛道。 

 

5. 3D 

✦ 3D 领域变化不多,暂时还停留在文字/图片生成 3D 模型的阶段世界模型刚刚起步 

 

6. 应用 

✦ AI 编程领域仍然在快速迭代和发展随着模型能力越来越强和推理模型的加入,编程从半自动到全自动,应该只是时间问题了。 

✦ Computer Agent 正在缓慢发展中OpenAI 发布的 Operator 工具,实测效果不尽如人意,还没有迈过实用性门槛。 

 Deep (Re)Search 这个方向值得注意自从去年 12 月 Google Gemini 推出这项功能后,OpenAI、Perplexity,Grok 都迅速跟进 

Deep (Re)Search 本质上是一个调研 Agent,通过大量搜索和分析,花较长的时间来生成一个长篇报告,与传统 AI 搜索相比更像是一种「慢搜索」现阶段最大的问题是模型幻觉,特别是隐藏在一篇长文中的细节纰漏,因此实际使用谨慎。 

 

7. 新闻 

✦ 欧各有「星际之门」计划 2025 年加大投入,支持 AI 基础建设和科学研究。 

✦ 越来越多厂商接入 R1,拥抱开源。 

✦ 2025年是 AI 应用创业的黄金期① 大部分领域的模型基本成熟(天时),② 国家加大对 AI 行业的投入(地利),③ DeepSeek 让全民了解了什么是 AI (人和)。 

 

 

✦ ✦ ✦  

 

 

🧭 时光机

 

1 月 1 日

视频 | 智象未来  多模态生成大模型 3.0 && 多模态理解大模型 1.0 发布 

3 D | 影眸科技  Rodin Gen-1.5 3D 生成工具发布 → 实测效果中规中矩 

融资 | 硅基流动完成亿元人民币 Pre-A 轮融资 

 

1 月 2 日

时间线 | 🧵 美国对中国的投资禁令今日生效,500 余天博弈过程的关键节点梳理 → 川普上台会不会又有变化呢? 

 

1 月 3 日

融资 | 元始智能(RWKV)完成数千万人民币天使轮融资 → Transformer 的挑战者之一 

 

1 月 4 日

应用 | 罗永浩 J1 Assistant 智能助手应用发布 → UI 非常复古 

 

1 月 5 日(无)

 

1 月 6 日

新闻 | Sam Altman 发文称向「超级智能」迈进,加速科学发现和创新 → Test-Time Scaling = AGI? 

 

1 月 7 日

模型 | Powerlnfer  SmallThinker-3b-Preview 适用于端侧设备的推理模型(开源)→ 使用 QwQ 推理数据进行微调的小模型 

3 D | Google DeepMind  正在组建世界模型团队(Tim Brooks 掌舵)→ 期待 Google 在世界模型领域的研究成果 

新闻 | CES 2025  科技圈春晚,展示万物皆可 AI 

 

1 月 8 日

时间线 | 🧵 零一万物大部分训练和 AI infra 团队会加入联合实验室成为阿里员工,零一万物将不再追求训练超级大模型 → 大模型 六小龙 五小龙 

 

1 月 9 日

视频 | 阿里巴巴 – 通义  万相 2.1 视频生成模型上线 → 第一个支持生成中文的视频模型 

 

1 月 10 日

模型 | 商汤  日日新融合大模型 

视频 | MiniMax AI  S2V-01 视频生成模型推出主体参考功能 → 增强视频可控性是 B 端刚需 

应用 | 阿里巴巴  通义灵码 2.0 辅助编程应用 

应用 | 阿里巴巴 – 千问  Qwen Chat 网页版聊天助手上线 → 之后网址更新,目前几个都能用 

 

1 月 11 日

模型 | UC Berkeley – NovaSky  Sky-T1-32B-Preview 推理模型(开源)→ 用 QwQ 推理数据微调而成,与上方 SmallThink 类似 

图像 | SonyResearch  Micro Diffusion 从零开始训练扩散模型(开源)→ 日本人想要有属于自己的图像模型? 

 

1 月 12 日(无)

 

1 月 13 日

模型 | Kyutai  Helium-1-preview-2B 适用于端侧多语言大模型(开源)→ 模型的小语种能力是中美模型会忽略的地方,给了欧洲一些机会 

模型 | NVIDIA  Nemotron-CC 大型英文 AI 训练数据库 

视频 | 潞晨科技  Video Ocean V2.0 视频生成模型免费开放 

新闻 | 美国商务部发布《人工智能扩散临时最终规则》并征求意见,对先进计算芯片和闭源 AI 模型的出口进行严格管控 → 越管控,越强大 

 

1 月 14 日

时间线 | 🧵 海外网友涌入小红书,中美网友开始对账 → 小红书应该是第一个大规模使用 AI 翻译的超级 APP 

时间线 | 🧵 DeepSeek App 霸榜全球 140 个国家和地区 → 超过 ChatGPT 成全球增长最快的 AI 应用,正式出圈 

 

1 月 15 日

模型 | 上海人工智能实验室  InternLM3-8B 常规对话与深度思考能力融合模型(开源) 

模型 | 月之暗面  moonshot-v1-vision-preview 多模态图片理解模型发布 → B 端体验需要改进 

模型 | 科大讯飞  星火 X1 深度推理模型发布 && 星火语音同传模型首发 

模型 | MiniMax AI  MiniMax-Text-01 语言模型 && MiniMax-VL-01 视觉多模态模型(开源)→ 非常出色的基础模型!可以期待一下 Minimax 的推理模型 

音频 | MiniMax AI  T2A-01-HD 语音合成模型(升级) 

视频 | 生数科技  Vidu 2.0 视频生成模型发布,又快又便宜 → Vidu 和 Pixverse 的产品路线越来越像了 

应用 | OpenAI  ChatGPT Tasks 定时任务功能 → 未来 Agent 必备的能力之一 

新闻 | 美国商务部  出口管制实体清单新增 25 个中国实体(智谱回应)→ 另一种官方认证 (滑稽 

 

1 月 16 日

模型 | 阶跃星辰  Step R-mini 推理大模型发布 

模型 | 面壁智能  MiniCPM-o 2.6 全模态端侧模型(开源)→ 第一个端侧的全模态模型,很惊艳! 

模型 | Jina AI  ReaderLM-v2 模型升级 → 换成模型后,速度慢了不少但是提升有限,是否值得呢? 

视频 | Luma AI  Ray2 视频生成模型发布 → 小幅度升级 

视频 | 快手 – 可灵 AI  Koala-36M 视频数据集(开源)→ 到目前为止,开源视频模型一个能打得过可灵的都没有 

音频 | 智谱 AI  GLM-Realtime 实时语音模型发布 && GLM-4-Air 模型升级 && GLM-4V-Plus 视觉模型升级 → OpenAI 有的,智谱也全都要 

融资 | Anysphere(Cursor)完成 1.05 亿美元 B 轮融资 → 此轮融资之后,Cursor 母公司估值已达到 25 亿美金 

 

1 月 17 日

模型 | 阿里巴巴 – 千问  Qwen2.5-Math-PRM 数学推理过程奖励模型 && ProcessBench 评估标准(开源)  

图像 | Runway  Frames 图像生成模型正式发布 

应用 | 腾讯  朱雀大模型鉴别 AI 生成的文本/图片 

新闻 | Perplexity AI 收购职业社交平台 Read.cv 

 

1 月 18 日(无)
1 月 19 日(无)

 

1 月 20 日

模型 | 深度求索  DeepSeek-R1 推理模型(开源)→ 不仅开源了模型权重,还开源了训练方法,开启了新的推理模型时代 

模型 | 月之暗面  Kimi k1.5 多模态思考模型发布 → R1 不支持多模态,但 k1.5 支持 

模型 | 阶跃星辰  Step-2 mini 和 Step-2 文学大师版发布 

应用 | 字节跳动  Trae 辅助编程应用上线 → 免费版 Cursor 的代价是什么呢,贡献所有代码? 

 

1 月 21 日

模型 | 阶跃星辰  Step-1o Vision 多模态理解大模型发布 

视频 | 智谱 AI  清影 2.0 视频生成模型发布 

3 D | 腾讯 – 混元  Hunyuan3D-2.0 3D 视觉模型(开源) && 一站式 3D 内容创作平台上线 

新闻 | OpenAI x SoftBank x Oracle 联合开启 Stargate(星际之门)→ 未来四年将投资 5000 亿美元建设 AI 基础设施,但最后能落地多少呢? 

 

1 月 22 日

模型 | 字节跳动 – 豆包  Doubao-1.5-pro 基础模型发布 → 非常优秀的基础模型!可以期待一下豆包的推理模型 

模型 | 网易有道  子曰-o1 推理模型(开源) 

视频 | 阶跃星辰  Step-Video V2 视频生成模型发布 → 阶跃也是全方位发展型选手 

应用 | 科大讯飞  星火飞码 iFlyCode 编程智能体发布 

应用 | 商汤  秒画趣拍 App 创意影像应用上线  

应用 | 妙鸭相机  增加动态 Live 写真功能(2.0 版本)→ AI 生成的视频确实非常适合 Live 图,因为时长很短 

应用 | Perplexity AI  Sonar 生成式搜索 API 产品 → 把原来名字中的 llama-3.1 去掉了,看来是想开启属于自己的 AI 模型系列了 

 

1 月 23 日

模型 | Hugging Face  SmolVLM-256M 和 SmolVLM-500M 两款多模态理解模型(开源) 

应用 | 智谱 AI  GLM-PC v1.1 智能体开放体验 

应用 | JetBrains  Junie 辅助编程工具开放申请 

新闻 | DeepSeek 创始人梁文峰参加总理座谈会并发言 → 出圈标志性事件 +1 

新闻 | 美国白宫发布《消除美国在人工智能领域领导地位的障碍》的行政命令 

新闻 | 中国银行宣布为 AI 全产业链提供不少于一万亿元的金融支持 → 中国版星际之门 

新闻 | 字节跳动 – 豆包  启动 Seed Edge 长期研究计划 → 字节在基础研究领域的努力,是非常值得肯定的 

融资 | StackBlitz(Bolt.new)完成 1.055 亿美元 B 轮融资 → 此轮融资后,Bolt 母公司估值 7 亿美金,相比于 Cursor 的 25 亿,说明半自动编程还是更吃香一点 

 

1 月 24 日

应用 | Perplexity AI  Perplexity Assistant 智能助手上线 → 看来 Perplexity 不只想做一个搜索应用 

应用 | 阶跃星辰  「创意板」功能上线跃问 App → 迟来了很久的 Artifacts 功能 

应用 | OpenAI  Operator 首款真正模拟人类操作网页浏览器的 AI 智能体 → Operator 操作的不是你的电脑,而是远程的虚拟机 

应用 | Refly 自由画布式 AI 原生创作工具(开源) 

应用 | GenSprk  Deep Research 功能上线 

 

1 月 25 日(无)

 

1 月 26 日

模型 | 智谱 AI  GLM-4V-Plus-0111 beta 图像和视频理解模型 

新闻 | 冯骥盛赞 DeepSeek,称其「可能是国运级别的科技成果」→ R1 爆火出圈的又一个助推器 

 

1 月 27 日

模型 | 阿里巴巴 – 千问  Qwen2.5-1M 长上下文模型(开源)→ 别看模型参数小,部署要求可是一点都不低 

时间线 | 🧵 DeepSeek 破圈时间线超级完整回顾 → 七日干碎美股 9 万亿,经此一役 R1 正式被捧上神坛 

 

1 月 28 日(除夕)

模型 | 阿里巴巴 – 千问  Qwen2.5-VL 视觉理解模型(开源)→ 这三个模型(3B、7B 和 72B)会大大推动多模态模型的应用 

图像 | DeepSeek  Janus-Pro-7B 多模态模型(开源) 

视频 | MiniMax AI  Hailuo T2V-01-Director 视频生成模型 → Minimax 继续在视频控制上深耕 

新闻 | 2025 年央视春晚  宇树机器人扭秧歌转手绢火爆出圈 → 人形机器人也出圈了 

 

1 月 29 日(初一)

模型 | 阿里巴巴 – 千问  Qwen2.5-Max 模型 → 对标 DeepSeek V3 

新闻 | 2025 乙巳年人工智能春节联欢晚会(AI 春晚 

 

1 月 30 日

模型 | Mistral AI  Mistral Small 3 低延迟模型(开源) 

新闻 | 2025 蛇年春节 AI 音乐晚会(AI音乐春晚 

 

1 月 31 日

融资 | ElevenLabs 完成 1.8 亿美元 C 轮融资 → 估值超 30 亿美元,看来 AI 语音的市场是非常受到资本认可的 

 

 

 

2 月 1 日

模型 | OpenAI  o3-mini 推理模型发布(以及一系列后续调整)→ 如果不是 R1,OpenAI 会这么快发布 o3 吗? 

新闻 | Sam Altman 称 DeepSeek-R1 令人印象深刻,将重新考虑开源战略 → OpenAI 还能「小幅领先」多久呢? 

 

2 月 2 日

时间线 | 🧵 国内主流云厂商接入 DeepSeek R1 时间线整理 → 侧面说明了市场对 R1 的巨大需求 

 

2 月 3 日

应用 | OpenAI  Deep Research 功能上线 ChatGPT → 算是 AI 应用的最佳实践之一了  

 

2 月 4 日

应用 | HuggingFace  Open Deep Research 极限 24 小时复现 OpenAI Deep Research(开源)→ 其实 Deep Research 并不是新鲜事,一年前就有不少类似的实现,只不过不叫这个名字 

 

2 月 5 日

模型 | Google  Gemini 2.0 系列大模型发布(和升级)→ 性价比最高的模型 

新闻 | 360 澄清暂未向 DeepSeek 提供任何服务 

 

2 月 6 日(无)

 

2 月 7 日

应用 | ElevenLabs  Studio 长篇文本转音频编辑器全面开放 → 经典的 AI 语音使用案例之一 

 

2 月 8 日(无)
2 月 9 日(无)

 

2 月 10 日

模型 | 上海人工智能实验室  书生 InternVideo2.5 视频理解模型(开源) 

新闻 | 巴黎人工智能行动峰会  美英拒绝签署巴黎 AI 行动峰会声明  

新闻 | 法国政府正积极扶持 Mistral AI,并计划投入千亿欧元建设 AI 数据中心 → 欧洲版星际之门 

应用 | Mistral AI  Le Chat 移动端 App 登上法国 iOS 效率榜第一名 

 

2 月 11 日

音频 | 阿里巴巴 – 通义  InspireMusic 音乐生成工具包(开源)→ 暂时只能生成纯音乐,离 Suno 还有很大的差距  

新闻 | 三星 Galaxy S25 国行引入智谱 Agentic GLM 

 

2 月 12 日

视频 | Adobe  Firefly 业界首个对知识产权友好视频生成模型 

融资 | Harvey 完成 3 亿美元 D 轮融资 → 估值 30 亿美元,AI在垂直领域的最佳实践之一 

 

2 月 13 日

新闻 | Apple 国行 AI 合作伙伴调整为阿里巴巴百度 → 很好奇最后会生出什么样的「混血儿」 

 

2 月 14 日

3 D | 昆仑万维  Matrix-Zero 世界模型同时实现 3D 场景生成和可交互视频生成 

应用 | Jina AI  DeepSearch API 上线(开源)→ 非常值得研究的一个 Demo,完全开源 

 

2 月 15 日

应用 | Perplexity AI  Deep Research 功能上线 → 支持 API 接入,B 端友好 

应用 | Bolt + Expo  无需编程即可创建 iOS 和 Android 应用(覆盖从创意到发布全流程→ 全自动编程的风吹到了 App 领域了 

 

2 月 16 日

新闻 | 百度  官方宣布多款产品接入 DeepSeek R1 模型 → R1 的爆火,彻底地影响了百度的 AI 战略 

新闻 | 腾讯  官方宣布多款产品接入 DeepSeek-R1 模型 → 在 AI 领域一直慢悠悠的腾讯,这次动作非常快 

 

2 月 17 日

模型 | 腾讯 – 混元  T1 推理模型上线腾讯元宝 App → 第一个国产仿 R1 模型,没想到是出自腾讯 

模型 | Mistral AI  Saba 区域性语言模型(专为中东&南亚地区定制)→ 专注小语种,打差异化,也是一条路 

模型 | 小红书 x 上海交通大学  WorldSense 多模态大模型评估基准数据集 

模型 | 中文基于满血 DeepSeek-R1 蒸馏数据集 – 110K 

新闻 | 习近平出席民营企业座谈会并发表重要讲话 → 对今年 AI 行业整体发展有重大利好 

 

2 月 18 日

模型 | xAI  Grok 3 系列模型发布 && DeepSearch 功能上线 → 目前发布的第一个「十万卡集群」大模型 

模型 | DeepSeek  NSA 稀疏注意力机制(论文)→ 「稀疏注意力」成为了模型工程优化的一个大趋势 

模型 | 月之暗面  MoBA 稀疏注意力框架(论文)→ 和 NSA 完全不同的思路 

视频 | 昆仑万维  SkyReels-V1 短剧视频生成模型(开源) 

视频 | 阶跃星辰 x 吉利汽车  Step-Video-T2V 视频生成模型(开源) 

音频 | 阶跃星辰 x 吉利汽车  Step-Audio 语音模型(开源) 

应用 | 秘塔  Shallow Research(先想后搜)新型研究模式上线 → 多模型配合会是一个新的趋势 

 

2 月 19 日

| 模型 | OpenAI  SWE-Lancer 更贴近现实的编程能力基准测试 → OpenAI 推出的基准测试,Claude 拿了第一 

应用 | MetaGPT  MGX 全球首个 AI 智能体开发团队 

应用 | Google Gemini ● Deep Research 功能更新 → Deep Research 逐渐成为标配 

应用 | Google  AI co-scientist 加速科学发现和创新的多智能体 AI 系统 

新闻 | Microsoft  Majorana 1 全球首个由拓扑核心驱动的量子处理器(QPU) 

新闻 | Humane(AI Pin)被惠普以 1.16 亿美元收购,将停止服务 

 

2 月 20 日

机器人 | Figure AI  Helix 全球首个通用视觉-语言-行动(VLA)模型 

应用 | Spotify x ElevenLabs  基于 AI 生成有声书并且多平台分发 

 

2 月 21 日(无)

 

2 月 22 日

应用 | Monica  聊天助手国内版开放内测 

 

2 月 23 日

模型 | 月之暗面  Moonlight-16B-A3B 模型(开源) 

新闻 | 2025 全球开发者先锋大会(2025 GDC) 

 

2 月 24 日

模型 | DeepSeek ⋙ Day 1  FlashMLA 

视频 | 爱诗科技  PixVerse V4 视频生成模型上线 → C 端需求做得非常极致的视频模型公司 

新闻 | 阿里巴巴  未来三年投入 3800 亿元建设云和 AI 硬件基础设施 → 中国版星际之门加码 

融资 | LiblibAI 完成数亿元融资 → 看来 AI 图像生成是真有生产力 

 

2 月 25 日

模型 | DeepSeek ⋙ Day 2  DeepEP → 这下应该没人说 DeepSeek 是「假开源」了 

模型 | Anthropic  Claude 3.7 Sonnet 混合推理模型发布 → 所谓的「混合推理」 并不是自动的,而是需要手动切换 

模型 | 阿里巴巴 – 千问  QwQ-Max-Preview 推理模型发布(即将开源)→ 第二个仿 R1 的国产模型 

视频 | 阿里巴巴 – 通义  Wan 2.1 系列视频生成模型(开源)→ 实测效果一般,无法替代可灵 

应用 | Google  Gemini Code Assist(个人版)辅助编程工具(免费) 

 

2 月 26 日

模型 | DeepSeek ⋙ Day 3  DeepGEMM → 推动 FP8 成为主流 

模型 | Microsoft  Phi-4-multimodal 多模态模型和 Phi-4-mini 模型(开源) 

音频 | ElevenLabs  Scribe 最精准的语音转文本模型 

视频 | Luma AI  为生成的视频添加音效 → AI 视频配音,逐渐成为标配 

应用 | Perplexity  Comet 智能搜索浏览器(开放内测申请) 

 

2 月 27 日

模型 | DeepSeek ⋙ Day 4  DualPipe,EPLB 

模型 | OpenAI  GPT-4.5 迄今最大最贵的模型 → 普遍评价都很差。但这个模型可能是为了 o3 完整版而准备的,暂且先不下太多定论 

模型 | 腾讯 – 混元  Turbo S 新一代快思考模型发布 → 传统模型不都是「快思考」吗? 

 

2 月 28 日

模型 | DeepSeek ⋙ Day 5  3FS 

模型 | DeepSeek ⋙ One More Thing  DeepSeek-V3 / R1 推理系统概览 

图像 | Ideogram AI  Ideogram 2a 文生图模型,又快又便宜 → 图像生成开始卷速度和价格了 

视频 | Pika  Pikaframes 视频生成工具支持关键帧过渡 

应用 | Dify  v1.0.0 正式上线!→ 恭喜 Dify ! 

 

🧵 双月中美攻防时间线汇总

 

 

 

✦ ✦ ✦  

 

1月1日

 

【视频】

智象未来

多模态生成大模型 3.0 && 多模态理解大模型 1.0 发布 

生成大模型 3.0 专注于高质量图像和视频的生成,不仅显著提升了生成内容的质量和可控性,还降低了计算成本。理解大模型 1.0 则强化了对图像和视频的时空建模与解析能力,实现了对图像视频和内容更精细、更准确的理解。 

使用入口:前往官网(hidreamai.com)体验。 

 

锐评(by Jomy)→ 可灵的竞品 

🔍官方介绍 

 

 

【3 D】

影眸科技

Rodin Gen-1.5 3D 生成工具 

Rodin Gen-1.5 能够生成高质量、高精度的 3D 模型,尤其在 CAD 类工业模型和硬表面模型方面表现出色,有效解决了行业内长期存在的薄面和边缘锐度问题。 

使用入口:前往官网(Hyper3D.ai)体验。 

 

实测效果中规中矩 

https://x.com/DeemosTech/status/1873752612832788546 

 

 

融资

硅基流动

完成亿元人民币 Pre-A 轮融资 

硅基流动(SiliconFlow)已于 2024 年底完成亿元人民币 Pre-A 轮融资,由华创资本领投,普华资本跟投,老股东耀途资本继续超额跟投,华兴资本担任独家财务顾问。此次融资将加速硅基流动的 AI 云基础设施升级与商业化拓展。  

硅基流动成立于 2023 年 8 月,致力于打造大模型时代的 AI 基础设施(AI Infra)平台,通过算法、系统与硬件的协同创新,跨数量级降低 AI 应用的开发和使用门槛,加速 AGI 普惠人类。  

 

🔍官方介绍 

 

 

 

1月2日

 

【时间线】

美国对中国的投资禁令今日生效

🧵 500 余天博弈过程的关键节点梳理 

美国对华投资禁令今天生效。简而言之,规定限制了「美国人」投资与中国有密切相关主体的敏感领域(如半导体、量子信息和人工智能)。以下是事件发展过程的关键节点: 

  • 2023年8月9日:拜登政府颁布 Reverse CFIUS 行政令(Executive Order),提出了具体的实施细则并征求公众意见(截至美国时间 2024年8 月 4 日)。
  • 2024年6月21日:美国财政部(U.S. Department of the Treasury)发布了一项拟议规则通知(Notice of Proposed Rulemaking),就 Reverse CFIUS 行政令提出了具体的实施细则并征求公众意见(截至美国时间 2024年8 月 4 日)。
  • 2024年10月28日:美国财政部发布实施反向 CFIUS 的最终规定(Final Reverse CFIUS Regulations),将首次对美国在特定领域向「受关注国家」的对外投资进行监管。
  • 2025年1月2日:投资禁令开始施行。

 

川普上台后,会不会又有变化呢 

https://home.treasury.gov/news/press-releases/jy2687 

🔍reverse CFIUS 实施细则征求意见稿详解@汉坤律师事务所 | 🔍创投铁幕终于落下@暗涌Waves 

 

 

 

1月3日

 

融资

元始智能(RWKV)

完成数千万人民币天使轮融资 

元始智能宣布完成数千万人民币天使轮融资。本轮由天际资本领投,融资将用于加速 RWKV 架构的发展,拓展更多 C 端 AI 应用,并推动生态系统建设和行业合作。 

元始智能成立于 2023 年 6 月,专注于大模型架构与 AI 应用的研发,特别是 RWKV 技术的推进与应用。解释一下,RWKV 是一种创新的深度学习网络架构,结合了 Transformer 与 RNN 的优点,同时实现高度并行化训练与高效推理。 

 

以下是近期模型进展时间线: 

  • 1月28日,RWKV-7-World-1.5B-v3 基底模型发布并开源。凭借 RWKV 架构和高效的训练方法,RWKV-7-1.5B 模型在英文和多语言能力上显著超越了同尺寸的其他模型,并在长文本处理和多轮对话等场景中展现出卓越的适应性。🔍官方介绍
  • 2月11日,RWKV-7-World-2.9B-V3 模型发布并开源。模型基于纯 RNN 架构,无 KV Cache,支持多语言处理,在文本生成、多轮对话、内容审核等多个应用场景中表现出色。模型拥有 2.9B 参数,在英语和多语言测试中均优于同规模的 Transformer 模型。🔍官方介绍

 

Transformer 的挑战者之一 💪 

🔍官方介绍 

 

 

 

1月4日

 

【应用】

罗永浩

J1 Assistant 智能助手应用发布 

J1 Assistant 是罗永浩旗下 AI 初创公司 Jarvis 推出的一款智能助手,它通过语音交互、任务管理、AI 搜索、备忘录和多平台调用等功能,帮助用户提升日常生活和工作效率。用户只需长按麦克风图标,就能快速启动语音指令,轻松完成信息查询、日程安排和会议通知等复杂任务。 

使用入口:J1 Assistant 目前仅支持 Android 设备,并且对国内 IP 地址进行了限制,用户需要通过官网下载安装包并注册账号后才能使用。 

 

UI 非常复古 👴 

https://x.com/JARVISbyMATTER/status/1875256105615683982 | 🔍测评@差评X.PIN 

 

 

 

1月6日

 

【新闻】

OpenAI

Sam Altman 发文称向「超级智能」迈进,加速科学发现和创新 

Sam Altman 发表了一篇长文,以亲历者和领导者的视角,回顾了 OpenAI 自成立以来的发展历程,尤其是过去两年的关键时刻。他宣布,OpenAI 已经掌握了构建通用人工智能(AGI)的方法;预计在2025年,首批人工智能智能体可能会「加入劳动力市场」。此外,公司已将目标转向开发超级智能(ASI),以大幅加速科学发现和创新。 

 

Test-Time Scaling = AGI ❓ 

https://blog.samaltman.com/reflections | 🔍中文翻译版 

 

 

几天之后,他发帖称 X 上的炒作太夸张。OpenAI 只是知道了如何构建 AGI,但目前还没真正实现 AGI。请大家降低期待阈值。 

Sam Altman 这篇帖子发出 4 个小时后,DeepSeek 发帖宣布正式推出 R1 模型。 

https://x.com/sama/status/1881258443669172470 

 

 

 

1月7日

 

【模型】

Powerlnfer

SmallThinker-3b-Preview 适用于端侧设备的推理模型(开源) 

SmallThinker-3B 是基于 Qwen2.5-3B-Instruct 模型微调而成的新模型,专为端侧设备量身打造,适用于语音助手、智能对话和边缘计算等任务。此外,它还可作为 QwQ-32B-Preview(更大尺寸模型)的高效草稿模型,在 llama.cpp 中可实现高达 70% 的速度提升(从 40 token/s 提升至 70 token/s)。 

 

使用 QwQ 推理数据进行微调的小模型 

https://huggingface.co/PowerInfer/SmallThinker-3B-Preview 

 

 

3 D

Google DeepMind

正在组建世界模型团队(Tim Brooks 掌舵) 

谷歌 DeepMind 近日宣布组建一个全新的世界模型团队,专注于研发多个世界模型,助力谷歌在视频生成与模拟等前沿领域的研究突破。 

团队由 Tim Brooks 领衔,他曾主导 OpenAI 的 Sora 研究项目,并是 DALL-E 3 的核心研发人员之一。 

 

期待 Google 在世界模型领域的研究成果 🧐 

https://x.com/_tim_brooks/status/1876327325916447140 

 

 

【新闻】

CES 2025

科技圈春晚,展示万物皆可 AI 

CES 2025(2025 年国际消费电子展)于 2025 年 1 月 7 日至 10 日在美国拉斯维加斯举行,是全球最具影响力的科技盛会之一。本次展会吸引了来自全球 166 个国家和地区的 4500 多家企业参展。 

本届 CES 的主题为「Dive In」,意在通过 AI 技术连接、发现、解决和深入探索,提升人类生活质量。展会重点展示了人工智能、数字健康、先进移动技术、智慧城市、机器人、AR/VR/XR、可持续发展、食品科技、智能家居、人类安全和太空技术等多个领域的最新技术和产品。 

 

https://www.ces.tech | 🔍展会总结 

 

 

 

1月8日

 

【时间线】

零一万物 x 阿里云

🧵零一万物大部分训练和 AI infra 团队会加入联合实验室成为阿里员工,零一万物将不再追求训练超级大模型 

  • 1月2日:阿里云与零一万物宣布,双方将成立「产业大模型联合实验室」,联手加速大模型从技术到应用的落地,进一步扩大产业大模型的生态整合。🔍官方介绍
  • 1月6日:零一万物创始人李开复在朋友圈发文,回应社交媒体「阿里收购零一万物」相关传闻:2024 年零一万物确认收入一个多亿元。谣言散得快,撤得也快。2025 年是中国大模型考验年、应用爆发年、商业化淘汰年。
  • 1月7日:零一万物官方发文辟谣「被阿里收购」传闻。🔍官方介绍
  • 1月8日:零一万物创始人李开复接受媒体长篇专访,阐述事实真相及后续发展规划:零一万物已与阿里云成立「产业大模型联合实验室」,零一万物大部分训练和 AI infra 团队会加入该实验室,成为阿里员工。这之后,零一万物将不再追求训练超级大模型,但会继续训练参数适中的更快、更便宜的模型,基于后者打造可以赚钱的应用。

 

大模型六小龙 → 大模型五小龙 

🔍晚点对话李开复丨他第一个讲了出来,不再追求 AGI  

🔍李开复独家回应:盲目坚持负担不起的东西,并不是健康的选择|智涌独家 

 

 

 

1月9日

 

【视频】

阿里巴巴 – 通义

万相 2.1 视频生成模型上线 

万相 2.1 视频生成模型在复杂运动、物理规律遵循和艺术表现等多个方面实现了全面升级,尤其在大幅度复杂运动、多对象生成以及空间关系处理上表现卓越。此外,万相 2.1 首次实现了中文文字视频生成功能,并支持中英文视频特效生成。用户可以通过简单的文字描述或图像轻松控制视频内容。 

使用入口:前往通义万相官网(tongyi.aliyun.com/wanxiang/videoCreation)体验。 

 

第一个支持生成中文的视频模型 👍 

🔍官方介绍 

 

 

 

1月10日

 

【模型】

商汤

日日新融合大模型 

SenseChat 5.5 日日新融合大模型,在深度推理能力和多模态信息处理能力方面实现了显著提升,达到了人类「看」和「想」的水平。🔍官方介绍 此外,SenseNova-5o 日日新融合大模型交互版已经开放商用。🔍官方介绍 

使用入口:前往官网(chat.sensetime.com)体验。 

 

 

 

【视频】

MiniMax AI

S2V-01 视频生成模型推出主体参考功能 

S2V-01 模型推出的「主体参考」功能十分强大,只需要输入一张图片,模型就能精准识别出图片中主体的性别、年龄、肤色、五官结构等面部特征,并精确还原所有视觉细节。在生成的视频中,角色不仅稳定连贯,还能在每一帧中保持高度一致,同时输入和计算成本只有传统方案的 1%(甚至更低)。 

使用入口:前往海螺官网(hailuoai.com/video/create)或移动 App 体验。 

 

增强视频可控性是 B 端刚需 💰 

🔍官方介绍 

 

 

【应用】

阿里巴巴

通义灵码 2.0 辅助编程应用 

通义灵码 2.0 是一款智能编程助手,支持 Java、Python、Go 等 16 种主流编程语言,具备实时代码续写、自然语言生成代码、单元测试生成、代码优化以及注释生成等功能。 

使用入口:官网(lingma.aliyun.com);开发者可通过 VSCode 和 JetBrains IDE 插件市场搜索并下载通义灵码插件。 

 

🔍官方介绍 

 

 

【应用】

阿里巴巴 – 千问

Qwen Chat 网页版聊天助手上线(后网址更新) 

Qwen Chat 是一款基于通义千问大模型的智能聊天助手,集成了多个顶尖的 Qwen 大模型,支持文本、图像、视频等多种输入方式,能够胜任知识问答、代码开发、内容创作、图像生成等多种任务场景。 

使用入口:前往 Qwen Chat 网站(chat.qwenlm.a,chat.qwen.ai,qwen.ai)注册后即可体验。 

 

非常简洁干净的 UI ❤ 

https://x.com/Alibaba_Qwen/status/1893907569724281088 

 

 

 

1月11日

 

【模型】

UC Berkeley – NovaSky

Sky-T1-32B-Preview 推理模型(开源) 

Sky-T1-32B-Preview 是一款开源的推理模型,基于 Qwen2.5-32B-Instruct 训练而成,拥有 32B 参数。它在数学、编程、物理和科学等复杂任务领域表现出色。 

使用入口:完全开源,提供训练数据集和代码。 

补充信息:NovaSky 团队隶属于加州大学伯克利分校 Sky Computing 实验室,成立于 2020 年,致力于推动低成本、高效率的 AI 模型开发。 

 

 QwQ 推理数据微调而成,与上方 SmallThink 类似 

https://novasky-ai.github.io/posts/sky-t1 

 

 

【图像】

SonyResearch

Micro Diffusion 从零开始训练扩散模型(开源) 

Micro Diffusion 项目是一个开源的扩散模型训练方案。通过优化训练策略和计算资源分配,该项目能够在 2.5 天内,仅使用 8 张 H100 GPU(成本不到 2000 美元),从零开始训练出与 Stable Diffusion v1/v2 质量相当的模型。 

此外,项目提供了完整的代码库和预训练模型检查点,方便用户进行实验和复现。训练过程设计得简单易用,支持逐步提升图像分辨率,并且详细说明了数据集设置和模型采样的相关细节。 

 

日本人想要有属于自己的图像模型 ❓ 

https://github.com/SonyResearch/micro_diffusion 

 

 

 

1月13日

 

【模型】

Kyutai

Helium-1-preview-2B 适用于端侧的多语言大模型(开源) 

Helium-1 Preview 是一款专为端侧和移动设备打造的 2B 参数多语言大模型。它在保持紧凑高效的同时,展现出强大的多语言性能,支持英语、法语、德语、西班牙语、意大利语和葡萄牙语等 6 种语言,并计划扩展至更多语言。 

使用入口:开源模型,后续会发布完整的模型、技术报告,并开源用于训练模型以及复现数据集的代码。 

补充信息:Kyutai 是一家欧洲人工智能公司,成立于 2023 年 11 月,致力于解决现代人工智能的主要挑战,包括开发大型多模态模型和发明新算法。 

 

模型的小语种能力是中美模型会忽略的地方,给了欧洲一些机会 

https://kyutai.org/2025/01/13/helium.html 

 

 

模型

NVIDIA

Nemotron-CC 大型英文 AI 训练数据库 

英伟达(NVIDIA)推出 Nemotron-CC 大型英文 AI 训练数据库,包含 6.3 万亿个 token,其中 1.9 万亿为合成数据。该数据库旨在突破现有公开数据的规模和质量限制,提升大语言模型的训练效果和性能。 

Nemotron-CC 数据来自于广受欢迎的 Common Crawl 网站,经过严格处理后提取出高质量子集 Nemotron-CC-HQ,并通过模型分类器和合成数据重述等技术,确保数据多样性和准确性。 

 

https://research.nvidia.com/labs/adlr/Nemotron-CC 

 

 

【视频】

潞晨科技

Video Ocean V2.0 视频生成模型免费开放 

Video Ocean V2.0 是一款基于开源项目 Open Sora 开发的视频生成模型,支持文生视频、图生视频、角色生视频等多种创作方式,具备角色一致性保持和任意视角捕捉能力,能够生成最高 20 秒的高清视频。 

使用入口:前往官网(video.luchentech.com)体验,完全免费。 

 

🔍官方介绍 

 

 

【新闻】

美国商务部发布《人工智能扩散临时最终规则》并征求意见

对先进计算芯片和闭源 AI 模型的出口进行严格管控 

美国商务部(拜登当局)发布了《人工智能扩散临时最终规则》(Interim Final Rule on Artificial Intelligence Diffusion),并开始征求公众意见。规则是为了是限制先进人工智能技术的扩散,确保美国及其盟友在全球人工智能领域的领先地位。规则还对先进计算芯片和闭源人工智能模型的出口进行了严格管控。 

根据规则,全球国家和地区被分为三个层级。其中,中国大陆、俄罗斯、朝鲜等 24 个国家和地区被列为「Tier 3全面禁运国」,受到最严格的出口管制措施。 

 

越管控越强大 💪 

https://bidenwhitehouse.archives.gov/briefing-room/statements-releases/2025/01/13/fact-sheet-ensuring-u-s-security-and-economic-strength-in-the-age-of-artificial-intelligence 

 

 

 

1月14日

 

【时间线】

海外网友涌入小红书

🧵 中美网友开始对账,世界重新连接在一起 

2025 年初,美国封禁 TikTok 引发了一系列连锁反应,大量美国用户涌入社交平台小红书。中美网友展开跨文化交流,从住房、饮食到医疗、教育等话题展开全方位的「对账」。与此同时,TikTok 在短暂关停后恢复了运营。以下是事件发展时间线: 

2020年 

  • 特朗普签署行政令,要求字节跳动剥离 TikTok 美国业务。随后,TikTok 起诉美国政府。

2024年 

  • 3月:美国国会以「国家安全」为由推动 TikTok 封禁法案。
  • 4月:拜登签署法案,要求字节跳动在 270 天内(截至 2025 年 1 月 19 日)剥离 TikTok 美国业务,否则将全面封禁。
  • 5月:TikTok 起诉美国政府,质疑法案的合理性,称没有证据表明其存在数据安全风险。
  • 12月:美国联邦巡回上诉法院驳回 TikTok 的上诉,维持封禁法案。随后,TikTok 向美国最高法院申请临时冻结封禁法案,但未获批准。

 

2025年1月 

  • 10日:美国最高法院就 TikTok 封禁法案举行口头辩论,媒体普遍预测 TikTok 胜算较低。
  • 13日:美国用户开始大规模讨论替代平台,#RedNote 搜索量激增 4400%,小红书登顶美区 App Store 免费榜。海外用户涌入小红书,自称「TikTok Refugee」,通过晒宠物照片(交猫税)迅速与中国网友建立了友谊。
  • 14日小红书登上全球 87 个国家 App Store 下载榜第一名,成为首款全中文名登顶美区的应用。中美网友交流的话题逐渐深入,开启了全方位的「对账」
  • 15日:小红书紧急招聘英文审核员。
  • 17日:美国最高法院裁定封禁法案不违宪。TikTok 宣布将于 1 月 19 日停止服务。拜登政府称执行责任将移交下届政府。
  • 18日TikTok 正式关停美国服务,字节系应用 CapCut、Lemon8 等也同步停服。大量用户涌入小红书,话题 #TikTokRefugees 登上 X 平台趋势榜。
  • 19日:小红书单日下载量创下新纪录,服务器多次短暂宕机。小红书紧急上线了 AI 翻译功能。
  • 20日:特朗普宣布推迟禁令,要求 TikTok 与美企成立合资公司(美方持股 50%)。随后,TikTok 逐步恢复运营。

2025年2月 

  • 14日:TikTok 恢复上架。

 

小红书应该是第一个大规模使用 AI 翻译的超级 APP 📕 

🔍从一本红书里认识中国,从另一本红书里找到答案 

 

🔍小红书 AI 翻译的提示词注入尝试 

 

 

【时间线】

DeepSeek

🧵 霸榜全球 140 个国家和地区,超过 ChatGPT 成全球增长最快的 AI 应用 

一款 AI 从「默默无闻」到全球 1 亿口碑用户,需要多久?DeepSeek 给出的时间是:30天。 

  • 1月11日:官方低调上线移动 App;随即,第三方开发者的山寨应用出现在各应用市场。
  • 1月14日:宣布正式推出 Andriod 和 iOS 移动端应用。
  • 1月20日发布推理模型 DeepSeek R1;官网及移动端「深度思考(R1)」和「联网搜索」双功能支持同时开启。
  • 1月27日同时登顶中国和美国苹果应用商店免费 App下载排行榜,超越 ChatGPT。引发美股科技股震荡。
  • 1月28日:官方发布公告称,其线上服务近期遭遇大规模境外网络攻击。为保障系统安全,已临时关闭境外手机号注册通道,现有用户服务不受影响。
  • 1月29日:网络安全公司 Wiz.io 报告 DeepSeek 关联的 ClickHouse 数据库泄露,含用户聊天记录和API密钥(后证实与攻击无关)。
  • 1月31日:日活(DAU)突破 2000 万,月活(MAU)突破 3000 万。
  • 2月1日:在全球 140 个国家和地区的应用商店下载量排名第一。
  • 2月9日全球用户量突破 1 亿,成为史上最快达成此里程碑的应用。

 

正式出圈 🔥 

🔍官方介绍 

 

 

 

1月15日

 

【模型】

上海人工智能实验室

InternLM3-8B 常规对话与深度思考能力融合模型(开源) 

书生·浦语 3.0(InternLM3-8B)首次在通用模型中实现了常规对话与深度思考能力的深度融合,并支持 20 步以上网页跳转的智能体任务,是整个模型系列的重要升级。模型通过精炼数据框架,仅使用 4TB 的训练数据,就达到了同量级模型 18TB 训练数据的效果,同时大幅降低了训练成本,节省了超过 75% 的训练费用。 

使用入口:开源模型(huggingface.co/internlm);也可以前往官网(chat.intern-ai.org.cn)体验。 

 

🔍官方介绍 

 

 

【模型】

月之暗面

moonshot-v1-vision-preview 多模态图片理解模型发布 

Moonshot-v1-vision-preview 在 moonshot-v1 系列的基础上,大幅提升了多模态能力。它不仅具备强大的图像识别、OCR 文字识别和数据提取功能,甚至可以精准捕捉复杂图像中的细节以及潦草的手写文字。🔍官方介绍 

使用入口:通过 API 调用提供服务,采用按量计费模式。 

API 至今无法读取 URL,只可以上传 Base64,B 端体验需要改进 

 

 

【模型】

科大讯飞

星火 X1 深度推理模型发布 && 星火 4.0 Turbo 底座模型全面升级 && 星火语音同传模型首发 

星火深度推理模型X1 是首个基于全国产算力平台训练的、具备深度思考和推理能力的 AI 大模型,并且在教师助手、讯飞 AI 学习机和医疗等真实应用场景中已经落地。 

星火 4.0 Turbo 底座模型全面升级,首次引入了混域知识搜索技术,有效解决了行业痛点,成为了更懂行业的大模型。 

星火语音同传大模型 是业界首个具备端到端语音到语音同传能力的模型,最快实现 5 秒同传时延,接近人类专家译员水平。 

使用入口:前往官网(xinghuo.xfyun.cn)或移动 App 体验。 

 

R1 发布后,这些推理模型都被人忘记了 🗑 

🔍官方介绍 

 

 

【模型】

MiniMax AI

MiniMax-01 系列模型(开源) 

MiniMax-01 系列模型首次大规模应用线性注意力机制,为自然语言处理和计算机视觉任务提供了更高效的解决方案。整个系列包括两款模型: 

MiniMax-Text-01 是一款基础语言大模型,参数量高达 456B,能够高效处理长达 4M token 的上下文,突破了传统 Transformer 架构的瓶颈,显著提升了长文本处理能力。 

MiniMax-VL-01 是一款视觉多模态大模型,融合了视觉与语言模型,具备强大的图像理解和生成能力,支持不同尺寸的图像输入。 

使用入口:模型开源;前往海螺官网(hailuoai.com)体验,或者调用 API。 

 

非常出色的基础模型可以期待一下 Minimax 的推理模型 🧐 

https://minimaxi.com/en/news/minimax-01-series-2 

Minimax 创始人闫俊杰在模型发布后接受了专访 → 🔍创业没有天选之子@晚点 

 

 

【音频】

MiniMax AI

T2A-01-HD 语音合成模型(升级) 

T2A-01-HD 文本转语音模型仅需 10 秒录音,就可以实现高精度的声音克隆。生成的语音在音色、语调和情感表达上均达到录音室级别。该模型支持 17 种语言,提供 300 多种预置音色库,并支持多种音效调整,能够满足多样化的语音合成需求。 

使用入口:前往海螺官网(hailuoai.com/audio)体验或调用 API。 

 

🔍官方介绍 

 

 

【视频】

生数科技

Vidu 2.0 视频生成模型发布,又快又便宜 

Vidu 2.0 模型凭借极致的生成速度和高效的成本控制脱颖而出。它能在短短 10 秒内生成视频,单秒视频生成成本低至 0.04 元人民币,性价比极高,而且在低峰时段不限量、不扣积分。值得注意的是,Vidu 2.0 在风格一致性、主体一致性、首尾帧自然过渡方面的表现也表现出色。 

使用入口:前往官网(vidu.cn/create/img2video)体验。 

 

Vidu  Pixverse 的产品路线越来越像了 🗺 

🔍官方介绍 

 

 

【应用】

OpenAI

ChatGPT Tasks 定时任务功能 

ChatGPT Tasks 是一款任务助手功能,用户可以通过自然语言指令安排一次性或重复性任务,从而高效管理日常事务。比如,你可以设置每日健身提醒、生成早间新闻摘要,甚至为孩子创作睡前故事。 

使用入口:要使用该功能,可以在 ChatGPT 界面的下拉菜单中选择「GPT-4o with scheduled tasks」模型,或者在个人资料设置中激活 Tasks 选项。 

 

未来 Agent 必备的能力之一 🧩 

https://help.openai.com/en/articles/10291617-scheduled-tasks-in-chatgpt 

 

 

【新闻】

美国商务部

出口管制实体清单新增 25 个中国实体(智谱回应) 

美国商务部本次实体清单增加了 25 个中国实体,包括智谱旗下 10 个实体、算能旗下约 11 个实体(包括一个新加坡分公司),以及哈勃投资的光刻机企业科益虹源等。此次新规于发布当天生效。对于被列入实体清单的中国实体,美国供应商在未事先获得特殊许可证的情况下将被禁止向他们发货。 

智谱成为「AI 六小龙」中首个被列入实体清单的公司。对此,智谱发文表表示,这一决定缺乏事实依据,并对此表示强烈反对。🔍智谱回应 

 

另一种官方认证 😉 

https://www.bis.gov/press-release/commerce-implements-new-controls-address-national-security-risks-related 

 

 

 

1月16日

 

【模型】

阶跃星辰

Step R-mini 推理大模型发布 

Step R-mini(Step Reasoner mini)是 Step 系列首款推理模型,兼具强大的逻辑推理、代码编写和数学计算能力,还在文学创作等通用领域表现出色,真正实现了「文理兼修」。 

使用入口:前往跃问官网(yuewen.cn/chats)体验。 

 

🔍官方介绍 

 

 

【模型】

面壁智能

MiniCPM-o 2.6 全模态端侧模型(开源) 

MiniCPM-o 2.6 是面壁智能推出的首款端侧全模态大模型,具备 8B 参数量,能够实现低延迟、高精度的语音识别与合成。它在文本、图像、音频和视频等多模态数据的生成与处理方面表现出色。 

此外,MiniCPM-o 2.6 是首个在 iPad 等端侧设备上实现多模态实时流式交互的模型,为用户带来了更灵活、高效且沉浸式的体验。 

 

第一个端侧的全模态模型,很惊艳 😍 

🔍官方介绍 

 

 

【模型】

Jina AI

ReaderLM-v2 模型升级 

ReaderLM-v2 是一款性能卓越的 1.5B 参数语言模型,能够将 HTML 转换为格式优美的 Markdown 和 JSON。相较于前代版本,它在长文本处理和 Markdown 语法生成方面取得了显著突破,能够精准掌握 Markdown 语法,轻松生成复杂元素,如代码块、嵌套列表、表格以及 LaTeX 公式。 

使用入口:可以通过 Reader API、HuggingFace、AWS SageMaker 等平台使用。 

 

换成模型后,速度慢了不少但是提升有限,是否值得呢 ❓ 

🔍官方介绍 

 

 

【视频】

Luma AI

Ray2 视频生成模型发布 

Ray2 模型拥有卓越的计算能力与自然流畅的动作处理能力,能够生成逼真且符合物理规律的视频,其光影效果和真实感表现堪称出色。模型已支持文生视频功能,可通过文本指令生成时长为5至10秒的高质量视频。未来,它还将增加图生视频、视频生视频以及视频编辑等功能,持续拓展其应用边界。 

使用入口:已在 Luma 的 Dream Machine 平台上(lumalabs.ai/ray)推出。 

 

小幅度升级 🤏 

https://x.com/LumaLabsAI/status/1879592852151558258 

 

 

视频

快手 – 可灵 AI

Koala-36M 视频数据集(开源) 

快手可灵团队开源的 Koala-36M 数据集,是目前最高质量的大规模视频生成数据集。它包含 3600 万个视频片段,平均总时长为 13.75 秒,分辨率达 720p,文本描述平均包含 202 个词。 

与 SOTA 数据集 Panda-70M 相比,Koala-36M 在视频切片、文本标注和数据筛选方面进行了精细化改进,显著提升了文本与视频内容的一致性。 

 

到目前为止,开源视频模型一个打得过可灵的都没有 🤷‍♀️ 

https://koala36m.github.io | 🔍官方介绍 

 

 

【音频】

智谱 AI

GLM-Realtime 实时语音模型发布 && GLM-4-Air 模型升级 && GLM-4V-Plus 视觉模型升级 

GLM-Realtime:一款端到端语音模型,具备低延迟的视频理解与语音交互能力,融入清唱功能,支持长达 2 分钟的记忆以及 Function Call 功能。 

GLM-4-Air 升级:在性能提升的同时,价格降为原来的一半,最新模型版本为 GLM-4-Air-0111。 

GLM-4V-Plus 升级:支持变分辨率功能,可适应不同尺寸的图像输入,在小图场景下能显著降低 token 消耗。同时支持 4K 超清图像和极致长宽比图像的无损识别,视频理解支持时长可达 2 小时。 

Flash 全模态免费系列模型:语言模型 GLM-4-Flash,图像理解模型 GLM-4V-Flash,图像生成模型 CogView-3-Flash,视频生成模型 CogVideoX-Flash。 

使用入口:前往开发者平台(bigmodel.cn)调用所有模型 API。  

 

OpenAI 有的,智谱也全都要 (我全都要.gif 

🔍官方介绍 

 

 

融资

Anysphere(Cursor)

完成 1.05 亿美元 B 轮融资 

Cursor 完成 1.05 亿美元($1.05M)B 轮融资,由 Thrive、Andreessen Horowitz(a16z)、Benchmark 及现有投资者参投,资金将用于进一步发展。 

其母公司 Anysphere 是一家成立于 2022 年的美国人工智能初创公司,专注于 AI 编程助手 Cursor 的开发。 

 

此轮融资之后,Cursor 母公司估值已达到 25 亿美金 💰 

https://www.cursor.com/cn/blog/series-b 

 

 

 

1月17日

 

【模型】

阿里巴巴 – 千问

Qwen2.5-Math-PRM 数学推理过程奖励模型(开源)&& ProcessBench 评估标准(开源) 

Qwen2.5-Math-PRM 数学推理过程奖励模型开源了 7B 和 72B 两个版本,在性能上显著超越同类开源过程奖励模型,特别是在识别推理错误步骤的能力上,7B 版本甚至超越了 GPT-4o。 

此外,通义千问团队还开源了首个步骤级评估标准 ProcessBench,为大模型推理过程错误评估提供了新的标准参考。 

 

https://qwenlm.github.io/blog/qwen2.5-math-prm 

 

 

【图像】

Runway

Frames 图像生成模型正式发布 

Runway Frames 图像生成模型能够生成风格统一且多样化的图像变体,并支持复杂场景的高保真渲染。该模型提供了强大的风格控制能力,用户可以精确定义并保持所需的视觉风格,从而助力创作者构建连贯的视觉叙事。 

使用入口:Runway 网站已面向 Unlimited 和企业订阅用户开放。 

 

https://runwayml.com/worlds-of-frames 

 

 

【应用】

腾讯

朱雀大模型鉴别 AI 生成的文本/图片 

腾讯朱雀实验室开发了一款名为「朱雀大模型」的 AI 生成内容鉴别系统,能够快速帮助用户识别文本和图片是否由 AI 生成的。朱雀大模型通过分析文本的写作风格和结构特征,以及捕捉真实图片与 AI 生成图片之间的差异(如不符合常识逻辑、隐层特征、水印等),判断内容是否由 AI 生成的。 

使用入口:前往官网(/matrix.tencent.com/ai-detect)体验。 

 

🔍官方介绍 

 

 

【新闻】

Perplexity AI

收购职业社交平台 Read.cv 

Read.cv 成立于2021年,主要为用户提供简历展示和社交互动功能,并为企业提供招聘服务。在此次被 Perplexity 收购后,Read.cv 团队将加入 Perplexity,并逐步停止 Read.cv 的独立运营。 

此前,Perplexity 已完成对 Carbon 和 Spellwise 的收购,分别用于增强企业搜索能力和开发移动应用。 

 

https://read.cv/a-new-chapter 

 

 

 

1月20日

 

【模型】

深度求索

DeepSeek-R1 推理模型(开源) 

DeepSeek-R1 是一款高性能的开源推理模型,在数学、代码、自然语言推理等任务上表现出色,性能媲美 OpenAI 的 o1 模型。DeepSeek-R1 已开源(github.com/deepseek-ai/DeepSeek-R1),并提供了 6 个小模型(如 32B 和 70B 模型),这些小模型在多项任务上达到了对标 OpenAI o1-mini 的水平。 

使用入口:前往官网(chat.deepseek.com)或移动 App 体验;调用 API;或者本地部署。 

 

不仅开源了模型权重,还开源了训练方法,开启了新的推理模型时代 💪 

🔍官方介绍 

 

 

【模型】

月之暗面

Kimi k1.5 多模态思考模型发布 

Kimi k1.5 是一款多模态思考模型,具备卓越的多模态推理能力和通用推理能力。它能够同时处理和分析来自文本、图像、声音等不同模态的信息,提供全面且精准的理解与知识。 

在短思考模式(short-CoT)下,Kimi k1.5 在数学、代码、视觉多模态、通用能力方面大幅超越了短思考 SOTA 模型(GPT-4o 和 Claude 3.5 Sonnet);在长思考模式(long-CoT)下,其性能达到了长思考 SOTA 模型 OpenAI o1 正式版的水平。 

使用入口:技术报告已公开,但模型本身尚未完全开源;前往官网(kimi.moonshot.cn)或移动 App 体验模型预览版本。 

 

R1 不支持多模态,但 k1.5 支持 👍 

🔍官方介绍 | 🔍技术解读 

 

 

【模型】

阶跃星辰

Step-2 mini 和 Step-2 文学大师版发布 

Step-2mini 是一款轻量级模型,仅用 3% 的参数量就实现了 Step-2 大模型 80% 以上的性能,生成速度更快,性价比极高,非常适合对高效、低成本处理有需求的用户。 

Step-2 文学大师版 则专为内容创作而设计,继承了 Step-2 广博的知识储备和对文字细节的精准把控能力,能够生成逻辑严密且富有深度的文学作品。 

使用入口:Step-2 mini 已开放 API 接口;Step-2 文学大师版已上线跃问官网(yuewen.cn)或移动 App。 

 

🔍官方介绍 

 

 

【应用】

字节跳动

Trae 辅助编程应用上线 

Trae 是一款由 AI 驱动的辅助编程工具,集成并可以免费使用 GPT-4o 和 Claude-3.5-Sonnet 等前沿 AI 模型,具备智能代码补全、实时优化、基于 Agent 的编程以及多模态交互(例如上传图片生成代码)等多项功能。 

使用入口:Trae 提供简体中文和英文界面,支持 Windows 和 Mac 系统,海外用户可访问官网(trae.ai)下载并安装,国内用户访问(trae.com.cn)。 

 

免费版 Cursor 的代价是什么呢,贡献所有代码 ❓ 

https://docs.trae.ai/docs/what-is-trae 

 

 

 

1月21日

 

【模型】

阶跃星辰

Step-1o Vision 多模态理解大模型发布 

Step-1o Vision 是阶跃星辰 Step-1o 多模态理解大模型系列中的视觉版本,融合了文本、视觉和语音的处理能力。它能够精准识别图片中的细节,并基于图片内容进行深入的视觉信息提取与推理。此外,升级后的 Step-1o Audio 模型在情绪感知与理解、多语种与多方言支持,以及通话体验方面均取得了显著突破。 

使用入口:前往跃问网页端(yuewen.cn)或移动 App 体验。 

 

🔍官方介绍 

 

 

【视频】

智谱 AI

清影 2.0 视频生成模型发布 

智谱清影 2.0 在画面稳定性、复杂语义理解、动作自然度方面实现了显著提升,能够生成画面精美、稳定可控的视频内容,并支持生成带有音乐的视频片段。 

使用入口:底层模型 CogVideoX 已开源;可以前往官网(chatglm.cn/video)或移动 App 体验。 

 

🔍官方介绍 

 

 

【3D】

腾讯 – 混元

Hunyuan3D-2.0 3D 视觉模型(开源)&& 一站式 3D 内容创作平台上线 

Hunyuan3D-2.0 是一款开源的 3D 视觉生成模型,它在几何和纹理两个关键方面进行了显著升级。几何大模型能够精准捕捉 3D 物体的形状、结构和空间关系,生成基础的白模;而纹理大模型则可以根据文字或图片描述,为这些白模“穿上”各种高清纹理,让模型更加逼真。 

腾讯混元 3D 是腾讯推出的一站式 3D 内容生产AI创作平台,支持文生 3D 和图生 3D 两种模式,能够高效生成 3D 资产。用户还可以借助 3D 风格化、渲染打光、骨骼绑定和动作驱动等编辑工具,灵活调整模型效果。 

使用入口:可以前往官网(3d.hunyuan.tencent.com)体验。 

 

🔍官方介绍 

 

 

【新闻】

OpenAI x SoftBank x Oracle

Stargate 未来四年将投资 5000 亿美元建设 AI 基础设施 

OpenAI、日本软银(SoftBank)和美国甲骨文(Oracle)联合成立了一家名为 Stargate(星际之门)的新公司,并计划在未来四年内投资 5000 亿美元用于建设 AI 基础设施。 

这一项目被称为 Stargate Project,旨在通过大规模的数据中心和 AI 基础设施建设,推动美国在全球人工智能领域的领导地位。🔍理性看待星际之门 

 

后续补充:两周之后,OpenAI 与 SoftBank 在日成立合资企业「SB OpenAI Japan」。SoftBank 每年投入 30 亿美元,利用 OpenAI 的技术独家为日本企业提供「Cristal intelligence」定制化 AI 服务。 

 

相关事件: 

  • 1月3日:Microsoft 宣布于 2025 财年投资 800 亿美元用于建设能够支持人工智能的数据中心。
  • 1月7日:Amazon 宣布将在乔治亚州投资至少 110 亿美元扩展数据中心基础设施。
  • 1月13日,OpenAI 发布《OpenAI’s Economic Blueprint》报告,呼吁美国政府加大对人工智能基础设施的投资,以确保美国在全球人工智能领域的领先地位。
  • 1月25日:Meta 宣布将在 2025 年投资 600 至 650 亿美元建设超大规模的数据中心。
  • 2月24日:Apple 宣布未来四年投资 5000 亿在美发展 AI 和基础研究。
  • ……

 

最后落地多少呢 ❓ 

https://openai.com/index/announcing-the-stargate-project 

 

 

 

1月22日

 

【模型】

字节跳动-豆包

Doubao-1.5-pro 基础模型发布 

Doubao-1.5-pro 是豆包全新的基础模型,能力全面升级,尤其在多模态能力方面表现突出。Doubao-1.5-pro 还推出了豆包·实时语音模型,支持端到端的语音对话,具备低时延、随时打断和自然情绪表达等特性,显著提升了语音对话体验。 

使用入口:豆包 App;开发者也可在火山引擎直接调用 API。 

 

非常优秀的基础模型,可以期待一下豆包的推理模型 🧐 

https://team.doubao.com/doubao_1_5_pro 

 

 

【模型】

网易有道

子曰-o1 推理模型(开源) 

子曰-O1 推理模型是国内首个支持分步讲解的思维链模型,能够提供清晰的解题步骤和中文逻辑推理。模型参数规模为 14B,可在消费级显卡上轻松部署。 

使用入口:开源(huggingface.co/netease-youdao/Confucius-o1-14B);或在 Demo 网页(confucius-o1-demo.youdao.com)体验。 

 

🔍官方介绍 

 

 

【视频】

阶跃星辰

Step-Video V2 视频生成模型发布 

Step-Video V2 专注于文生视频任务,相比前代模型,其语义理解能力、指令遵循精度、视觉想象力都有显著提升。模型支持用户通过中英双语输入文本指令,支持生成视频中有指定文字,支持复杂运动的模拟,同时支持对镜头语言、画面风格等细节的定制化调整。 

使用入口:前往跃问网页端(yuewen.cn/videos)或移动 App 体验。 

 

阶跃也是全方位发展型选手 👍 

🔍官方介绍 

 

 

【应用】

科大讯飞

星火飞码 iFlyCode 编程智能体发布 

iFlyCode 是基于星火认知大模型开发的智能编程助手,具备代码生成、代码补齐、代码纠错、代码解释以及单元测试生成等核心功能。兼容多种主流编程语言,如 Python、Java、C++ 和 JavaScript,并支持一键安装 VS Code、IntelliJ IDEA 等主流 IDE 插件,能够无缝集成到开发环境中。 

使用入口:前往官网(iflycode.xfyun.cn)下载体验。 

 

🔍官方介绍 

 

 

【应用】

商汤

秒画趣拍 App 创意影像应用上线 

秒画趣拍是一款创意影像应用,支持图片换脸、视频换脸以及滤镜特效等多种功能。用户只需上传一张正脸照片,就能借助丰富的模板,快速生成高质量的艺术写真或视频。 

使用入口:通过应用商店下载,目前仅支持 iOS 系统;也可以在官网(miaohua.sensetime.com)体验。 

 

🔍官方介绍 

 

 

【应用】

妙鸭相机

增加动态 Live 写真功能(2.0 版本) 

妙鸭相机是一款智能摄影应用,专注于为用户提供高质量的图像生成与美化服务。近期升级的 2.0 版本新增了动态 Live 写真功能,用户只需上传 4 张照片,就能生成一段生动的动态写真,并可自由选择主题模板和背景音乐。 

使用入口:应用商店下载,支持 iOS 和 Android 系统。 

 

AI 生成的视频确实非常适合 Live 图,因为时长很短 🎴 

🔍官方介绍 

 

 

【应用】

Perplexity AI

Sonar 生成式搜索 API 产品 

Sonar 是一款生成式搜索 API 产品,能够为企业和开发者提供集成化的搜索功能解决方案。Sonar 分为两个版本:基础版适合轻量级应用,而专业版(Pro)则支持更复杂的多步骤查询、更长的上下文窗口和更高的引用次数,适用于需要深入分析和处理后续问题的企业级场景。 

使用入口:注册并获取 API 密钥可以快速接入 Sonar。 

 

把原来名字中的 llama-3.1 去掉了,看来是想开启属于自己的 AI 模型系列了 🔍 

https://sonar.perplexity.ai 

 

 

 

1月23日

 

【模型】

Hugging Face

SmolVLM-256M 和 SmolVLM-500M 两款多模态理解模型(开源) 

SmolVLM-256M 参数量只有 0.256B,被誉为「全球最小的视觉语言模型」,能够在内存低于 1GB 的设备上运行,适用于移动平台和资源受限的环境。它能够处理图像和文本输入,生成文字输出,广泛应用于图像描述、短视频字幕生成、PDF 处理等任务。 

SmolVLM-500M 参数量 0.5B,单张图片推理时仅需 1.23GB 的 GPU 显存,在性能和资源需求之间实现了平衡,适合企业级应用。它在文档问答(DocVQA)和多学科多模态理解(MMMU)等任务中表现出色。 

 

https://huggingface.co/blog/smolervlm 

 

 

【应用】

智谱 AI

GLM-PC v1.1 智能体开放体验 

GLM-PC 是全球首款面向公众的即开即用电脑智能体,能够像人类一样「观察」和「操作」计算机,帮助用户高效完成各类电脑任务。GLM-PC v1.1 在原有功能的基础上新增了「深度思考」模式,进一步强化了逻辑推理和代码生成能力。 

使用入口:前往官网(cogagent.aminer.cn)下载,目前支持 Mac 和 Windows 操作系统。 

 

🔍官方介绍 

 

 

【应用】

JetBrains

Junie 辅助编程工具开放申请 

Junie 是 JetBrains 推出的一款全新 AI 编程工具,目前支持 IntelliJ IDEA Ultimate 和 PyCharm Professional,并计划在未来扩展到 WebStorm。 

Junie 以开发者为中心,每次代码修改和建议都需要经过开发者审核,确保代码符合团队的风格和规范,生成风格一致的代码,从而提升代码的可读性和维护性。 

 

https://www.jetbrains.com/junie 

 

 

【新闻】

DeepSeek

创始人梁文峰参加总理座谈会并发言 

国务院总理李强主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。DeepSeek 创始人梁文峰发言。 

 

DeepSeek 出圈标志性事件 🔥 

https://www.gov.cn/yaowen/liebiao/202401/content_6927788.htm 

 

 

【新闻】

美国白宫

发布《消除美国在人工智能领域领导地位的障碍》的行政命令 

美国白宫(特朗普当局)发布了一项名为《消除美国在人工智能领域领导地位的障碍(Removing Barriers to American Leadership in Artificial Intelligence)》的行政命令,旨在为美国在人工智能领域的全球领导地位扫清障碍。 

该行政命令废除了拜登政府于 2023 年 10 月 30 日发布的第 14110 号行政令,并要求联邦机构重新审查基于该命令制定的相关政策。新行政命令强调,通过减轻监管负担和推动自由市场的创新,来进一步巩固美国在全球人工智能领域的领先地位。 

 

https://www.whitehouse.gov/presidential-actions/2025/01/removing-barriers-to-american-leadership-in-artificial-intelligence 

 

 

【新闻】

中国银行

宣布为 AI 全产业链提供不少于一万亿元的金融支持 

中国银行在京发布《支持人工智能产业链发展行动方案》,宣布将在未来五年为人工智能全产业链各类主体提供不少于一万亿元专项综合金融支持。其中股、债合计不低于3000亿元,同时建立与人工智能技术创新相适配的专项制度保障,服务产业链各环节金融需求。 

 

中国版星际之门  

https://www.bankofchina.com/aboutboc/bi1/202501/t20250123_25254674.html 

 

 

【新闻】

字节跳动 – 豆包

启动 Seed Edge 长期研究计划 

Seed Edge 是字节跳动豆包大模型团队内部组建的 AI 长期研究计划,以寻找通用智能的新方法为工作目标,鼓励项目成员探索更长周期的、具有不确定性和大胆的 AI 研究课题。 

Seed Edge 研究方向包括:探索推理能力的边界、探索感知能力的边界、探索下一个 Scaling 方向、探索下一代学习范式、探索软硬一体的下一代模型设计。 

 

字节在基础研究领域的努力是非常值得肯定的 👍 

https://team.doubao.com/zh/seed-edge 

 

 

融资

StackBlitz(Bolt.new)

完成 1.055 亿美元 B 轮融资 

Bolt.new 宣布完成 1.055 亿美元($105.5M)B 轮融资,由 Emergence 和 GV 领投,Madrona、The Chainsmokers(Mantis)、Conviction 等机构跟投,资金将用于团队建设和产品升级。 

其母公司 StackBlitz 是一家成立于 2017 年的美国科技公司,专注于基于浏览器的 Web 开发工具,核心产品包括 StackBlitz 和 2024 年 10 月推出的 AI 编程助手 Bolt.new。 

 

此轮融资后,Bolt 母公司估值 7 亿美金,相比于 Cursor  25 亿,说明半自动编程还是更吃香一点 💰 

https://x.com/ericsimons40/status/1882106925795696674 

 

 

 

1月24日

 

【应用】

Perplexity AI

Perplexity Assistant 智能助手上线 

Perplexity Assistant 是一款多模态智能助手,能够通过文本、语音以及摄像头等多种交互方式,轻松完成撰写邮件、设置提醒、预订晚餐、叫车、播放音乐等日常任务。 

它之所以如此强大,是因为能够识别屏幕内容或通过摄像头捕捉现实场景,并与主流应用(如 Spotify、YouTube 和 Uber)深度集成,还能实现跨应用操作。目前、仅支持 Android 系统。 

 

看来 Perplexity 不只想做一个搜索应用  

https://x.com/perplexity_ai/status/1882466239123255686 

 

 

【应用】

阶跃星辰

「创意板」功能上线跃问 App 

用户只需输入简单的文本或语音指令,创意板就能迅速生成一个小应用,比如趣味游戏、互动网页、实用工具或可视化图表等,无需任何编程基础。 

使用入口:前往跃问移动 App 体验。 

 

迟来了很久的 Artifacts 功能 

🔍官方介绍 

 

 

【应用】

OpenAI

Operator 首款真正模拟人类操作网页浏览器的 AI 智能体 

Operator 可以基于自然语言指令完成复杂任务,如预订住宿、预约餐厅和在线购物等。它具备推理能力,遇到问题会自我修正,若无法解决则交还用户处理。 

Operator 的技术基础是 CUA(Computer-Using Agent)模型,能够理解网页内容并规划操作步骤,然后直接通过鼠标和键盘与网页交互,无需依赖 API。 

使用入口:面向 ChatGPT Pro 用户开放。 

 

Operator 操作的不是你的电脑,而是远程的虚拟机 

https://openai.com/index/introducing-operator 

 

 

【应用】

Refly

自由画布式 AI 原生创作工具(开源) 

Refly 是一款基于「自由画布」理念的 AI 原生创作工具,通过多线程对话、知识库整合、上下文记忆、智能搜索等功能,帮助用户将创意快速转化为高质量内容。 

使用入口:前往官网(refly.ai)注册体验;也可以自托管部署。 

 

https://github.com/refly-ai/refly 

 

 

【应用】

GenSprk

Deep Research(深度研究)功能上线 

Genspark 是一款 AI 搜索引擎。Deep Research(深度研究)功能通过整合多个顶级 AI 模型的能力,实现模型之间的互补和交叉验证,提供高效、准确且全面的研究服务。 

使用入口:前往官网(genspark.ai)体验。 

 

https://www.genspark.ai/agents 

 

 

 

1月26日

 

【模型】

智谱 AI

GLM-4V-Plus-0111 beta 图像和视频理解模型 

GLM-4V-Plus-0111 beta 模型具备卓越的图像和视频理解能力,能够广泛兼容从低分辨率到 4K 超高清的多种视频格式,并支持长达两小时的视频处理。 该模型具备强大的时间感知能力,能够精准捕捉视频中的关键事件和动作,适用于复杂多媒体分析场景,包括视频描述生成、事件分割、分类、标签标注、事件分析等。🔍官方介绍 

使用入口:已上线智谱开放平台(bigmodel.cn),可以调用 API。 

 

 

【新闻】

冯骥盛赞 DeepSeek

称其「可能是国运级别的科技成果」 

《黑神话:悟空》制作人冯骥发微博推荐 DeepSeek,赞誉其为「国运级别的科技成果」,称赞「太幸运了!太开心了!这样震撼的突破,来自一个粹的中国公司。知识与信息平权,至此又往前迈出了坚实的一步。」这条微博进一步推升了 DeepSeek 的国民热度。 

 

次日,DeepSeek 公众号发布新春贺词:🔍金鳞耀岁,共启新程 

灵思常驻,敏行致远,运承辰龙之盛; 

福泽盈门,嘉年顺遂,心纳万象皆春。 

 

R1 爆火出圈的一个助推器 🔥 

https://weibo.com/6603744955/5127209872004396 

 

 

 

1月27日

 

【模型】

阿里巴巴 – 千问

Qwen2.5-1M 长上下文模型(开源) 

Qwen2.5-1M 开源了 7B 和 14B 两种模型尺寸,并首次将上下文长度扩展至 100 万 token。在处理长文本任务时,它表现出色,稳定超越了 GPT-4o-mini。 

此外,Qwen2.5-1M 还开源了推理框架。借助稀疏注意力机制和基于 vLLM 的推理架构,该框架在处理百万级长文本输入时,可实现近 7 倍的加速。 

 

模型参数小,部署要求可是一点都不低 👨‍💻 

https://qwenlm.github.io/blog/qwen2.5-1m 

 

 

【时间线】

七日干碎美股 9 万亿

🧵 DeepSeek 破圈时间线超级完整回顾 

这是 @和AI一起进化 整理的一条时间线,基于微信指数、百度指数、谷歌指数,以及推特 110 条热度破百万的帖子,综合整理分析得出的一条「DeepSeek 破圈」时间线: 

  • 1月20日:R1 正式发布,ollama 支持本地部署,Jim fan 夸赞技术过硬和开源。
  • 1月21日:小参数模型的本地部署和高性价比。
  • 1月22日:公开思维链引发好奇和自传播,端侧部署引起关注。
  • 1月23日:在 DeepSeek 低成本对比下,美国 AI 公司开始慌了。
  • 1月24日:开始讨论 DeepSeek 对美国 AI 公司和股市的冲击。
  • 1月25日:开始有更多的技术探讨和成本探讨,开始有人讨论对 NVIDIA 的冲击。
  • 1月26日:DeepSeek 登上苹果登榜,越来越多人讨论对美股的冲击。
  • 1月27日:DeepSeek 荣登苹果榜一,干崩纳斯达克 1.2 万亿刀

 

经此一役R1 正式被捧上神坛 

🔍原文@和AI一起进化 

 

 

 

1月28日(除夕)

 

【模型】

阿里巴巴 – 千问

Qwen2.5-VL 视觉理解模型(开源) 

Qwen2.5-VL 视觉理解模型开源了 3B、7B 和 72B 三个版本,其功能强大,不仅能精准解析图像内容,还能理解时长超过 1 小时的超长,并视频支持复杂操作(例如手机控制、电脑修图和视频事件捕捉等),显著提升了 AI 在视觉理解和多模态任务中的表现。 

使用入口:开源模型;可以在 Qwen Chat(chat.qwen.ai)体验。 

 

这三个模型(3B、7B 和 72B)会大大推动多模态模型的应用 

https://qwenlm.github.io/blog/qwen2.5-vl 

 

 

【图像】

DeepSeek

Janus-Pro-7B 多模态模型(开源) 

Janus-Pro-7B 是一款开源的多模态模型,专注于视觉理解和图像生成任务。该模型拥有 70 亿参数,在 GenEval 和 DPG-Bench 两项基准测试中,准确率分别达到了 80% 和 84.2%,超越了 DALL-E 3 和 Stable Diffusion 3 等知名模型。 

 

🔍专业解读 

 

 

【视频】

MiniMax

Hailuo T2V-01-Director 视频生成模型 

T2V-01-Director 能够通过自然语言指令精准控制摄像机的运动,实现推近、跟踪和流畅过渡等效果,从而让生成的视频呈现出专业电影级的视觉质感。 

使用入口:前往官网(hailuoai.com/video)体验,或通过 API 调用。 

 

Minimax 继续在视频控制上深耕 

https://x.com/Hailuo_AI/status/1884176446702428568 

 

 

【新闻】

2025 年央视春晚

宇树机器人扭秧歌转手绢火爆出圈 

2025 年央视春晚于 1 月 28 日(除夕夜)晚 8 点正式播出,主题为「巳巳如意,生生不息」。 

张艺谋导演的机器人舞蹈节目《秧BOT》引发了国内外的广泛关注。这次表演由宇树科技研发的人形机器人和新疆艺术学院演员们共同完成。机器人身着传统服饰,手持红手绢,跳起了中国传统的秧歌舞。它们不仅动作流畅协调,还完成了转手绢、抛手绢等高难度动作,令人惊叹不已。 

 

人形机器人也出圈了 🔥 

🔍节目单 | 🔍春晚硬科技盘点 

 

 

 

1月29日(初一)

 

【模型】

阿里巴巴 – 千问

Qwen2.5-Max 超大规模 MoE 模型 

Qwen2.5-Max 是新一代的超大规模 MoE 模型,具备卓越的综合性能,全面超越了目前全球领先的开源 MoE 模型 DeepSeek-V3 和最大的开源稠密模型 Llama-3-1.405B。它不仅拥有强大的语言处理能力,还具备出色的多模态处理能力,支持超过 29 种语言,并且配备了高达 128K 的上下文长度,能够高效处理长序列任务。 

使用入口:前往 Qwen Chat(chat.qwen.ai)体验,或通过阿里云百炼平台直接调用 API 服务。 

 

对标 DeepSeek V3 

https://qwenlm.github.io/blog/qwen2.5-max 

 

 

【新闻】

AI 春晚

2025 乙巳年人工智能春节联欢晚会 

大年初一晚 17 点 30 分,第二届 AI 春晚如约而至,近 1000 名 AI 爱好者为观众带来了一场集非遗传承、人文哲思、社会纪实与 AI 视觉盛宴于一体的精彩晚会。整场晚会长达 210 分钟,吸引了数百万直播观众与数千万曝光,再次展现了AI技术的魅力与无限可能。 

 

https://www.aichunwan.com | 🔍节目单 

 

 

 

1月30日

 

【模型】

Mistral AI

Mistral Small 3 低延迟模型(开源) 

Mistral Small 3(Mistral-Small-24B-Instruct-2501)模型在多语言支持、对话式 AI、低延迟自动化、专业领域知识处理(例如医疗诊断、法律咨询)以及本地推理等场景中表现出色。该模型拥有 24B 参数,性能却能与更大规模的模型(如 Llama 3.3 70B 或 Qwen 32B)相媲美,可以作为 GPT-4o-mini 等闭源专有模型的开源替代方案。 

 

https://mistral.ai/news/mistral-small-3 

 

 

【新闻】

AI 音乐春晚

2025 蛇年春节 AI 音乐晚会 

大年初二晚上,AI 音乐春晚全网首播,这是全球首个 AI 音乐主题的春节晚会。整场晚会 170 分钟,由AIGCxChina、温州市社科联、AI春晚团队等主办单位与全网 300 多位 AI 爱好者共同完成。 

 

🔍节目单 

 

 

 

1月31日

 

融资

ElevenLabs

完成 1.8 亿美元 C 轮融资 

ElevenLabs 完成 1.8 亿美元($180M)C 轮融资,由 Andreessen Horowitz(a16z)和 Iconiq Growth 联合领投,NEA、World Innovation Lab (WiL)、Sequoia Capital、Salesforce Ventures 等跟投,资金将用于技术研究与产品开发。 

ElevenLabs 成立于 2022 年,专注于生成式 AI 语音技术,致力于开发高质量、逼真的语音合成和克隆技术。 

 

估值超 30 亿美元,看来 AI 语音的市场是非常受到资本认可的 💰 

https://elevenlabs.io/ja/blog/series-c 

 

 

 

2月1日

 

【模型】

OpenAI

o3-mini 推理模型发布(以及一系列后续调整) 

o3-mini 是 OpenAI o3 系列的首个模型,适用于复杂数学问题求解、代码生成与调试、科学推理等场景。它提供了低、中、高三种推理强度选项,开发者可以根据具体需求灵活选择,从而在性能和成本之间实现最佳平衡。此外,o3-mini 还支持联网搜索功能,能够提供最新答案并链接至相关网络资源,进一步提升推理分析的质量和准确性。 

使用入口:已上线 ChatGPT(点击 Reason 即可开始使用)和 API。 

 

后续相关事件时间线: 

  • 2月7日:OpenAI 公开 o3-mini 思维链,以及 o3-mini-high 付费用户的思链。
  • 2月13日:OpenAI o1 和 o3-mini 支持在 ChatGPT 中上传文件和图像,并将 Plus 用户 o3-mini-high 的使用上限提高到 50 次。

 

如果不是 R1,OpenAI 会这么快发布 o3  

https://openai.com/index/openai-o3-mini 

 

 

【新闻】

OpenAI

Sam Altman 称 DeepSeek-R1 令人印象深刻,将重新考虑开源战略 

在 Reddit AMA(Ask Me Anything)活动中,OpenAI 首席执行官 Sam Altman、首席产品官 Kevin Weil 以及其他多位高管,用文字回答了评论区的各种问题。 

当被问及是否会开源模型权重或发表研究结果时,Sam Altman 表示:我们可能站在了历史错误的一边,正在考虑一种不同的开源策略。 

在谈到对 DeepSeek 的评价时,Sam Altman 给予了肯定,并预告 OpenAI 即将推出更优秀的模型。他还强调,OpenAI 在当前的竞争中依然保持着小幅领先。 

 

Q: Would you consider releasing some model weights, and publishing some research? 

Sam Altman: yes, we are discussing. i personally think we have been on the wrong side of history here and need to figure out a different open source strategy; not everyone at openai shares this view, and it’s also not our current highest priority. 

Kevin Weil: We have done this in the past with previous models, and are def considering doing more of it. No final decisions yet though! 

 

Q: Let’s address this week’s elephant, Deepseek. Obviously a very impressive model and I’m aware it was likely trained on other LLM output. How does this change your plans for future models? 

Sam Altman: it’s a very good model! we will produce better models, but we will maintain less of a lead than we did in previous years. 

 

还能「小幅领先」多久呢 🧐 

https://www.reddit.com/r/OpenAI/comments/1ieonxv/ama_with_openais_sam_altman_mark_chen_kevin_weil 

 

 

 

2月2日

 

【时间线】

国内主流云厂商

🧵 接入 DeepSeek R1 时间线整理 

以下整理了国内最主流的云厂商接入 DeepSeek R1 模型的时间线。9天时间内全部完成,这是非常令人震撼的中国速度,在 R1 问世之前是难以想象的: 

  • 2月1日🔍硅基流动×华为云🔍(电信)天翼云
  • 2月2日🔍腾讯云
  • 2月3日🔍百度智能云🔍超算互联网🔍联通云
  • 2月4日🔍火山引擎
  • 2月5日🔍移动云
  • 2月9日🔍阿里云百炼

 

 

 

2月3日

【应用】

OpenAI

Deep Research(深度研究)功能上线 ChatGPT 

Deep Research(深度研究)能够整合多源信息,进行复杂的信息查询与分析,并生成一份专业水准的报告,同时详细展示思考和搜索过程。目前,该功能仅支持文本输出,未来还将增加嵌入式图片、数据可视化等功能。 

使用入口:在 ChatGPT 输入框中选择「Deep Research」模式,输入问题后即可开始体验。 

 

算是 AI 应用的最佳实践之一了 ⚙ 

https://openai.com/index/introducing-deep-research | 🔍赛博禅心测评 

 

 

 

2月4日

 

【应用】

HuggingFace

Open Deep Research 极限 24 小时复现 OpenAI Deep Research(开源) 

在 OpenAI 推出「Deep Research」功能仅仅一天后,Hugging Face 的五名工程师便迅速联合推出了一个免费开源的版本:Open Deep Research,能自主浏览网页、滚动页面、处理文件,以及基于数据进行计算。 

使用入口:前往 Demo 网站(opendeepresearch.vercel.app)体验。 

 

其实 Deep Research 并不是新鲜事,一年前就有不少类似的实现,只不过不叫这个名字 📜 

https://huggingface.co/blog/open-deep-research 

 

 

 

2月5日

 

【模型】

Google

Gemini 2.0 系列大模型发布(和升级) 

Gemini 2.0 Pro Experimental:支持 200 万 token 的超大上下文窗口,特别擅长代码生成和复杂提示处理,具备强大的工具调用能力,可无缝对接 Google Search 和代码执行工具。 

Gemini 2.0 Flash:支持 100 万 token 的上下文窗口,支持多模态输入和输出,适用于处理长文本和复杂对话,速度是前代模型的两倍。 

Gemini 2.0 Flash Thinking Experimental:基于 Gemini 2.0 Flash 的推理模型升级版本。它不仅提升了推理能力,还能展示思考过程帮助用户更好地理解模型的决策逻辑。 

Gemini 2.0 Flash-Lite:被称为「最具成本效益」的模型,在保持与 1.5 Flash 相同速度和成本的基础上,在大多数基准测试中超越了 1.5 Flash。它支持 100 万 token 的上下文窗口和多模态输入,适用于大规模文本输出场景。 

使用入口:已通过 Google AI Studio 和 Vertex AI API 正式发布。 

 

性价比最高的模型 👍 

https://developers.googleblog.com/en/gemini-2-family-expands 

 

 

【新闻】

360

澄清暂未向 DeepSeek 提供任何服务 

三六零安全科技股份有限公司发布《股票交易异常波动公告》澄清:在 DeepSeek 基于 MIT 开源协议的生态环境下,旗下的部分产品进行了 DeepSeek 的接入与本地化部署;暂未向 DeepSeek 提供任何服务 

 

https://www.sse.com.cn/disclosure/listedinfo/announcement/c/new/2025-02-06/601360_20250206_30G7.pdf 

 

 

 

2月7日

 

【应用】

ElevenLabs

Studio 长篇文本转音频编辑器全面开放 

Elevenlabs Studio(原名 Projects)有着强大的长篇音频生成和编辑功能,支持用户导入电子书、网页、纯文本等多种格式的文档,并可进行文本编辑、声音参数设置以及音频调整。 

除此之外,Studio 还具备灵活的音频处理功能,用户可以为不同文本片段切换角色声音,插入停顿,调整语速和音调,从而精准地把控音频的节奏与情感表达。结合 Elevenlabs 丰富的语音库,创作者能够轻松打造出精彩的有声书、配音、文章朗读、播客等作品。 

使用入口:前往官网(elevenlabs.io/studio)体验。 

 

经典的 AI 语音使用案例之一 ⚙ 

https://elevenlabs.io/blog/studio-is-now-available-to-everyone 

 

 

 

2月10日

 

【模型】

上海人工智能实验室

书生 InternVideo2.5 视频理解模型(开源) 

书生 InternVideo2.5 模型的物体识别、场景理解、动作分析、物体间关系推理能力非常强大。它不仅能精准定位短视频中的目标,更能在长达万帧的视频中高效提取关键信息,实现如同「大海捞针」般的精准检索。 

 

🔍官方介绍 

 

 

【新闻】

巴黎人工智能行动峰会

美英拒绝签署巴黎 AI 行动峰会声明 

2025 年巴黎人工智能行动峰会(AI Action Summit)于 2 月 10 日至 11 日在法国巴黎大皇宫举行,吸引了来自全球 100 多个国家或/和地区约 1500 名参会者。峰会期间,参会者围绕人工智能技术及其应用进行了深入交流,并通过了《发展包容、可持续的人工智能造福人类与地球的声明》,呼吁推动「开放、包容、透明、合乎道德、安全、可靠」的人工智能发展。 

然而,美国反对欧盟对人工智能监管的严格要求,而英国则以「不符合国家利益」为由,拒绝签署该宣言。这一决定引发了国际社会广泛的讨论。峰会最终有 61 个国家签署了该宣言,包括法国、中国和印度等国。 

 

https://www.elysee.fr/en/sommet-pour-l-action-sur-l-ia 

 

 

【新闻】

法国

政府积极扶持 Mistral AI,并计划投入千亿欧元建设 AI 数据中心 

在巴黎人工智能行动峰会上,法国总统马克龙接受 CNN 采访时表示,欧洲在人工智能领域已经落后,正面临被美国和中国甩在身后的风险。他认为欧洲必须采取措施保护本土企业,并放宽投资限制,防止资金外流。 

此外,马克龙宣布了一项总额为 1090 亿欧元的人工智能投资计划,未来几年分批投入建设 AI 数据中心,与美国的「The Stargate」计划相呼应。与此同时,Mistral 公司也宣布将投资数十亿欧元,在法国埃松省建设一个 AI 集群,以提升基础模型的训练效率。 

 

补充:最近与法国 AI 有关的另一则消息是 Lucie,一款由法国政府支持的开源法语 AI 聊天机器人,因为问答效果差而上了国内的热搜。 

 

https://edition.cnn.com/2025/02/09/europe/france-macron-europe-ai-race-intl/index.html 

 

 

【应用】

Mistral AI

Le Chat 移动端 App 登上法国 iOS 效率榜第一名 

Le Chat 是 Mistral AI 推出的智能聊天助手,可以基于 Mistral 系列模型完成搜索、聊天、绘画、编程等常见任务。最近推出了移动端,因为得到了总统马克龙的支持和号召,法国人下载这一应用支持本土企业,一度将其推上了法国 iOS 效率榜第一名。 

使用入口:下载安装 iOS 或 Android 版本;国内用户也可以前往网页端(chat.mistral.ai)体验。 

 

https://mistral.ai/news/all-new-le-chat 

 

 

 

2月11日

 

【音频】

阿里巴巴 – 通义

InspireMusic 音乐生成工具包(开源) 

InspireMusic 是一款开源的 AIGC 工具包,研究人员和开发者能够轻松地训练和微调音乐、歌曲或音频生成模型,而音乐爱好者则可以通过文字描述或音频提示来创作属于自己的音乐、歌曲或音频。 

 

暂时只能生成纯音乐,离 Suno 还有很大的差距 🎵 

🔍官方介绍 

 

 

【新闻】

智谱 AI x 三星

三星 Galaxy S25 国行引入智谱 Agentic GLM 

三星最新发布的 Galaxy S25 系列国行手机引入了智谱 Agent 体验,能够支持基于 AI 的实时语音和视频通话,并实现了视觉理解、系统功能调用、AI 搜索、文案写作等功能。 

此外,三星 Galaxy S25 系列的海外版已将 Google Gemini 设置为默认助手。用户可以通过长按手机侧边按钮快速激活,完成语音交互、文本、图像、音频和视频处理等任务。 

 

🔍官方介绍 

 

 

 

2月12日

 

【视频】

Adobe

Firefly 业界首个对知识产权友好的视频生成模型 

Firefly 号称是「业界首个对知识产权友好、商业层面可安全使用」的视频生成模型。用户仅需输入文本或上传图像,就可以生成一段时长 5 秒的 1080p 高清视频。模型在动态景观、动物运动、天气模式和粒子效果等元素上表现出色,支持高级相机设置(如相机角度、拍摄角度和运动)和多种宽高比选择。 

使用入口:可以在 Adobe Firefly 网页端(firefly.adobe.com)和 Adobe Premiere Pro 的 Generative Extend 功能中体验。 

 

https://blog.adobe.com/en/publish/2025/02/12/meet-firefly-video-model-ai-powered-creation-with-unparalleled-creative-control 

 

 

融资

Harvey

完成 3 亿美元 D 轮融资 

Harvey 完成 3 亿美元($300M)D 轮融资,本轮融资由 Sequoia 领投,Coatue、Kleiner Perkins、OpenAI Startup Fund、GV、Conviction、Elad Gil 等跟投,资金将用于团队扩充、产品升级以及业务拓展。 

Harvey 成立于 2022 年,专注于利用 AI 技术助力法律服务,改善司法结果,主要面向大型律师事务所。 

 

估值 30 亿美元,AI在垂直领域的最佳实践之一 👍 

https://www.harvey.ai/blog/harvey-raises-series-d 

 

 

 

2月13日

 

【新闻】

Apple x 阿里巴巴 x 百度

苹果国行 AI 合作伙伴调整为阿里巴巴和百度 

苹果 AI 国行版已经确定与阿里巴巴及百度共同合作:阿里巴巴将作为核心合作伙伴,负责开发适配 iPhone、iPad 和 Mac 用户的本地设备端 AI 处理系统,并对 AI 生成内容进行过滤;百度则将负责视觉智能等功能,包括图像识别和网页信息检索。 

 

很好奇最后会生出什么样的「混血儿」 🧐 

https://technode.com/2025/02/14/apple-to-continue-partnership-with-baidu-collaborate-with-alibaba-on-ai-for-iphone 

 

 

 

2月14日

 

【3 D】

昆仑万维

Matrix-Zero 世界模型同时实现 3D 场景生成和可交互视频生成 

Matrix-Zero 是国内首个同时实现 3D 场景生成和可交互视频生成的 AI 模型,包含两个核心子模型: 

3D场景生成大模型 能够将用户输入的图片转化为真实合理的3D场景,支持全局一致性、风格迁移和动态场景生成,探索范围更广且自由度更高; 

可交互视频生成大模型 提供以用户输入为核心驱动的互动视频生成方案,支持实时交互、精准控制和多种视角切换,为用户提供沉浸式的互动体验。🔍官方介绍 

 

 

【应用】

Jina AI

DeepSearch(深度搜索)API 上线(开源) 

Jina DeepSearch 是一项基于推理大模型的深度搜索服务,可以在搜索时进行不断推理、迭代、探索、读取和归纳总结,直到找到最优答案为止。项目前后端均已开源。与 OpenAI 和 Gemini 不同,Jina DeepSearch 专注于通过迭代提供准确的答案,而不是生成长篇文章。它针对深度网络搜索的快速、精确答案进行了优化,而不是创建全面的报告。 

使用入口:官方深度搜索API 与 OpenAI API 架构完全兼容,前往官网(jina.ai/deepsearch)了解详情;或者前往应用页面(search.jina.ai)体验。 

 

非常值得研究的一个 Demo,完全开源 👍 

🔍专业解析 

 

 

 

2月15日

 

【应用】

Perplexity AI

Deep Research(深度研究)功能上线 

Perplexity 也推出了 Deep Research 功能,通过多轮交互、深度搜索和逻辑推理,最终生成一份结构化、准确且专业的研究报告。 

使用入口:在官网(perplexity.ai)输入框点击「Deep resrarch」选项卡即可开始体验。 

 

此功能支持 API 接入,B 端友好 👏 

https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research 

 

 

【应用】

Bolt + Expo

无需编程即可创建 iOS 和 Android 应用(覆盖从创意到发布全流程) 

Bolt 是一款基于 AI 的全栈 Web 开发平台,支持代码生成、实时预览和一键部署。而 Expo 是一个基于 React Native 的开源框架,专注于跨平台应用开发,能够实现快速开发与无缝发布。 

使用入口:访问 Bolt.new,选择 Expo 启动模板,输入文字描述后即可快速搭建 Web 应用原型;借助 Expo 可将其扩展为原生应用,实现跨平台覆盖。此外,通过 Expo 的 EAS 服务,还能将应用一键提交到应用商店,完成从创意到发布的全过程。 

 

全自动编程的风吹到了 App 领域了 💨 

https://expo.dev/blog/bolt-expo-integration-announcement 

 

 

 

2月16日

 

【新闻】

百度

官方宣布多款产品接入 DeepSeek R1 模型 

百度官方宣布旗下核心应用百度搜索百度地图接入 DeepSeek-R1 并完成深度融合! 

此外,根据百度官方预告,接下来将有一系列动作:3 月 16 日,文心大模型 4.5 版将正式上线(6 月 30 日起正式开源);4 月 1 日,文心一言全面免费,其深度搜索功能也将免费开放使用。 

 

R1 的爆火彻底影响了百度的 AI 战略 🔍 

🔍官方介绍 

 

 

【新闻】

腾讯

官方宣布多款产品接入 DeepSeek-R1 模型 

腾讯宣布官方宣布旗下核心应用元宝微信、ima、腾讯文档、QQ 浏览器、QQ 音乐、腾讯地图、腾讯元器、等,已经接入 DeepSeek 模型。 

此外,腾讯翻译君宣布将翻译服务迁至腾讯元宝应用,并于 3 月 13 日正式停止运营。 

 

 AI 领域一直慢悠悠的腾讯,这次动作非常快 ⚡ 

🔍官方介绍 

 

 

 

2月17日

 

【模型】

腾讯 – 混元

T1 推理模型上线腾讯元宝 App 

混元深度思考模型 Thinker(T1)是腾讯的首个自研推理模型,目前已经全量上线腾讯元宝。官方介绍时称「当前版本仍需完善打磨,期待通过用户反馈和场景验证,加速推出更成熟的 T1 正式版」。 

 

第一个国产仿 R1 模型,没想到是出自腾讯 💡 

🔍官方介绍 

 

 

【模型】

Mistral AI

Saba 区域性语言模型(专为中东&南亚地区定制) 

Mistral Saba 是一款专为中东和南亚地区设计的区域性语言模型,参数 24B,尤其擅长阿拉伯语和起源于印度的语言(如泰米尔语和马拉雅拉姆语),能精准处理细微差别和文化背景。 

使用入口:通过 API 快速接入,Mistral 也提供本地部署服务。 

 

专注小语种,打差异化,也是一条路 🗺 

https://mistral.ai/news/mistral-saba 

 

 

模型

小红书 x 上海交通大学

WorldSense 多模态大模型评估基准数据集 

小红书和上海交通大学联合推出 WorldSense,这是首个用于评估多模态大模型(MLLMs)在真实世界场景下全模态理解能力的全新基准数据集 。 

WorldSense 包含 1662 个视听同步视频,并配有 3172 个多选问答对,能够全方位评估 MLLMs 的多模态理解能力。 

 

https://jaaackhongggg.github.io/WorldSense | 🔍官方介绍 

 

 

模型

中文基于满血 DeepSeek-R1 蒸馏数据集 – 110K

数据集为中文开源蒸馏满血 R1 的数据集,总数量为 110K,不仅包含 math 数据,还包括大量的通用类型数据,分布如下: 

Math:共计 36987 个样本。 

Exam:共计 2440 个样本。 

STEM:共计 12000 个样本。 

General:共计 58573 个样本,包含弱智吧、逻辑推理、小红书、知乎、Chat 等。 

 

https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k | 🔍作者@NLP工作站 

 

 

【新闻】

习近平出席民营企业座谈会并发表重要讲话

中共中央总书记、国家主席、中央军委主席习近平在京出席民营企业座谈会。在听取民营企业负责人代表发言后,习近平发表了重要讲话。 

第一排民营企业家座次分别为:13号位曾毓群(宁德)、11号位马云(阿里)、9号位冷友斌(飞鹤)、7号位南存辉(正泰)、5号位王兴兴(宇树)、3号位刘永好(新希望)、1号位任正非(华为)、2号位王传福(比亚迪)、4号位虞仁荣(韦尔)、6号位雷军(小米)、8号位齐向东(奇安信)、10号位黄代放(泰豪)、12号位马化腾(腾讯)、14梁文峰(Deepseek)。 

 

对今年 AI 行业整体发展有重大利好 💪 


🔍官方介绍

 

 

2月18日

 

【模型】

xAI

Grok 3 系列模型发布 && DeepSearch 联网深度搜索上线 

Grok-3(Beta):作为 Grok 3 系列的核心模型,它专注于高性能推理和复杂任务处理,适用于数学推理、科学逻辑以及代码生成等场景。 

Grok-3 mini:这是轻量化版本,通过牺牲部分准确性来换取更快的响应速度,适合对实时性要求较高的场景。 

Grok-3 Reasoning(Beta)、Grok-3 mini Reasoning:这两个版本增强了推理能力,通过引入「思维链」技术,使模型能够像人类一样分步骤解决复杂问题,显著提升了逻辑连贯性和推理深度。 

使用入口:目前,Grok 3(Beta)模型已向 xAI 官网、Grok 网页版、移动 App 和 X 平台 Premium+ 订阅用户开放。使用时,选择「Think」模式能够展示模型的思考链路和思考时长;选择「DeepSearch」能够进行 AI 深度搜索,并提供透明化的推理过程。 

 

目前发布的第一个「十万卡集群」大模型 

https://x.ai/blog/grok-3 

 

 

模型

DeepSeek

NSA 稀疏注意力机制(论文) 

DeepSeek 论文《Native Sparse Attention:Hardware-Aligned and Natively Trainable Sparse Attention》提出了一种名为 NSA(Native Sparse Attention)的新型稀疏注意力机制,旨在解决「长文本」建模中的计算效率问题。 

传统的全注意力机制(Full Attention)在处理长序列时面临巨大的计算成本,稀疏注意力机制(Sparse Attention)通过减少不必要的计算,通过硬件对齐和本地可训练的设计,显著提升推理速度并降低预训练成本。 

 

「稀疏注意力」成为了模型工程优化的一个大趋势 👀 

https://arxiv.org/abs/2502.11089 | 🔍专业解读 🔍专业解读 

 

 

模型

月之暗面

MoBA 稀疏注意力框架(论文) 

月之暗面论文《MoBA: Mixture of Block Attention for Long-Context LLMs》提出了一种名为 MoBA 的稀疏注意力框架,旨在提升大语言模型在长文本处理中的效率和性能。 

MoBA 框架借鉴了 MoE 的理念,而且支持在全注意力和稀疏注意力之间无缝切换,使得与现有的预训练模型兼容性大幅提升。 

与DeepSeek的原生稀疏注意力机制(NSA)相比,MoBA在形式上更为简单,并且其上下文长度上限可达10M,而NSA的最长上下文长度为64K。 

 

 NSA 完全不同的思路 💡 

https://github.com/MoonshotAI/MoBA 

作者回答 → https://www.zhihu.com/question/12696635711/answer/105709816990 

 

 

【视频】

昆仑万维

SkyReels-V1 短剧视频生成模型(开源) 

SkyReels-V1 是国内首款专为 AI 短剧创作打造的视频生成模型,具备文生视频和图生视频两大功能,可显著简化传统短剧制作的复杂流程,大幅降低制作成本。该模型基于好莱坞级别的高质量影视数据进行训练,拥有电影级的光影美学效果,能够生成影视级的人物微表情表演,支持多达 33 种人物表情和 400 多种自然动作组合。 

使用入口:全面开源,可以通过 GitHub 获取模型和技术报告。获得通过 SkyReels(skyreels.ai)平台体验。 

 

🔍官方介绍 

 

 

【视频】

阶跃星辰 x 吉利汽车

Step-Video-T2V 视频生成模型(开源) 

Step-Video-T2V 是全球参数量最大、性能最强的开源视频生成大模型,在运动平滑性、美感度等关键指标上显著优于现有的开源视频模型。 

该模型拥有 300 亿参数,能够生成 204 帧、540P 分辨率的高质量视频。它在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入、镜头语言等方面表现卓越。 

使用入口:开源模型(github.com/stepfun-ai/Step-Video-T2V);可以通过跃问 App 进行体验。 

 

🔍官方介绍 | 🔍技术详解 

 

 

【音频】

阶跃星辰 x 吉利汽车

Step-Audio 语音模型(开源) 

Step-Audio 是业内首款产品级语音交互大模型,拥有 130B 参数,支持多语言、多方言以及多情感的语音生成,还能实现角色音色克隆和实时对话。 

使用入口:开源模型(github.com/stepfun-ai/Step-Audio);可以通过跃问 App 体验。 

 

🔍官方介绍 

 

 

【应用】

秘塔

Shallow Research(先想后搜)新型研究模式上线 

秘塔推出的「先想后搜」研究模式,采用了「小模型+大模型」的协同架构:DeepSeek R1 负责深度推理,首先完成框架思考和步骤拆解;随后秘塔自研模型接力,完成信息搜索和资料整合。团队将这种模式命名为浅度研究(Shallow Research)。 

使用入口:前往官网(metaso.cn)或移动 App,选择「研究 – 先想后搜」,即可体验。 

 

多模型配合会是一个新的趋势 🧐 

🔍官方介绍  

 

 

 

2月19日

 

模型

OpenAI

SWE-Lancer 更贴近现实的编程能力基准测试 

OpenAI 推出了 SWE-Lancer 基准测试,用于评估大模型在真实世界软件工程任务中的编程能力。该测试包含从 Upwork 平台上收集的 1400 多个自由软件工程任务,这些任务在现实世界中的总价值高达 100 万美元。 

值得一提的是,Claude 3.5 Sonnet 在此次测试中以 40 万美元的成绩脱颖而出,超越了 OpenAI 的 GPT-4o 和 o1 模型。 

 

OpenAI 推出的基准测试,Claude 拿了第一 😉 

https://openai.com/index/swe-lancer 

 

 

【应用】

MetaGPT

MGX 全球首个 AI 智能体开发团队 

MGX(MetaGPT X)是一款自然语言编程工具,能够完全模拟人类软件开发的完整流程,实现全栈应用的自动化开发。用户只需用自然语言描述需求,即可生成一款完整的软件产品。在这个过程中,团队主管 Mike、产品经理 Emma、架构师 Bob、工程师 Alex 和数据分析师 David 五位 AI 智能体分工协作,覆盖从需求分析、设计、编码到测试和部署的全流程。 

使用入口:前往官网(mgx.dev)直接体验。 

 

https://x.com/MetaGPT_/status/1892199535130329356 | 🔍深度解析 

 

 

【应用】

Google Gemini

Deep Research(深度搜索)功能更新 

2024 年 12 月,Google Gemini 首先推出了 Deep Research 功能,通过自动化收集、分析和整合信息,生成一份结构化的专业报告。近期,Deep Research 已支持 45 种语言,并在桌面端、Android 和 iOS 移动端全面上线,为全球用户提供服务。 

使用入口:前往 Gemini 官网(gemini.google)或者下载桌面/移动端,需订阅 Advanced 套餐。 

 

Deep Research 逐渐成为标配  

https://x.com/GeminiApp/status/1891922938707775991 

 

 

【应用】

Google

AI co-scientist 加速科学发现和创新的多智能体 AI 系统 

AI co-scientist 是一款基于 Gemini 2.0 构建的多智能体系统。它通过模拟科学推理过程,帮助科学家生成研究假设、设计实验方案、优化研究结果,从而加速科学发现与创新。 

系统的核心功能包括生成(Generation)、反思(Reflection)、排名(Ranking)、进化(Evolution)、邻近性(Proximity)和元审查(Meta Review)。通过自动化反馈信号,系统可不断迭代优化假设,形成自我修正与改进的循环机制。 

 

https://blog.google/feed/google-research-ai-co-scientist 

 

 

【新闻】

Microsoft

Majorana 1 全球首个由拓扑核心驱动的量子处理器(QPU) 

微软推出 Majorana 1 量子处理器,这款芯片凭借先进材料和技术,实现了百万量子比特的稳定操控和高密度集成,大幅提升量子计算的可靠性和抗干扰能力。 

微软表示,这一突破有望在未来数年内让量子计算机具备解决工业级问题的能力,实现真正有意义的量子计算应用。此前,科学界普遍认为这一目标需要几十年才能达成。 

 

https://news.microsoft.com/azure-quantum 

 

 

【新闻】

Humane(AI Pin)

被惠普以 1.16 亿美元收购,将停止服务 

惠普以 1.16 亿美元收购了 Humane 公司,包括其软件平台、技术人员以及 300 多项专利,以此整合 Humane 先进的 CosmOS 操作系统。 

Humane 公司宣布,将于 2025 年 2 月 28 日停止所有与 AI Pin 相关的服务。届时,AI Pin 将无法连接至 Humane 服务器,所有联网功能都将失效。 

AI Pin 曾被市场寄予厚望,但由于用户体验差、续航能力不足、交互设计复杂等问题,销量惨淡且退货率极高。截至 2024 年 8 月,其总销量仅为约一万台。 

 

https://humane.com/media/humane-hp 

 

 

 

2月20日

 

【机器人】

Figure AI

Helix 全球首个通用视觉-语言-行动(VLA)模型 

Helix 模型是全球首个通用视觉-语言-动作(VLA)模型,专为人形机器人量身打造。它融合了视觉感知、自然语言理解和动作控制能力,能够通过自然语言指令直接操控机器人,无需预编程或针对特定任务的训练。 

Helix 模型可对人形机器人的上半身(包括头部、躯干、手腕和手指)进行高速连续控制,支持两台机器人协同完成共享的长时任务,并且能够轻松识别和拿起几乎任何小型家用物品。因此,Helix 模型在家庭服务、仓储物流等场景中展现出广阔的应用前景。 

 

https://www.figure.ai/news/helix 

 

 

【应用】

Spotify x ElevenLabs

基于 AI 生成有声书并且多平台分发 

ElevenLabs 与 Spotify 的 Findaway Voices 达成合作,为独立作者推出了一种低成本、高效的有声书发布方案。 

作者只需通过 ElevenLabs Studio 上传文档,即可生成有声书,并利用编辑工具调整旁白效果,无需专业录制。生成后,点击发布即可上传至 Spotify 平台;再下载 LPF 文件并上传至 Findaway Voices,即可完成全平台分发,并获得版税收入 

 

https://elevenlabs.io/blog/spotify-is-now-accepting-audiobooks-narrated-by-elevenlabs 

 

 

 

2月22日

 

【应用】

Monica

智能聊天助手(国内版开放内测) 

Monica 国内版本基于 DeepSeek R1 和 V3 模型,具备深度推理、实时联网搜索以及记忆能力。在输入框上方有 5 个选项卡片,用户可以快速完成翻译、写作、思维导图、流程图、数据分析等任务设置。 

此外,这款应用还有两大亮点:一是能够根据用户的设置和聊天记录生成个性化记忆,并在后续问答中自动适应这些偏好;二是支持创建由 DeepSeek 驱动的智能体,用户还可以上传专业文档、研究报告等文件作为知识库。 

使用入口:前往国内版官网(monica.cn)或移动 App 体验,官方内测邀请码:KFCV50 

 

🔍官方介绍 

 

 

 

2月23日

 

【模型】

月之暗面

Moonlight-16B-A3B 模型(开源) 

Moonlight-16B-A3B 是一款开源 MoE 模型,采用改进版的 Muon 优化器进行训练,相比于传统的 AdamW 优化器,计算效率提升了2倍,同时通过 ZeRO-1 分布式实现显著降低了内存和通信开销。 

Moonlight 模型支持多种语言任务,如语言理解、文本生成和代码生成,并且能够进行大规模分布式训练。其高效稀疏激活机制和优化的训练方法使其在多个基准测试中表现出色,特别是在数学和代码生成任务上超越了同类模型。 

 

https://x.com/Kimi_Moonshot/status/1893379158472044623 | 🔍专业解读 

 

 

【新闻】

2025 全球开发者先锋大会(2025 GDC)

2025 全球开发者先锋大会(Global Developer Conference)于 2 月 21 日至 23 日在上海举办。本次大会以「模塑全球 无限可能」为主题,聚焦人工智能、大模型、算力基础设施、多模态技术等领域的创新突破与产业融合,旨在推动全球开发者生态的协同发展。 

 

🔍官方介绍 

 

 

 

2月24日

 

模型

DeepSeek ⋙ Day 1

FlashMLA 

FlashMLA 是一款高效的 MLA 解码内核,专为 Hopper GPU 优化,适用于变长序列服务。 

在 H800 SXM5 上,使用 CUDA 12.6 时,内存受限配置下可实现高达 3000 GB/s 的带宽,计算受限配置下可达 580 TFLOPS 的算力。 

 

https://x.com/deepseek_ai/status/1893836827574030466 | 🔍解读@量子位 

 

 

【视频】

爱诗科技

PixVerse V4 视频生成模型上线 

PixVerse V4 视频生成模型,能够根据视频内容自动创作音效、能为视频中的角色添加口型一致的人声配音,并且支持实时重绘更改视频的风格(比如赛博风、芭比风、二次元风)。 

使用入口:前往官网(app.pixverse.ai)直接体验。 

 

C 端需求做得非常极致的视频模型公司 👍 

🔍官方介绍 

 

 

【新闻】

阿里巴巴

未来三年投入 3800 亿元建设云和 AI 硬件基础设施 

阿里巴巴集团 CEO 吴泳铭 24 日宣布,未来三年,阿里将投入超过 3800 亿元,用于建设云和 AI 硬件基础设施,总额超过去十年总和。这也创下中国民营企业在云和 AI 硬件基础设施建设领域有史以来最大规模投资纪录。 

吴泳铭表示:AI爆发远超预期,国内科技产业方兴未艾,潜力巨大。阿里巴巴将不遗余力加速云和 AI 硬件基础设施建设,助推全行业生态发展。 

 

中国版星际之门加码 

🔍官方介绍 | 🔍@新华社 

 

 

融资

LiblibAI

完成数亿元融资 

LiblibAI(哩布哩布AI)宣布一年内连续完成四轮融资。最新两轮融资由渶策资本、顺为资本领投,明势创投等老股东超额跟投,巨人网络担任本轮产业投资方,远识资本继续担任独家财务顾问。 

 

看来 AI 图像生成是真有生产力 💰 

🔍官方介绍 

 

 

 

2月25日

 

模型

DeepSeek ⋙ Day 2

DeepEP 

DeepEP 是一个针对混合专家(MoE)和专家并行(EP)的通信库,提高GPU内核之间的吞吐量并且降低延时,同时支持低精度操作(例如:FP8)。 

但注意,依然仅支持 Hopper GPU(例如:H100、H800等)。 

 

这下应该没人说 DeepSeek 「假开源」 

https://x.com/deepseek_ai/status/1894211757604049133 | 🔍中文解读@赛博禅心 

 

 

【模型】

Anthropic

Claude 3.7 Sonnet 混合推理模型发布 

官方介绍 Claude 3.7 Sonnet 是一款混合推理模型(hybrid reasoning model),具备和两种思考方式:标准模式(Normal)提供即时响应,适用于快速任务处理;扩展思维模式(Extended)则通过逐步推理提升复杂任务的准确性,适用于需要深度思考的场景。 

Claude 3.7 Sonnet 在多个领域表现出色,尤其在编程、前端开发和数学推理方面表现突出。它支持最长 128K token 的输出,能够处理复杂的代码库和高级工具,显著提升了开发效率。 

使用入口:已上线 Claude 和 API,价格与 Claude 3.5 Sonnet 保持一致。 

 

所谓的「混合推理」 并不是自动的,而是需要手动切换。 

http://anthropic.com/claude-3-7-sonnet-system-card 

 

 

【模型】

阿里巴巴 – 千问

QwQ-Max-Preview 推理模型发布(即将开源) 

QwQ-Max-Preview 是一款基于 Qwen2.5-Max 构建的推理模型,支持深度思考和联网搜索功能,能够展示完整的思维链,适用于多模态输入(如文本、图像、代码)等场景。 

使用入口:开源模型;可以在 Qwen Chat(chat.qwen.ai)打开 Thinking(QwQ) 进行体验。 

 

第二个仿 R1 的国产模型 

https://qwenlm.github.io/blog/qwq-max-preview 

 

 

【视频】

阿里巴巴 – 通义

Wan 2.1 系列视频生成模型(开源) 

Wan2.1 是一系列视频生成领域的基础模型: 

Wan2.1-I2V-14B 能够根据输入的文本和图像,创作出复杂视觉场景的视频,分辨率涵盖 480P 和 720P。 

Wan2.1-T2V-14B 同时支持中英文文本输入,分辨率涵盖 480P 和 720P。 

Wan2.1-T2V-1.3B 仅需 8.19 GB 显存,就可以在 RTX 4090 GPU 上生成 5 秒时长的 480P 视频,输出时间仅需 4 分钟。 

 

实测效果一般,无法替代可灵 

https://wanxai.com 

 

 

【应用】

Google

Gemini Code Assist(个人版)辅助编程工具(免费) 

Gemini Code Assist 是一款基于 Gemini 2.0 的编程助手,专为个人开发者设计,可以快速生成、解释和优化代码。该工具免费提供每月 18 万次的代码补全额度,支持最多 128K input token 上下文窗口 

使用入口:已集成到 Visual Studio Code 和 JetBrains IDEs 中。 

 

https://blog.google/technology/developers/gemini-code-assist-free 

 

 

 

2月26日

 

模型

DeepSeek ⋙ Day 3

DeepGEMM 

DeepGEMM 是一个 FP8 通用矩阵乘法(GEMMs)库,可以用在Dense上,也可以用在MoE上。该库用 CUDA 编写,安装时无需编译,内置了JIT(Just-In-Time)模块! 

注意,依然仅支持Hopper GPU,解决了 FP8 累计计算不精确的情况。该库仅包含一个核心内核函数,大约有 300 行代码,大道至简! 

 

推动 FP8 成为主流 

https://x.com/deepseek_ai/status/1894553164235640933 | 🔍中文解读@赛博禅心 

 

 

【模型】

Microsoft

Phi-4-multimodal 多模态模型和 Phi-4-mini 模型(开源) 

Phi-4 端侧模型系列新增了两款开源模型: 

Phi-4-multimodal 可以同时处理语音、视觉和文本信息,在视觉理解、文档推理、语音识别、语音翻译、语音总结等任务上表现出色。模型参数 5.6B,适合在设备端运行。 

Phi-4-mini 专为文本任务设计,支持长达 128K token 的序列处理,在推理、数学、编程、指令遵循和函数调用等任务中表现优异。模型参数 3.8B,适用于边缘计算环境,尤其是网络不稳定或对保密性要求较高的场景。 

 

https://azure.microsoft.com/en-us/blog/empowering-innovation-the-next-generation-of-the-phi-family 

 

 

【音频】

ElevenLabs

Scribe 最精准的语音转文本模型 

Scribe 是 ElevenLabs 第一款语音转文本(Speech to Text)模型,专为复杂音频环境设计,能识别标注多位发言人精准定位每个单词出现/结束的时间标记非语音事件(如笑声、掌声、咳嗽、背景噪音、音乐片段等)。 

Scribe 能有效支持 99 种语言,包括传统服务里错误率很高的小众语言(如塞尔维亚语、粤语和马拉雅拉姆语)的错误率。模型在多项基准测试中表现卓越。 

使用入口:可以调用 API;也可以直接前往 ElevenLabs Dashboard(elevenlabs.io/app)直接体验。 

 

https://elevenlabs.io/blog/meet-scribe 

 

 

视频

Luma AI

为生成的视频添加音效 

Luma AI 现在支持为生成的视频添加音效了!只需要点击「Audio」按钮,系统会自动生成与视频内容匹配的音效;也可以通过提示词,对视频音效进行更个性化的设置。 

使用入口:前往(lumalabs.ai/dream-machine)体验。 

 

AI 视频配音逐渐成为标配 

https://x.com/LumaLabsAI/status/1894063350666957148 

 

 

【应用】

Perplexity AI

Comet 智能搜索浏览器(开放内测申请) 

官方目前还没有更多说明,感兴趣可以申请加入 WailtList → https://www.perplexity.ai/comet 

 

https://www.perplexity.ai/comet 

 

 

 

2月27日

 

模型

DeepSeek ⋙ Day 4

DualPipe,EPLB 

DualPipe 是一种创新的双向管道并行算法,在 DeepSeek-V3 技术报告中提出。实现了正向和反向计算-通信阶段的完全重叠,同时也减少了管道气泡时间。 

EPLB 即专家并行负载均衡器。使用专家并行(EP)时,会将不同的专家分配到不同的GPU。 由于不同专家的负载可能因当前工作负载而异,因此保持不同 GPU 的负载平衡很重要。 

 

https://x.com/deepseek_ai/status/1894931931554558199 | 🔍解读@赛博禅心 

 

 

【模型】

OpenAI

GPT-4.5 迄今最大最贵的模型 

GPT-4.5 是 OpenAI 迄今为止最大的聊天模型,优势为交互体验更加自然、知识储备更丰富、用户意图理解能力更强、情商更高,更适合写作、沟通、学习、复杂任务自动化等需要高情商和创造力的场景化。 

使用入口:GPT-4.5 作为研究预览版,已向 ChatGPT Pro 用户开放,并计划于下周逐步向 ChatGPT Plus 和 Team 用户推广。 

 

普遍评价都很差但这个模型可能是为了 o3 完整版而准备的,暂且先不下太多定论 🧐 

https://openai.com/index/introducing-gpt-4-5 | 🔍测评@赛博禅心 

 

 

【模型】

腾讯 – 混元

Turbo S 新一代快思考模型发布 

区别于 Deepseek R1、混元 T1 等需要「想一下再回答」的慢思考模型,混元 Turbo S 能够实现「秒回」,更快速输出答案,吐字速度提升一倍,首字时延降低 44%。 

混元 Turbo S 架构采用了 Hybrid-Mamba-Transformer 融合模式,有效地降低了传统 Transformer 结构的计算复杂度,减少了 KV-Cache 缓存占用,实现训练和推理成本的下降。这也是工业界首次成功将 Mamba 架构无损地应用在超大型 MoE 模型上。 

使用入口:混元 Turbo S 模型已在腾讯云官网上架,开发者和企业用户可以通过 API 调用;腾讯元宝中即将逐步灰度上线。 

 

传统模型不都是「快思考」 ❓ 

🔍官方介绍 

 

 

 

2月28日

 

模型

DeepSeek ⋙ Day 5

3FS 

3FS,Fire-Flyer File System,是一种高性能分布式文件系统,利用现代SSD 和 RDMA 网络带全宽的并行文件系统,解决AI训练和推理存储问题。 

 

https://x.com/deepseek_ai/status/1895279409185390655 | 🔍解读@赛博禅心 

 

 

模型

DeepSeek ⋙ One More Thing

DeepSeek-V3 / R1 推理系统概览 

DeepSeek-V3 / R1 推理系统的优化目标是:更大的吞吐,更低的延迟。 

为了实现这两个目标,DeepSeek 采用的方案是使用大规模跨节点专家并行(Expert Parallelism / EP)。但 EP 同时也增加了系统的复杂性。 

这篇长文就详细分享了如何使用 EP 增大 batch size,如何隐藏传输的耗时,如何进行负载均衡。 

 

https://x.com/deepseek_ai/status/1895688300574462431 

中文版 → https://zhuanlan.zhihu.com/p/27181462601 

 

 

【图像】

Ideogram AI

Ideogram 2a 文成图模型又快又便宜 

Ideogram 2a 是 Ideogram 2.0 的升级版,专为平面设计和摄影进行了优化,能在 10 秒内生成带文本的高级设计和逼真图像(2a Turbo 仅需 5 秒),成本较之前降低 50%。 

使用入口:调用 API;或者通过合作伙伴体验,如Poe、Replicate、FAL、FreePik等。 

 

图像生成开始卷速度和价格了 

https://about.ideogram.ai/2.0 

 

 

视频

Pika

Pikaframes 视频生成工具支持关键帧过渡 

Pikaframes 是 Pika 2.2 版本最重要的更新,上传首尾帧图像即可实现关键帧的过渡,生成时长 10s、1080p 分辨率的视频。 

使用入口:前往(Pika.art)体验。 

 

https://x.com/pika_labs/status/1895156950431867318 

 

 

应用

Dify

Dify v1.0.0 正式上线! 

Dify 迎来里程碑式更新,v1.0.0 全新版本正式上线。本次更新带来了全新的插机制、增强了工作流,并上线 Marketplace 共创插件生态。 

 

恭喜 Dify ! 

https://dify.ai | 🔍官方介绍 

 

 



 

让我们再次回顾

 

1月2日:在经历了 500 天的博弈之后,美国对中国的投资禁令今日生效。 

1月6日:Sam Altman 发文称已找到实现 AGI 的方法,开始向「超级智能」迈进,加速科学发现和创新。 

1月10日:美国最高法院就 TikTok 封禁法案举行口头辩论。 

1月13日:美国商务部发布《人工智能扩散临时最终规则》并征求意见,对先进计算芯片和闭源 AI 模型的出口进行严格管控。 

1月13日:海外用户开始涌入小红书,自称 TikTok Refugee,小红书用户温柔接待了他们,并由此拉开了中美互联网用户第一次大规模交流的序幕。 

1月14日:美国商务部出口管制实体清单新增 25 个中国实体(包含智谱)。 

1月14日:DeepSeek 推出Andriod 和 iOS 移动端应用。 

1月14日:小红书登上全球 87 个国家 App Store 下载榜第一名,成为首款全中文名登顶美区的应用。 

1月17日:TikTok 宣布将于 1 月 19 日停止服务。 

1月18日:TikTok 正式关停美国服务,字节系应用 CapCut、Lemon8 等也同步停服。 

1月19日:小红书紧急上线了 AI 翻译功能。 

1月20日:特朗普宣布推迟禁令,TikTok 逐步恢复运营。 

1月20日:深度求索发布并开源 DeepSeek-R1 推理模型。 

1月21日:Stargate(星际之门)计划开启,四年将投资 5000 亿美元建设美国 AI 基础设施。 

1月23日:梁文峰(DeepSeek 创始人)参加总理座谈会并发言。 

1月23日:美国白宫发布《消除美国在人工智能领域领导地位的障碍》的行政命令。 

1月23日:中国银行宣布为 AI 全产业链提供不少于一万亿元的金融支持。 

1月27日:DeepSeek 同时登顶中国和美国苹果应用商店免费 App下载排行榜。引发美股科技股震荡。 

1月28日(除夕):DeepSeek 官方发布公告称,其线上服务近期遭遇大规模境外网络攻击 

1月28日:宇树机器人在《2025 年央视春晚》扭秧歌转手绢火爆出圈。 

2月01日(初一):DeepSeek 在全球 140 个国家和地区的应用商店下载量排名第一 

2月01日:Sam Altman 称将重新考虑开源战略。 

2月02日:国内主流云厂商和 AI 产品开始陆续接入 DeepSeek R1 模型。 

2月13日:Apple 国行 AI 合作伙伴调整为阿里巴巴百度。 

2月16日:百度官方宣布多款产品接入 DeepSeek R1 模型,包括百度搜索。 

2月16日:腾讯官方宣布多款产品接入 DeepSeek-R1 模型,包括微信。 

2月17日:习近平出席民营企业座谈会并发表重要讲话。 

2月24日:DeepSeek 开源周。 

2月24日:阿里巴巴宣布未来三年投入 3800 亿元建设云和 AI 硬件基础设施。 

3月03日:中国人民银行等五部门召开座谈会,为民营经济发展提供有力金融支持。 

 

 

✦ ✦ ✦ 

🫡 致敬可爱的人们 🫡


(文:赛博禅心)

欢迎分享

发表评论