编辑:Panda
从 ChatGPT 引发的通用聊天机器人热潮,到如今正迅猛发展的智能体模型,AI 正在经历一次深刻的范式转变:从被动响应的「语言模型」,走向具备自主决策能力的「智能体」。我们也正在进入所谓的「经验时代」或「软件 3.0 时代」。
在这场转变中,强化学习(RL)正在重新登上舞台中央,成为驱动 AI 实现「感知-决策-行动」闭环乃至通用人工智能(AGI)的关键技术。
正如诺贝尔奖得主、DeepMind CEO Demis Hassabis 说的那样:「强化学习足以实现智能,因为这是所有哺乳动物(包括人类)的学习方式。」 强化学习之父、2024 年图灵奖得主 Richard Sutton 也在《经验时代》中写道:「通过构建强化学习的基础,并使其核心原则适应新时代的挑战,我们能够充分释放自主学习的潜力,为真正的超人(superhuman)智能铺平道路。」
然而,相比于预训练大模型,目前通常用于后训练大模型的强化学习存在自己独有的困难:不仅需要高频的数据交互和环境反馈,还要求大规模算力集群具备稳定、弹性的调度能力。而传统的云计算平台,大多仍以静态推理负载为主,难以适配强化学习训练中动态多阶段、资源高耦合的运行特性。
这一背景下,谁能率先打造出真正适配强化学习的大规模智能计算平台,谁就有机会在新一轮的 AI 基础设施竞争中占据高地。2025 年 6 月,九章云极正式发布业界首个工业级强化学习云平台 AgentiCTRL,这也是全球首个支持万卡级异构算力调度的强化学习基础设施平台。

AgentiCTRL 基于混合专家(MoE)架构,仅需极少代码即可完成 AI 智能体的训推流程,从而显著增强大模型推理能力。相比于传统强化学习方案,AgentiCTRL 可将端到端训练效率提升 500%,综合成本下降 60%。

在这个云服务纷纷向「AI 云原生」转型的时代,九章云极率先跑通了强化学习大规模云化的全链路路径,可以说是为更进一步的「智能体原生云」树立了行业新范式。
为什么是九章云极?
领先源自系统级重构
本质上讲, 强化学习是一个长期、动态、状态密集型的过程。要想训练一个能在现实世界中有效决策的智能体,所需的不止是简单的算力堆叠,而是一个涉及算力弹性、资源调度、策略反馈、任务编排、容错机制等多维系统设计的复杂工程。
面对这一挑战,九章云极并未沿袭传统云平台「横向扩 GPU」的简单思路,而是从架构底层出发,对强化学习训练流程进行了系统性重构。AgentiCTRL 平台的推出,正是这一重构的成果。

这里,我们重点看看 AgentiCTRL 的一些核心亮点。
首先,AgentiCTRL 实现了强化学习训练流程的极致简化。
过去,部署一个强化学习训练流程往往需要数十行脚本、复杂的资源配置和节点编排。而在 AgentiCTRL 上,用户仅需极少代码即可启动完整的训练-推理-回传闭环。

代码演示
这背后,是九章云极对环境模拟、策略执行、奖励反馈等复杂机制的深度封装与抽象。对于算法工程师而言,这意味着开发效率的数倍提升;对于企业客户而言,则意味着强化学习的真正可用、可控、可复制。
其次,AgentiCTRL 率先将 Serverless 架构原生融入了 RL 工作负载的训练平台。
强化学习的计算需求高度不稳定:有的时间段 GPU 大量空转,有的时间段则需要瞬时扩容数百卡资源。传统的静态资源绑定方案,不仅浪费严重,也难以调度。AgentiCTRL 通过弹性算力编排,实现了资源的「按需即取、即用即还」,最大化资源利用率的同时,显著降低了训练成本。
更为关键的是,九章云极自研的异构算力操作系统与调度平台,让 AgentiCTRL 成为全球首个能稳定支持「万卡级」强化学习训练的平台。不论是高频交互带来的通信瓶颈,还是多节点分布式策略更新的同步难题,九章云极都在平台层实现了技术闭环。
这些能力也得到了实际验证。举个例子,使用 AgentiCTRL,九章云极针对颇具挑战性的 Computer Use 任务对基础模型 Qwen-VL-2.5-7B 进行了后训练,最终得到了智能体 Alaya-UI。
在这个过程中,AgentiCTRL 表现强劲,不仅降低了 37% 的训练耗时并提升了 25% 的 GPU 利用率,而且所需的人工介入次数也大幅下降了 90%。整体上看,成本下降了 60%。

得到的 Alaya-UI 的性能也在基础模型的基础上大幅提升 —— 在 OSWorld 基准上,Alaya-UI 的任务完成率从 6.87% 跃升至 24.8%。
经过更多实验验证,AgentiCTRL 能将端到端训练效率提升 5 倍以上,而在同等任务规模下,其整体成本可下降 60%,堪称当前最具性价比的强化学习云平台。
换句话说,九章云极不是在已有 AI 云平台之上「追加一个强化学习模块」,而是以强化学习为原生能力,重构了整个智能计算平台的架构与逻辑。
这正是九章云极能够走在行业前列的核心原因。
不止于平台
九章云极的智能基础设施战略布局
强化学习云平台只是表层,真正让九章云极在强化学习竞赛中跑在最前面的,是其对下一代 AI 云本质的前沿探索。
传统的云计算厂商,往往将 AI 能力作为「功能补丁」叠加在通用云之上,更多是在做资源分发和算力服务,更像是一种裸金属(bare metal)的供给模式。而九章云极的战略方向明确而清晰:强化学习不是一个云服务模块,而是未来 AI 云的操作系统级能力,是支撑智能体系统运行的调度中枢、学习引擎和演化机制。
可以说,九章云极前沿探索的核心是围绕智能体构建完整的原生云基础设施。这不仅包括支持强化学习的算力资源,更包括三层能力的同步建设:
-
底层是软件定义的 AI 基础设施,其中包括异构算力资源、高性能分布式存储和高性能网络系统的统一调度与编排。
-
中层是九章智算操作系统 Alaya NeW OS,是工作负载的抽象与调度逻辑层,其中包括 Serverless 架构 、AI 导向的数据中心架构、多 AIDC 训练架构、异构资源调度、 AI 原生 、分布式算网。
-
上层则是九章智算云 Alaya NeW Cloud,其中包括大模型开发套件、大模型推理平台、强化学习云平台、弹性容器平台 VKS 和专享容器平台 DKS;它们共同组成了面向开发者、模型厂商、应用企业的 API 与工具链系统。

实际上,九章智算云不仅是九章云极强化学习平台的算力底座,更是其智能基础设施战略的核心支点。在强化学习仍被视为高门槛科研专属的当下,九章智算云以「1 度算力」为度量单位,率先提出普惠化 AI 计算标准,从资源调度方式、价格模型到工作负载适配方式,全面对齐智能体时代的训练需求。
不同于传统云厂商依赖 GPU 售卖或按卡计费的裸金属逻辑,九章智算云提供了真正按使用量计价的 serverless 架构,这不仅降低了门槛,更实质性打通了「人人可用 AI」的最后一公里。
正如图灵奖得主、「Artificial Intellgence」这一技术术语的提出者约翰・麦卡锡(John McCarthy)曾说过的那样:算力应该像水电资源一样随用随取。现在,九章智算云正在实践这一愿景。
而在调度能力方面,九章智算云通过自主研发的异构算力操作系统与 AI-native 的资源管理系统,实现了弹性调度+异构支持+多租户隔离的完备能力,成功突破「秒级生成百万级 token 」的性能瓶颈,并且其 GPU 利用率甚至可超过 95%,总拥有成本(TCO)相比传统方案降低达 60%,形成了明显的「性能/价格比」优势。
不仅如此,九章智算云在产业赋能上的落地表现也已具备规模优势,当前已在政务、金融、通信、制造、能源、交通、生物医药等多个关键行业实现部署,并支撑多个 RL 模型及智能体系统的在线训练与推理任务。在国内市场同类平台中,其智能体训练任务承载能力和调度效率长期保持领先,稳居强化学习云领域第一梯队。
正是在这些能力的加持下,九章云极才得以在强化学习的产业化路径上率先跑通「从训练引擎到产业部署」的全流程闭环,并以此为基础,构建起属于自己的 AI 云原生生态护城河。
看起来,九章云极的战略视野并不局限于细节的技术层面,而是放眼未来 AI 的基础设施主导权:在大模型标准趋于同质化的今天,谁能主导智能体运行的「训练-反馈-部署」闭环平台,谁就能在下一代 AI 生态中占据支点位置。而九章云极,已经拥有自己的独特优势。
顺带一提,为了加速这一战略落地,九章云极还启动了「AI-STAR 企业生态联盟」,并与赛富投资基金等多家产业机构联合设立了「AI-STAR 智算生态基金」,首期投入 1.8 亿元,期望吸引算法公司、开源社区、行业客户共同参与强化学习平台的生态建设。这不仅为 AgentiCTRL 拓展了丰富的应用场景,也为智能体应用在金融、工业、能源等高价值行业的规模化落地提供了实践基础。

因此,AgentiCTRL 的发布并不是一个孤立事件,而是九章云极未来路线图中的关键一步。在这一逻辑下,平台能力、开发工具、生态伙伴、资本配置…… 正共同构成一个面向未来十年的智能计算战略。
强化学习云第一云!
是做出来的
当强化学习成为智能体模型训练的核心引擎,决定下一轮 AI 基础设施竞争胜负的,很可能是「可用」与「可规模化」之间的距离。
九章云极用 AgentiCTRL 平台证明,强化学习云的成功落地绝不仅仅是一次算力堆叠或平台加法,而是一场从底层架构到运行逻辑的系统性重建:支持万卡级异构调度、Serverless 弹性架构、强化学习工作负载原生抽象…… 这些综合起来就不再只是简单的优化,而是范式跃迁。
从客户视角看,这种跃迁可以带来直接而确定性的价值回报:
-
开发门槛显著降低:无需自建环境、编排节点、维护资源,RL 训练变得像调用 API 一样简单;
-
训练效率大幅提升:端到端性能可提升 5 倍;
-
成本结构全面重塑:资源调度更高效,综合成本最多可下降 60%,让 RL 真正进入性价比可控区间。
更重要的是,九章云极从一开始就不是只做「RL 工具链供应商」,而是在构建一个支持智能体运行的操作系统级云平台。
在未来,强化学习不会是「少数人的科研特权」,而将成为 AI 系统中的常规能力组件。谁能将它从实验室拉入工程化生产环境,谁就掌握了创造未来的先机。而九章云极,已经走在了前面。
当智能体原生时代真正到来,我们可能会重新回头审视这场转变的起点。而那时,我们会看到,九章云极及其创造的 AgentiCTRL 或许正是它最早的铺路者。
©
(文:机器之心)