允中 发自 凹非寺
量子位 | 公众号 QbitAI
全面拥抱AI之后,OceanBase首次详解了他们的战略。
第三届开发者大会上,OceanBase发布了面向AI的应用产品PowerRAG——
主打RAG开发能力开箱即用,打通应用开发数据层、平台层、接口层与应用层的全流程。
它可以帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种AI应用场景的快速开发。

作为他们AI应用层面探索的第一步,首次以AI战略一号位现身大会的CTO杨传辉进一步解释了产品背后的战略驱动:OceanBase正致力于构建Data×AI能力,面向AI时代推动一体化数据库向一体化数据底座的战略演进。
这是OceanBase战略升级的第一个大动作,时间间隔不过一个月。
2025年4月27日,OceanBase CEO 杨冰发布全员信,宣布OceanBase将全面进入AI时代,并且为保障战略推进,OceanBase启动人才和组织体系升级,任命CTO杨传辉担任AI战略一号位,并成立AI平台与应用部、AI引擎组等新部门。
这样的推进速度,不难看出OceanBase背后的AI决心和气魄。而本次开发者大会呈现出他们对于数据与AI融合的思考,在大模型行业应用进入深水区的此刻,其实值得参考。
数据在AI时代的重塑:从挑战到基础设施革新
AI技术的爆发式发展正在重塑数据生态,已经成为行业共识。据IDC数据预测,受到生成式AI等技术驱动,新生成数据量规模将达到393.9ZB,其中企业数据规模和增速尤为凸显,非结构化数据将是最主要的企业数据形式,占比将超80%。
海量数据的爆炸式增长,让传统数据基础设施面临前所未有的挑战。数据存储容量告急、存储架构扩展形不足、数据管理效率低下,数据分析实时性滞后正在倒逼行业思考:如何构建AI时代的新型数据基础设施?

AI从Task-specific到General的进化,给数据提出了更高维度的需求。蚂蚁集团CTO何征宇在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有很大挑战:一是数据的获取成本显著增加,二是严谨的行业数据稀缺且流动困难,三是多模态数据需要更强的处理能力,四是数据的质量评估难。
无法数字化,就无法智能化。在传统企业场景中,要想实现智能化,前提实现数字化,只有充分挖掘数据要素,才能通过AI来释放它的价值。
能够看到的是,AI与数据之间的关系远比以往都更为紧密。数据驱动AI,而AI正在推动Data Infra 向 Data × AI Infra 演进。
数据基础设施的革新方向已清晰可见,但是现有数据基础设施可能无法跟上AI的需求。
企业大模型落地面临着成本、准确性和数据安全三大挑战。
数据孤岛导致跨系统整合成本激增,企业需为分散的存储、冗余计算(如多副本ETL)及数据库人工运维支付高昂溢价;长尾场景下的一些碎片化数据难以为模型提供完整”知识图谱”,往往导致数据准确性不足;当数据储存在单机或者单片云时,是有可能因为外部故障而面临数据泄露的风险,而用大模型做个智能应用本身开发周期就太长,整个风险的窗口期就拉长,这个过程成本也很高。
既然如此,行业该如何破局?承载着数据处理与分析的责任,数据库厂商正在加速探索,以OceanBase为代表,15年持续深耕海量核心场景Know-how,它的系列动作或许值得关注。
一方面,OceanBase 坚持100%根自研,自 2010 开始投入研发,目前已支持支付宝全部核心账务、核心支付系统,连续十余年稳定支撑双 11,历经流量洪峰和稳定性考验。全球唯一接连打破“数据库世界杯”TPC-C 和 TPC-H 测试纪录,入选世界互联网领先科技成果奖。
在商业化上,OceanBase已助力金融、政务、运营商、零售、互联网等多个行业的2000多家客户实现关键业务系统升级。
另一方面,它正在全力拥抱AI,积极布局战略升级。他们会如何做,也能给正在等待AI转型升级的企业一个参考。
CEO杨冰的全员信中,其实就已经透露他们接下来的发展目标:
我们将形成AI时代从一体化存储(行存、列存、KV、文档、向量、倒排)到一体化计算(OLTP、OLAP、NoSQL、向量数据库、搜索、推理、RAG)的全方位布局,依托蚂蚁的丰富应用场景将OceanBase的“Data × AI”能力打磨成为新的核心竞争力,并逐渐服务外部客户,打造如分布式技术般的世界级AI数据底座。
而此次开发者大会,正是他们向外界展示的首次实践。
OceanBase给出答案:一体化数据底座
面对行业的真实需求,OceanBase正在大胆探索。CTO杨传辉表示,作为一体化分布式数据库,OceanBase已经具备了一定的AI时代数据处理能力。
比如分布式有效应对海量数据的存储计算、多模融合统一处理不同结构数据、TP/AP一体化实现混合事务和实时分析处理。
在支持AI应用落地的核心基础设施——向量性能、混合检索等层面,OceanBase也有新的突破。
大会现场,基于基准测试工具VectorDBBench,采用Performamce768D1M测试数据集,OceanBase与业内三款领先的开源向量数据库进行性能跑分测试。结果显示,OceanBase的向量性能已经达到开源向量数据库业内的领先水平。

而面对AI时代的海量数据,OceanBase还引入BQ量化算法(HNSW+BQ),大幅降低向量场景的内存需求;引入针对JSON半结构化数据的压缩能力,降低AI场景中的半结构化数据存储成本。此外,OceanBase已具备面向多种数据模型的混合检索能力。
再加上PowerRAG,一改传统的开发模式(组件森林开发模式、RAG平台模式等),主打开箱即用。
以上能力和产品,背后依托于OceanBase对于大模型落地价值的思考以及“一体化数据底座”的战略思路。
他们认为大模型落地产生价值的核心在数据与模型的一体化融合。更形象地表述是,数据与AI的关系不再是简单的Data+AI,应该是Data×AI。
基于Data×AI能力,OceanBase致力于从一体化数据库朝着一体化数据底座演进。
在过去15年产品技术演进中,一体化早已注入了OceanBase的灵魂。甚至从架构设计的第一天就被视作自然而然的选择:通过分布式架构底座将多个关键能力融合到一个引擎和一套数据库。
从最初的工程一体化、多租户、多兼容模式,演进到 HTAP 工作负载一体化(混合事务/分析处理),再到单机分布式一体化、多模型、多数据接口,以及面向未来多云基础设施的存算分离引擎,可以说一体化本身就是OceanBase产品迭代发展的核心。
当下更海量更复杂数据规模、混合负载的需求,一体化数据底座也成为广泛的市场需求。它的底层需要实现单机分布式一体化和云上云下一体化,也就是单机分布式一体化架构和多云原生架构,对用户来说它需要提供一套统一支持SQL、AP和AI的数据底座。
AI时代的数据底座
此次 OceanBase 所展现出来的数据底座探索和创新,对整个数据库行业以及AI应用生态发展都可能带来多维度推动作用。
首先,AI时代的数据基础设施正在从“被动存储”到“主动赋能”的范式转换。以往数据基础设施隐于技术之后,厂商更多是针对单一性能、单点需求进行优化和解决,没有形成整体的整合与协同。
现在当AI赋能应用层,数据基础设施面向 AI 提供开发 AI 创新应用的能力,如推理能力、向量能力、RAG 能力、混合检索能力等,以满足 AI 创新应用对数据基础设施的全面需求。
这也就给其他厂商跟进优化自身的产品,朝着数据与模型一体化融合的方向研究和实践提供一个参考。

其次,AI时代的数据底座,可能呈现出这几个方面的特点。
多模态融合,支持结构化(SQL)、半结构化(JSON)、非结构化(向量/文本)数据的统一存储与混合检索能力。
混合负载处理能力,AI时代将工作负载的边界模糊了。通过HTAP引擎实现OLTP(事务处理)与OLAP(实时分析)的融合,以适应复杂的处理需求。
此外,还包括成本与性能的极致平衡、AI原生功能集成等特点。
最后,在AI广泛应用落地中,数据库厂商是整个生态中关键一环。通过提供高效、易用的数据底座解决方案,降低企业开发 AI 应用门槛,从而实现AI的普惠。
从OceanBase Data x AI的全景图可以看到,作为最底层的一体化数据底座,OceanBase需要和下层模型,以及上层的Agent平台,AI应用做适配。比如当前在流行的MCP大模型生态。
也就意味着,AI场景价值落地,还是离不开生态合力,通过”数据-模型-应用“形成正向循环,促使全行业加速向多模态、低成本、易用性方向演进。
未来,随着更多企业加入这一生态,AI技术将真正成为普惠生产力,而OceanBase的实践无疑正在为这一未来筑牢“地基”。
*本文系量子位获授权刊载,观点仅为原作者所有。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
🌟 点亮星标 🌟
(文:量子位)