超越OpenAI、马斯克xAI，刷新硅谷史上最大融资纪录！这家数据公司凭什么？

淘金先富卖铲人。

近日，硅谷正在经历一轮史上最大一轮的融资。

AI与数据分析平台Databricks公布了其J轮融资的最新进展:融资目标为100亿美元，由Thrive Capital领投，目前已完成86亿美元。

本轮融资后Databricks估值为620亿美元。

至此，Databricks这一轮融资数额，已超越OpenAI在今年10月创下得66亿美元的记录，也比马斯克刚刚宣布xAI要再融60亿美元的数额要高。

AI，是近几年最火爆的投资领域，无数投资机构举着钞票疯狂追逐相关企业。

OpenAI以及xAI无疑是该领域的超级明星，两者的一举一动都牵扯着资本市场的神经，左右着无数人的目光。

相较于两者，Databricks显得名不经传，其产品与核心业务，不被大多数人所知。

Databricks凭什么能够创下硅谷融资记录？

如果说AI领域是一座金矿，无数淘金者就需要一把铲子，更高效的来挖掘金子。Databricks就相当于AI时代的卖铲人。

/ 01 /

一把好铲子：数据湖仓

‍

这几年，Databricks的崛起，得益于其抓住了湖仓一体趋势。

作为大数据领域的“后起之秀”，Databricks率先提出了湖仓一体的概念，并推出湖仓一体产品Lakehouse。

时至今日，Lakehouse已经成为Databricks的核心产品之一。

一般而言，中大型公司都有大量积累多年的业务数据，包括客户数据、市场数据、供应链数据等。

这些数据就像”金矿”一样，但如何从中获得洞察和提炼智能一直是一个难题。

数据湖仓就是为了解决这一问题而诞生的。要讲清楚这点，我们要先从数据库的概念开始。

传统意义上的数据库，一般只提供最基础的功能，也就是“记账，查账”的功能。

在数据库的基础之上，发展出来了数据仓库，具备了一定程度的分析功能。

比如，为啥库存周转变慢了？利润是怎么下降的？

这就要找数据要答案，通过数据仓库，得出分析结果来辅助经营决策。

但是，随着企业不断发展，两者提供的功能，渐渐不能满足越来越高的数据需求了。

倘若企业，希望把生产经营中的所有相关数据，历史的、实时的，在线的、离线的，内部的、外部的，都能完整保存下来，以备不时之需。

传统的数据库和数据仓库，在这样的期望面前逐渐暴露出诸多局限，数据湖应运而生。

数据湖，就像是一个巨大的 “数据蓄水池”，只要是企业运营过程中产生的数据，都可以先汇聚在此。

其运作方式，是一个以原始格式存储海量数据的存储库，它不对数据进行过多的预处理。

能够容纳各种类型的数据，无论是结构化的业务数据、半结构化的日志文件，还是非结构化的图像、视频、音频等，都可以一股脑地“丢”进去。

它的优势在于数据的开放性和灵活性，企业可以随时根据后续的需求对这些原始数据进行各种探索和分析。

而且，其存储成本相对较低，适合应对大数据时代，数据量爆炸式增长的情况。

但数据湖也并非完美无缺，由于它存储的数据是原始状态，缺乏有效的数据管理和组织。

在进行数据分析时，往往面临数据质量参差不齐、查询效率低下等问题。

例如，想要从杂乱无章的数据湖中提取特定信息用于分析，可能需要耗费大量时间和精力去梳理数据之间的关系、清洗脏数据等。

这对于实时性要求较高的数据分析场景来说，是个不小的挑战。

而数据湖仓（Lakehouse）则巧妙地融合了数据湖和传统数据仓库的长处，克服了它们各自的短板。

它既能像数据湖一样，可以存储海量的、各种各样类型的数据，提供了强大的数据存储包容性和扩展性。

同时，又具备数据仓库的特点，有着完善的数据分析能力，支持复杂的查询、高效的报表生成以及深度的数据挖掘，能保障数据的高质量和一致性。

其实，Databricks 拥有的湖仓一体化技术虽然极为出色，在业内首屈一指。

但这仅仅是它受资本青睐的一个原因。

就本质而言，Databricks 对市场趋势有着敏锐的洞察力，始终能精准预判时代对技术的需求。

在大胆而富有前瞻性的战略布局下，接连成功法抓住了两次风口。才是其在资本市场大受欢迎，备受资本青睐的真正原因。

/ 02 /

立命与立身之战，

从数字化到数智化的企业需求

Databricks创立的萌芽发于2009年，正式创立则是在2013年。

17年前，Hadoop横空出世，是当时处理大数据领域的关键技术，风靡一时。

简单来讲，Hadoop 是一个开源的分布式存储和计算框架。

它能把大量数据存储在集群的不同节点，并且对这些数据进行并行处理，适用于大数据处理场景，像数据挖掘、日志分析等。

不过，Hadoop 的 HDFS（分布式文件系统）和 MapReduce 计算模型存在固有短板。

面对小文件时，HDFS 的元数据管理负担加重，检索效率降低；

而在实时性要求高的任务中，MapReduce 复杂的任务调度与数据处理流程，难以满足快速响应需求。

在那个需要快速处理实时数据分析的时代，Hadoop的两大缺点，低效性和高延迟十分致命。

这时的Spark，也就是Databricks的核心技术，还是Matei Zaharia（联合创始人之一）在加州大学伯克利分校AMPLab进行的一项研究项目。（有三位Databricks联合创始人参与Spark早期开发：Matei Zaharia、Reynold XinAndy Konwinski）

与Hadoop不同，Spark的运作模式，是通过在容错数据存储中实现分布式共享内存，支持快速执行，包括标准统计算法和机器学习算法在内的各种算法，实现从数据中提取、分析、操作或学习。

从实时性、灵活性、计算效率上，表现出色，均超越了Hadoop。

看到了机会Databricks的联合创始人认为，这是将Spark商业化的好时机，于是在2013年创立了公司。

这正好切中了当时企业对于数据方面需求的痛点。

自创立伊始，Databricks 便凭借其独特的技术优势和创新的业务模式，在资本市场掀起了一阵热潮，迅速获得了来自各方的强大投资助力。

其首轮融资，由知名风投机构 a16z 的联合创始人 Ben Horowitz 领投，一举拿下 1400 万美元的资金注入。

此后，投资者们接踵而至，纷纷向Databricks抛出橄榄枝。

至本轮融资前，Databricks大约吸引了80位投资者，融资约40亿美元。其中不乏摩根士丹利、英伟达等金融与半导体巨头。

看中企业数字化进程渐起，数据集成处理需求呈井喷之势，是Databricks切中的第一轮时代风口。

时至2022年，ChatGPT引爆AI狂潮。面对当时的经济衰退与AI浪潮，Databricks看到了机会，果断选择了后者，而不是多数选择前者的企业一样，削减开支，大规模裁员。

Databricks开启增长布局。

向外，并购产业内外多家机构，以强化其核心业务的固有优势，并快速切入 AI 领域；

向内，大规模招聘工程与销售人员，员工规模近乎翻倍，提升公司的研发创新速度和市场销售力度。

2022年，Databricks收购数据可视化平台Observable，以提升在协作功能和共享洞察方面等方面的能力。

2023年，Databricks又以13亿美元的价格，收购生成式人工智能初创公司 osaicML。

使其在提供大型模型训练解决方案方面，更具竞争力。并与同年，拿下AI 数据治理公司Okera。

通过整合其的技术，增强自身在数据治理和安全功能上的能力。

时至去年，Databricks又以20亿美元收购Tabular。

旨在强化自身Delta Lake技术，以获得在数据湖格式标准的竞争中的优势地位。

据Databricks官网披露：截至2024年10月31日，Databricks第三季度同比增长超过60%。

预计截至2025年1月31日的第四季度，收入运行率将超过30亿美元，且自由现金流为正。

其中，Databricks智能数据仓库产品Databricks SQL增长最快，营收运行率达到6亿美元，同比增长超过150%。

如果说，踩中第一轮企业数字化转型的需求是Databricks的“立命之战”。

此次，踩中第二轮企业数智化转型的热潮，对于数据智能化处理与AI支持需求的井喷，对Databricks来说则是“立身之战”。

灵敏的嗅觉，大胆而富有前瞻性的布局，使Databricks的收益稳步增长，吸引了资本市场的密切关注，以至于创下硅谷融资记录。

/ 03 /

大敌仍在：Snowflake向左，Databricks向右

‍

本次融资过后Databricks成为业内估值最高的公司，但并不是高枕无忧。

Snowflake依旧紧紧咬在Databricks身后。

从市值上看，Snowflake依旧坐拥510亿美元的市值，与Databricks虽有差距，但不是遥不可及。

其实，两家的竞争颇有Android与IOS的感觉，一个开放灵活，一个封闭高效。

Databricks像是Android 工具箱，主张“开放数据湖”理念，通过湖仓一体（Lakehouse）架构解决传统数据湖的不稳定性，同时保持对非结构化数据的友好支持，可将实时数据从湖仓一体安全地共享到任何计算平台。

其很多技术都是开源的，如Spark。允许用户自由选择各类工具和技术，与在Android 生态中，开发者能基于开放平台，适配多样的编程语言、框架与数据源，轻松打造出契合自身需求的定制化解决方案。

Snowflake 则恰似高度集成的 iOS 一体化工厂，他们押注的是云数据仓库，致力于打造出了一个高度集成化的环境，帮助企业快速精准处理结构化数据。

为企业构建一个一站式的完整环境，整合从数据的存储、处理到分析每一个环节。

根国外一家研究机构调查，基于105个Databricks和Snowflake联合客户的数据，旨在揭示数据管理中关于安全性、治理和工具选择的普遍观点。

安全性和治理是基础：绝大多数受访者（安全性86%，治理70%）将安全性和治理列为首要考虑。我们认为，这种倾向更有利于像Snowflake这样的集成平台，它们要求客户将数据纳入Snowflake以利用最全面的治理解决方案。

避免锁定：相当一部分人专注于避免厂商锁定，这与Databricks的开源理念更为一致。

整合与灵活性：45%的受访者表示愿意将数据整合到单一技术栈中，即使牺牲灵活性。同时，其他人则优先考虑分析师自由选择工具，突显了组织和企业内部的基本矛盾。

角色协调挑战：调查数据强调了组织和企业内不同角色之间的内部冲突，每个角色都有不同的优先事项。通过治理和重组来协调这些角色是一项关键但具有挑战性的任务。缺乏协调将使公司面临更大风险。

本地部署与云端：39%的受访者计划在未来一年内将核心知识产权数据保留在本地，而其他人则倡导强大的数据仓库系统，以最大限度地减少对开放表格格式的需求。

数据创新者与安全性：一部分被称为“数据创新者”的受访者优先考虑快速创新而非严格的数据安全性和治理。值得注意的是，这些数据创新者最有可能从Snowflake转向Databricks。

两者之间的竞争，绝非仅仅局限于技术层面的高低，而更像是在发展路径抉择以及数据管理理念维度上的深度博弈。

步入人工智能时代，一种开放包容、灵活应变且富有创新精神的企业风格，或许更容易受到青睐与推崇。

这或许是 Databricks 在于Snowflake竞争之中，先下一城的重要原因。

/ 03 /

总结

虽然Databricks凭借强大的技术和增长的AI需求，完成了硅谷史上最大的一笔融资，但随之而来的，是巨额的研发和收购支出。

烧钱模式推动了公司发展，但目前Databricks依然未实现正向自由现金流。

AI时代，趋势就像6月的天气一样变化莫测，一家公司由晴转阴可能只需要很短的时间，反之亦然。

Databricks已经踩中了两次趋势风口，那么下一次呢？

面对日趋激烈的竞争环境，与经济不确定性的增加，Databricks能否笑到最后？

还得往下看。

文/树一‍‍‍‍

PS：如果你对AI大模型领域有独特的看法，欢迎扫码加入我们的大模型交流群。

（文：乌鸦智能说）

2025 年 5 月
一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复