超越OpenAI、马斯克xAI,刷新硅谷史上最大融资纪录!这家数据公司凭什么?

淘金先富卖铲人。

近日,硅谷正在经历一轮史上最大一轮的融资。

AI与数据分析平台Databricks公布了其J轮融资的最新进展:融资目标为100亿美元,由Thrive Capital领投,目前已完成86亿美元。

本轮融资后Databricks估值为620亿美元。

至此,Databricks这一轮融资数额,已超越OpenAI在今年10月创下得66亿美元的记录,也比马斯克刚刚宣布xAI要再融60亿美元的数额要高。

AI,是近几年最火爆的投资领域,无数投资机构举着钞票疯狂追逐相关企业。

OpenAI以及xAI无疑是该领域的超级明星,两者的一举一动都牵扯着资本市场的神经,左右着无数人的目光。

相较于两者,Databricks显得名不经传,其产品与核心业务,不被大多数人所知。

Databricks凭什么能够创下硅谷融资记录?

如果说AI领域是一座金矿,无数淘金者就需要一把铲子,更高效的来挖掘金子。Databricks就相当于AI时代的卖铲人。


/ 01 /

一把好铲子:数据湖仓


这几年,Databricks的崛起,得益于其抓住了湖仓一体趋势。

作为大数据领域的“后起之秀”,Databricks率先提出了湖仓一体的概念,并推出湖仓一体产品Lakehouse。

时至今日,Lakehouse已经成为Databricks的核心产品之一。

一般而言,中大型公司都有大量积累多年的业务数据,包括客户数据、市场数据、供应链数据等。

这些数据就像”金矿”一样,但如何从中获得洞察和提炼智能一直是一个难题。

数据湖仓就是为了解决这一问题而诞生的。要讲清楚这点,我们要先从数据库的概念开始。

传统意义上的数据库,一般只提供最基础的功能,也就是“记账,查账”的功能。

在数据库的基础之上,发展出来了数据仓库,具备了一定程度的分析功能。

比如,为啥库存周转变慢了?利润是怎么下降的?

这就要找数据要答案,通过数据仓库,得出分析结果来辅助经营决策。

但是,随着企业不断发展,两者提供的功能,渐渐不能满足越来越高的数据需求了。

倘若企业,希望把生产经营中的所有相关数据,历史的、实时的,在线的、离线的,内部的、外部的,都能完整保存下来,以备不时之需。

传统的数据库和数据仓库,在这样的期望面前逐渐暴露出诸多局限,数据湖应运而生。

数据湖,就像是一个巨大的 “数据蓄水池”,只要是企业运营过程中产生的数据,都可以先汇聚在此。

其运作方式,是一个以原始格式存储海量数据的存储库,它不对数据进行过多的预处理。

能够容纳各种类型的数据,无论是结构化的业务数据、半结构化的日志文件,还是非结构化的图像、视频、音频等,都可以一股脑地“丢”进去。

它的优势在于数据的开放性和灵活性,企业可以随时根据后续的需求对这些原始数据进行各种探索和分析。

而且,其存储成本相对较低,适合应对大数据时代,数据量爆炸式增长的情况。

但数据湖也并非完美无缺,由于它存储的数据是原始状态,缺乏有效的数据管理和组织。

在进行数据分析时,往往面临数据质量参差不齐、查询效率低下等问题。

例如,想要从杂乱无章的数据湖中提取特定信息用于分析,可能需要耗费大量时间和精力去梳理数据之间的关系、清洗脏数据等。

这对于实时性要求较高的数据分析场景来说,是个不小的挑战。

而数据湖仓(Lakehouse)则巧妙地融合了数据湖和传统数据仓库的长处,克服了它们各自的短板。

它既能像数据湖一样,可以存储海量的、各种各样类型的数据,提供了强大的数据存储包容性和扩展性。

同时,又具备数据仓库的特点,有着完善的数据分析能力,支持复杂的查询、高效的报表生成以及深度的数据挖掘,能保障数据的高质量和一致性。

其实,Databricks 拥有的湖仓一体化技术虽然极为出色,在业内首屈一指。

但这仅仅是它受资本青睐的一个原因。

就本质而言,Databricks 对市场趋势有着敏锐的洞察力,始终能精准预判时代对技术的需求。

在大胆而富有前瞻性的战略布局下,接连成功法抓住了两次风口。才是其在资本市场大受欢迎,备受资本青睐的真正原因。

/ 02 /

立命与立身之战,
从数字化到数智化的企业需求


Databricks创立的萌芽发于2009年,正式创立则是在2013年。

17年前,Hadoop横空出世,是当时处理大数据领域的关键技术,风靡一时。

简单来讲,Hadoop 是一个开源的分布式存储和计算框架。

它能把大量数据存储在集群的不同节点,并且对这些数据进行并行处理,适用于大数据处理场景,像数据挖掘、日志分析等。

不过,Hadoop 的 HDFS(分布式文件系统)和 MapReduce 计算模型存在固有短板。

面对小文件时,HDFS 的元数据管理负担加重,检索效率降低;

而在实时性要求高的任务中,MapReduce 复杂的任务调度与数据处理流程,难以满足快速响应需求。

在那个需要快速处理实时数据分析的时代,Hadoop的两大缺点,低效性和高延迟十分致命。

这时的Spark,也就是Databricks的核心技术,还是Matei Zaharia(联合创始人之一)在加州大学伯克利分校AMPLab进行的一项研究项目。(有三位Databricks联合创始人参与Spark早期开发:Matei Zaharia、Reynold XinAndy Konwinski)

与Hadoop不同,Spark的运作模式,是通过在容错数据存储中实现分布式共享内存,支持快速执行,包括标准统计算法和机器学习算法在内的各种算法,实现从数据中提取、分析、操作或学习。

从实时性、灵活性、计算效率上,表现出色,均超越了Hadoop。

看到了机会Databricks的联合创始人认为,这是将Spark商业化的好时机,于是在2013年创立了公司。

这正好切中了当时企业对于数据方面需求的痛点。

自创立伊始,Databricks 便凭借其独特的技术优势和创新的业务模式,在资本市场掀起了一阵热潮,迅速获得了来自各方的强大投资助力。

其首轮融资,由知名风投机构 a16z 的联合创始人 Ben Horowitz 领投,一举拿下 1400 万美元的资金注入。

此后,投资者们接踵而至,纷纷向Databricks抛出橄榄枝。

至本轮融资前,Databricks大约吸引了80位投资者,融资约40亿美元。其中不乏摩根士丹利、英伟达等金融与半导体巨头。

看中企业数字化进程渐起,数据集成处理需求呈井喷之势,是Databricks切中的第一轮时代风口。

时至2022年,ChatGPT引爆AI狂潮。面对当时的经济衰退与AI浪潮,Databricks看到了机会,果断选择了后者,而不是多数选择前者的企业一样,削减开支,大规模裁员。

Databricks开启增长布局。

向外,并购产业内外多家机构,以强化其核心业务的固有优势,并快速切入 AI 领域;

向内,大规模招聘工程与销售人员,员工规模近乎翻倍,提升公司的研发创新速度和市场销售力度。

2022年,Databricks收购数据可视化平台Observable,以提升在协作功能和共享洞察方面等方面的能力。

2023年,Databricks又以13亿美元的价格,收购生成式人工智能初创公司 osaicML。

使其在提供大型模型训练解决方案方面,更具竞争力。并与同年,拿下AI 数据治理公司Okera。

通过整合其的技术,增强自身在数据治理和安全功能上的能力。

时至去年,Databricks又以20亿美元收购Tabular。

旨在强化自身Delta Lake技术,以获得在数据湖格式标准的竞争中的优势地位。

据Databricks官网披露:截至2024年10月31日,Databricks第三季度同比增长超过60%。

预计截至2025年1月31日的第四季度,收入运行率将超过30亿美元,且自由现金流为正。

其中,Databricks智能数据仓库产品Databricks SQL增长最快,营收运行率达到6亿美元,同比增长超过150%。

如果说,踩中第一轮企业数字化转型的需求是Databricks的“立命之战”。

此次,踩中第二轮企业数智化转型的热潮,对于数据智能化处理与AI支持需求的井喷,对Databricks来说则是“立身之战”。

灵敏的嗅觉,大胆而富有前瞻性的布局,使Databricks的收益稳步增长,吸引了资本市场的密切关注,以至于创下硅谷融资记录。


/ 03 /

大敌仍在:Snowflake向左,Databricks向右


本次融资过后Databricks成为业内估值最高的公司,但并不是高枕无忧。

Snowflake依旧紧紧咬在Databricks身后。

从市值上看,Snowflake依旧坐拥510亿美元的市值,与Databricks虽有差距,但不是遥不可及。

其实,两家的竞争颇有Android与IOS的感觉,一个开放灵活,一个封闭高效。

Databricks像是Android 工具箱,主张“开放数据湖”理念,通过湖仓一体(Lakehouse)架构解决传统数据湖的不稳定性,同时保持对非结构化数据的友好支持,可将实时数据从湖仓一体安全地共享到任何计算平台。

其很多技术都是开源的,如Spark。允许用户自由选择各类工具和技术,与在Android 生态中,开发者能基于开放平台,适配多样的编程语言、框架与数据源,轻松打造出契合自身需求的定制化解决方案。

Snowflake 则恰似高度集成的 iOS 一体化工厂,他们押注的是云数据仓库,致力于打造出了一个高度集成化的环境,帮助企业快速精准处理结构化数据。

为企业构建一个一站式的完整环境,整合从数据的存储、处理到分析每一个环节。

根国外一家研究机构调查,基于105个Databricks和Snowflake联合客户的数据,旨在揭示数据管理中关于安全性、治理和工具选择的普遍观点。

安全性和治理是基础:绝大多数受访者(安全性86%,治理70%)将安全性和治理列为首要考虑。我们认为,这种倾向更有利于像Snowflake这样的集成平台,它们要求客户将数据纳入Snowflake以利用最全面的治理解决方案。

避免锁定:相当一部分人专注于避免厂商锁定,这与Databricks的开源理念更为一致。

整合与灵活性:45%的受访者表示愿意将数据整合到单一技术栈中,即使牺牲灵活性。同时,其他人则优先考虑分析师自由选择工具,突显了组织和企业内部的基本矛盾。

角色协调挑战:调查数据强调了组织和企业内不同角色之间的内部冲突,每个角色都有不同的优先事项。通过治理和重组来协调这些角色是一项关键但具有挑战性的任务。缺乏协调将使公司面临更大风险。

本地部署与云端:39%的受访者计划在未来一年内将核心知识产权数据保留在本地,而其他人则倡导强大的数据仓库系统,以最大限度地减少对开放表格格式的需求。

数据创新者与安全性:一部分被称为“数据创新者”的受访者优先考虑快速创新而非严格的数据安全性和治理。值得注意的是,这些数据创新者最有可能从Snowflake转向Databricks。

两者之间的竞争,绝非仅仅局限于技术层面的高低,而更像是在发展路径抉择以及数据管理理念维度上的深度博弈。

步入人工智能时代,一种开放包容、灵活应变且富有创新精神的企业风格,或许更容易受到青睐与推崇。

这或许是 Databricks 在于Snowflake竞争之中,先下一城的重要原因。

/ 03 /

总结


虽然Databricks凭借强大的技术和增长的AI需求,完成了硅谷史上最大的一笔融资,但随之而来的,是巨额的研发和收购支出。

烧钱模式推动了公司发展,但目前Databricks依然未实现正向自由现金流。

AI时代,趋势就像6月的天气一样变化莫测,一家公司由晴转阴可能只需要很短的时间,反之亦然。

Databricks已经踩中了两次趋势风口,那么下一次呢?

面对日趋激烈的竞争环境,与经济不确定性的增加,Databricks能否笑到最后?

还得往下看。



文/树一


PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。


(文:乌鸦智能说)

欢迎分享

发表评论