/ 01 /
一把好铲子:数据湖仓
这几年,Databricks的崛起,得益于其抓住了湖仓一体趋势。
作为大数据领域的“后起之秀”,Databricks率先提出了湖仓一体的概念,并推出湖仓一体产品Lakehouse。
时至今日,Lakehouse已经成为Databricks的核心产品之一。
一般而言,中大型公司都有大量积累多年的业务数据,包括客户数据、市场数据、供应链数据等。
这些数据就像”金矿”一样,但如何从中获得洞察和提炼智能一直是一个难题。
数据湖仓就是为了解决这一问题而诞生的。要讲清楚这点,我们要先从数据库的概念开始。
传统意义上的数据库,一般只提供最基础的功能,也就是“记账,查账”的功能。
在数据库的基础之上,发展出来了数据仓库,具备了一定程度的分析功能。
这就要找数据要答案,通过数据仓库,得出分析结果来辅助经营决策。
但是,随着企业不断发展,两者提供的功能,渐渐不能满足越来越高的数据需求了。
倘若企业,希望把生产经营中的所有相关数据,历史的、实时的,在线的、离线的,内部的、外部的,都能完整保存下来,以备不时之需。
传统的数据库和数据仓库,在这样的期望面前逐渐暴露出诸多局限,数据湖应运而生。
数据湖,就像是一个巨大的 “数据蓄水池”,只要是企业运营过程中产生的数据,都可以先汇聚在此。
其运作方式,是一个以原始格式存储海量数据的存储库,它不对数据进行过多的预处理。
能够容纳各种类型的数据,无论是结构化的业务数据、半结构化的日志文件,还是非结构化的图像、视频、音频等,都可以一股脑地“丢”进去。
它的优势在于数据的开放性和灵活性,企业可以随时根据后续的需求对这些原始数据进行各种探索和分析。
而且,其存储成本相对较低,适合应对大数据时代,数据量爆炸式增长的情况。
但数据湖也并非完美无缺,由于它存储的数据是原始状态,缺乏有效的数据管理和组织。
在进行数据分析时,往往面临数据质量参差不齐、查询效率低下等问题。
例如,想要从杂乱无章的数据湖中提取特定信息用于分析,可能需要耗费大量时间和精力去梳理数据之间的关系、清洗脏数据等。
这对于实时性要求较高的数据分析场景来说,是个不小的挑战。
而数据湖仓(Lakehouse)则巧妙地融合了数据湖和传统数据仓库的长处,克服了它们各自的短板。
它既能像数据湖一样,可以存储海量的、各种各样类型的数据,提供了强大的数据存储包容性和扩展性。
同时,又具备数据仓库的特点,有着完善的数据分析能力,支持复杂的查询、高效的报表生成以及深度的数据挖掘,能保障数据的高质量和一致性。
其实,Databricks 拥有的湖仓一体化技术虽然极为出色,在业内首屈一指。
就本质而言,Databricks 对市场趋势有着敏锐的洞察力,始终能精准预判时代对技术的需求。
在大胆而富有前瞻性的战略布局下,接连成功法抓住了两次风口。才是其在资本市场大受欢迎,备受资本青睐的真正原因。
/ 02 /
Databricks创立的萌芽发于2009年,正式创立则是在2013年。
17年前,Hadoop横空出世,是当时处理大数据领域的关键技术,风靡一时。
简单来讲,Hadoop 是一个开源的分布式存储和计算框架。
它能把大量数据存储在集群的不同节点,并且对这些数据进行并行处理,适用于大数据处理场景,像数据挖掘、日志分析等。
不过,Hadoop 的 HDFS(分布式文件系统)和 MapReduce 计算模型存在固有短板。
面对小文件时,HDFS 的元数据管理负担加重,检索效率降低;
而在实时性要求高的任务中,MapReduce 复杂的任务调度与数据处理流程,难以满足快速响应需求。
在那个需要快速处理实时数据分析的时代,Hadoop的两大缺点,低效性和高延迟十分致命。
这时的Spark,也就是Databricks的核心技术,还是Matei Zaharia(联合创始人之一)在加州大学伯克利分校AMPLab进行的一项研究项目。(有三位Databricks联合创始人参与Spark早期开发:Matei Zaharia、Reynold XinAndy Konwinski)
与Hadoop不同,Spark的运作模式,是通过在容错数据存储中实现分布式共享内存,支持快速执行,包括标准统计算法和机器学习算法在内的各种算法,实现从数据中提取、分析、操作或学习。
从实时性、灵活性、计算效率上,表现出色,均超越了Hadoop。
看到了机会Databricks的联合创始人认为,这是将Spark商业化的好时机,于是在2013年创立了公司。
自创立伊始,Databricks 便凭借其独特的技术优势和创新的业务模式,在资本市场掀起了一阵热潮,迅速获得了来自各方的强大投资助力。
其首轮融资,由知名风投机构 a16z 的联合创始人 Ben Horowitz 领投,一举拿下 1400 万美元的资金注入。
此后,投资者们接踵而至,纷纷向Databricks抛出橄榄枝。
至本轮融资前,Databricks大约吸引了80位投资者,融资约40亿美元。其中不乏摩根士丹利、英伟达等金融与半导体巨头。
看中企业数字化进程渐起,数据集成处理需求呈井喷之势,是Databricks切中的第一轮时代风口。
时至2022年,ChatGPT引爆AI狂潮。面对当时的经济衰退与AI浪潮,Databricks看到了机会,果断选择了后者,而不是多数选择前者的企业一样,削减开支,大规模裁员。
向外,并购产业内外多家机构,以强化其核心业务的固有优势,并快速切入 AI 领域;
向内,大规模招聘工程与销售人员,员工规模近乎翻倍,提升公司的研发创新速度和市场销售力度。
2022年,Databricks收购数据可视化平台Observable,以提升在协作功能和共享洞察方面等方面的能力。
2023年,Databricks又以13亿美元的价格,收购生成式人工智能初创公司 osaicML。
使其在提供大型模型训练解决方案方面,更具竞争力。并与同年,拿下AI 数据治理公司Okera。
通过整合其的技术,增强自身在数据治理和安全功能上的能力。
时至去年,Databricks又以20亿美元收购Tabular。
旨在强化自身Delta Lake技术,以获得在数据湖格式标准的竞争中的优势地位。
据Databricks官网披露:截至2024年10月31日,Databricks第三季度同比增长超过60%。
预计截至2025年1月31日的第四季度,收入运行率将超过30亿美元,且自由现金流为正。
其中,Databricks智能数据仓库产品Databricks SQL增长最快,营收运行率达到6亿美元,同比增长超过150%。
如果说,踩中第一轮企业数字化转型的需求是Databricks的“立命之战”。
此次,踩中第二轮企业数智化转型的热潮,对于数据智能化处理与AI支持需求的井喷,对Databricks来说则是“立身之战”。
灵敏的嗅觉,大胆而富有前瞻性的布局,使Databricks的收益稳步增长,吸引了资本市场的密切关注,以至于创下硅谷融资记录。
/ 03 /
大敌仍在:Snowflake向左,Databricks向右
本次融资过后Databricks成为业内估值最高的公司,但并不是高枕无忧。
Snowflake依旧紧紧咬在Databricks身后。
从市值上看,Snowflake依旧坐拥510亿美元的市值,与Databricks虽有差距,但不是遥不可及。
其实,两家的竞争颇有Android与IOS的感觉,一个开放灵活,一个封闭高效。
Databricks像是Android 工具箱,主张“开放数据湖”理念,通过湖仓一体(Lakehouse)架构解决传统数据湖的不稳定性,同时保持对非结构化数据的友好支持,可将实时数据从湖仓一体安全地共享到任何计算平台。
其很多技术都是开源的,如Spark。允许用户自由选择各类工具和技术,与在Android 生态中,开发者能基于开放平台,适配多样的编程语言、框架与数据源,轻松打造出契合自身需求的定制化解决方案。
Snowflake 则恰似高度集成的 iOS 一体化工厂,他们押注的是云数据仓库,致力于打造出了一个高度集成化的环境,帮助企业快速精准处理结构化数据。
为企业构建一个一站式的完整环境,整合从数据的存储、处理到分析每一个环节。
根国外一家研究机构调查,基于105个Databricks和Snowflake联合客户的数据,旨在揭示数据管理中关于安全性、治理和工具选择的普遍观点。
安全性和治理是基础:绝大多数受访者(安全性86%,治理70%)将安全性和治理列为首要考虑。我们认为,这种倾向更有利于像Snowflake这样的集成平台,它们要求客户将数据纳入Snowflake以利用最全面的治理解决方案。
避免锁定:相当一部分人专注于避免厂商锁定,这与Databricks的开源理念更为一致。
整合与灵活性:45%的受访者表示愿意将数据整合到单一技术栈中,即使牺牲灵活性。同时,其他人则优先考虑分析师自由选择工具,突显了组织和企业内部的基本矛盾。
角色协调挑战:调查数据强调了组织和企业内不同角色之间的内部冲突,每个角色都有不同的优先事项。通过治理和重组来协调这些角色是一项关键但具有挑战性的任务。缺乏协调将使公司面临更大风险。
本地部署与云端:39%的受访者计划在未来一年内将核心知识产权数据保留在本地,而其他人则倡导强大的数据仓库系统,以最大限度地减少对开放表格格式的需求。
数据创新者与安全性:一部分被称为“数据创新者”的受访者优先考虑快速创新而非严格的数据安全性和治理。值得注意的是,这些数据创新者最有可能从Snowflake转向Databricks。
两者之间的竞争,绝非仅仅局限于技术层面的高低,而更像是在发展路径抉择以及数据管理理念维度上的深度博弈。
步入人工智能时代,一种开放包容、灵活应变且富有创新精神的企业风格,或许更容易受到青睐与推崇。
这或许是 Databricks 在于Snowflake竞争之中,先下一城的重要原因。
/ 03 /
总结
虽然Databricks凭借强大的技术和增长的AI需求,完成了硅谷史上最大的一笔融资,但随之而来的,是巨额的研发和收购支出。
烧钱模式推动了公司发展,但目前Databricks依然未实现正向自由现金流。
AI时代,趋势就像6月的天气一样变化莫测,一家公司由晴转阴可能只需要很短的时间,反之亦然。
Databricks已经踩中了两次趋势风口,那么下一次呢?
面对日趋激烈的竞争环境,与经济不确定性的增加,Databricks能否笑到最后?
文/树一
PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。