DataBricks从开源到商业化踩过的坑
| 作者:行人
|?編輯:邵佳怡
| 設(shè)計:王福政
引言:聽到 What'S Next | 科技早知道 播客《S6E06|對話Databricks聯(lián)合創(chuàng)始人Reynold Xin:380 億美元估值背后的長期主義》,頗受啟發(fā),本文作為一個筆記其中一些內(nèi)容以及個人的一些思考,對文中內(nèi)容感興趣的朋友建議聽一下這期節(jié)目。
導(dǎo)讀:
1、DataBricks早期的3個決定
2、開源軟件如何與AWS競爭?
3、數(shù)據(jù)的未來:湖倉一體
1、DataBricks早期的三個決定
DataBricks是UC Berkeley 人工智能實(shí)驗室的博士生及教授?于2013年成立的大數(shù)據(jù)公司,公司雛形誕生于 Apache Spark,通過開源 SaaS 模式服務(wù)企業(yè)客戶,最早提出湖倉一體,并且是唯一提供湖倉一體的云服務(wù)公司,提供了一個開放和統(tǒng)一的平臺支持大數(shù)據(jù)和人工智能,同時滿足數(shù)據(jù)倉庫和數(shù)據(jù)湖的應(yīng)用場景。2021 年 8 月完成 16 億美元的 H 輪融資,估值 380 億美元。現(xiàn)在回頭看,在公司成立的早期,團(tuán)隊做出的三個決定影響深遠(yuǎn)。
1# 云服務(wù)
團(tuán)隊堅信云計算是未來的方向,其聯(lián)合創(chuàng)始人Ion Stoica 和 Matei Zaharia 是《A Berkeley View of Cloud Computing》的作者,這篇論文在云計算發(fā)展中影響深遠(yuǎn),被引用上萬次。在公司早期的階段,不是所有人都深刻理解堅持云服務(wù)的理念,每年仍然會被新加入的員工挑戰(zhàn),融資時也會被投資人挑戰(zhàn),同時也不被客戶接受。所幸內(nèi)部堅持云服務(wù),投資人有耐心,客戶在2018年后也開始大規(guī)模上云。
2# 不做技術(shù)支持服務(wù)
技術(shù)支持服務(wù)依賴人員擴(kuò)張以支持更多客戶,不具備大規(guī)模擴(kuò)張的能力,而且利潤率也較低,商業(yè)模式不如云服務(wù)。2015年時,Spark在客戶中已經(jīng)很有名氣,很多客戶找到團(tuán)隊希望能提供咨詢和支持服務(wù),有客戶愿意出1000萬美元,但會分散團(tuán)隊的注意力,不利于長期發(fā)展,我們還是放棄了這塊業(yè)務(wù);2018年,很多客戶已經(jīng)看到云服務(wù)的未來,表示未來會遷移上云,但不確定什么時候會遷移;而到2019年,很多客戶已經(jīng)行動起來,開始遷移上云,云服務(wù)已經(jīng)成為業(yè)界的共識。
3# 數(shù)據(jù)科學(xué)(Data Sicence)
參加Netflix的人工智能競賽時,發(fā)現(xiàn)大規(guī)模數(shù)據(jù)集無法在一臺服務(wù)器上完成模型訓(xùn)練,因此做了Spark項目;公司以Spark為基礎(chǔ),選擇數(shù)據(jù)科學(xué)作為業(yè)務(wù)方向,為數(shù)據(jù)工程師提供工具,而沒有選擇競爭更激烈的數(shù)據(jù)倉庫賽道。數(shù)據(jù)科學(xué)作為細(xì)分市場是由Facebook、Netflix等公司提出,當(dāng)時大多數(shù)公司還沒有相應(yīng)的職位,沒有激烈的競爭,Spark很快被企業(yè)接受;而數(shù)據(jù)倉庫則面臨老牌的Teradata公司,以及AWS的RedShift的競爭。
雖然DataBricks看好云服務(wù)的未來,但也不清楚這個“未來”多久能到來,2年、5年、還是10年,不得不說這個也有運(yùn)氣成分;而另外一家公司成立于2008年的Cloudera就沒有那么幸運(yùn),從名字就可以看出公司也堅信云服務(wù)是未來,但其大多數(shù)營收都是來自支持服務(wù),2008-2018長達(dá)10年的運(yùn)營中公司首先要解決活下來的問題,支持服務(wù)雖然不能大富大貴,也讓公司活到了云服務(wù)的黎明,最后被KKR和CD&R 以53億美元私有化。
2、開源軟件如何與AWS競爭?
到2015年Spark在業(yè)界就非常有名,很多公司已經(jīng)在內(nèi)部落地Spark項目,由于完全基于開源項目運(yùn)營,公司并沒有賺到錢,在DataBricks還在通過開會賣T恤為生時,AWS的EMR大數(shù)據(jù)平臺托管的Spark服務(wù)每年應(yīng)能夠獲得幾個億美元的營收,開源軟件該如何應(yīng)對AWS的競爭呢?
1# 低成本
客戶并不會因為你的原廠服務(wù)就選擇你,如果服務(wù)一樣,有什么理由不選擇更便宜的AWS服務(wù)呢?我們發(fā)現(xiàn)多客戶在項目開放初期會使用我們的服務(wù),與社區(qū)緊密互動獲得支持,但當(dāng)大規(guī)模部署時仍然會選擇便宜得多的AWS 托管服務(wù)。由于AWS很少貢獻(xiàn)核心代碼,其大多數(shù)情況下僅僅是為開源項目提供一個控制臺,開發(fā)成本很低,因此其服務(wù)的價格要便宜得多。
2# 人才密度
由于AWS并不需要對開源項目深入研發(fā),很難招聘到業(yè)界最優(yōu)秀的工程師,可能也不需要非常優(yōu)秀的工程師,這樣導(dǎo)致其在單個項目上人力和資金的投入往往是不如創(chuàng)業(yè)公司的。在跟進(jìn)核心問題改造方面會遇到較大的障礙,這就給商業(yè)開源公司提供了打造差異化壁壘的機(jī)會。
3# 差異化競爭
我們開始重點(diǎn)考慮商業(yè)平臺的差異化服務(wù),基于開源的API接口,提供差異化的商業(yè)服務(wù),如性能、擴(kuò)展性、安全等。差異化并不是意味著提供一些非開源功能,必須在用戶的核心路徑上解決用戶的問題,如果差異化的功能不是關(guān)鍵問題,用戶可能不需要;如果差異化的功能很簡單,AWS很可能會復(fù)制;這樣都達(dá)不到差異化的作用。DataBricks憑借其對Spark及數(shù)據(jù)科學(xué)領(lǐng)域的深刻洞察,為商業(yè)化平臺提供了強(qiáng)大的差異化能力,這也得益于其早期對開源項目的完全依賴。
4# 銷售策略
采取自下而上和自上而下相結(jié)合的銷售策略。在運(yùn)營開源項目時,我們沒有銷售團(tuán)隊,完全通過開發(fā)人員社區(qū)傳播,當(dāng)我們意識到數(shù)據(jù)科學(xué)家在每個公司都屬于少數(shù)群體,不可能擴(kuò)張到很多人時,開始組建銷售團(tuán)隊直接與CXO對接,解決其面臨的痛點(diǎn),目前已經(jīng)相當(dāng)規(guī)模的銷售團(tuán)隊專門服務(wù)大客戶。
5# 多云策略
AWS云服務(wù)商只能提供自身云平臺的托管服務(wù),而DataBricks則可以同時在多個云服務(wù)商中提供服務(wù),目前已經(jīng)支持主要的三個云服務(wù)商AWS、Azure、GCP等;而且與Azure的合作提供Azure DataBricks產(chǎn)品,讓Azure云平臺從不具備大數(shù)據(jù)處理能力一躍成為領(lǐng)先的大數(shù)據(jù)處理平臺,對云提供商其他服務(wù)的銷售也有明顯的帶動,實(shí)現(xiàn)雙贏。
DataBricks通打造差異化競爭優(yōu)勢與AWS進(jìn)行競爭,雖然我們主要產(chǎn)品都是基于開源軟件,但我們80%的精力都投入在商業(yè)服務(wù)上,DataBricks云平臺每天運(yùn)行的虛擬機(jī)數(shù)量超過1200萬臺,大規(guī)模、可擴(kuò)展、高可靠的數(shù)據(jù)平臺已經(jīng)成為我們的競爭壁壘。
此外,MongoDB則選擇在2018年修改開源許可證,禁止云服務(wù)商托管開源服務(wù),雖然AWS立即啟動了DocumentDB以兼容MongoDB,但隨著MongoDB的產(chǎn)品持續(xù)迭代,已經(jīng)更新到5.0版本,而DocumentDB則只能停留在兼容的3.6和4.0版本,長期來看客戶仍然會站在MongoDB,截止2021年底全球客戶數(shù)已達(dá)33000個。2021年初,Elastic也選擇修改開源許可證協(xié)議,禁止云服務(wù)商托管開源服務(wù),相信經(jīng)過2-3年的產(chǎn)品迭代及創(chuàng)新,也將達(dá)到現(xiàn)在MongoDB現(xiàn)在的階段。
AWS最大的問題是資源太多,需要關(guān)注的產(chǎn)品更多,平均下來每個產(chǎn)品的資源就顯得非常有限,但對于大公司下決心要搞好的戰(zhàn)略級產(chǎn)品,創(chuàng)業(yè)公司要其正面競爭幾乎沒有機(jī)會。
目前,云提供商通過其Marketplace為獨(dú)立SaaS服務(wù)商提供了銷售市場,這對雙方來說是雙贏的結(jié)果,2021年Marketplace的市場規(guī)模大概40億美元,Tackle.io預(yù)測2025年市場規(guī)模將達(dá)到500億美元。
也難怪MongoDB的CEO說,“我們與AWS的關(guān)系從沒有像現(xiàn)在這么牢固”。
3、數(shù)據(jù)的未來:湖倉一體
DataBricks從數(shù)據(jù)處理切入,2018年發(fā)現(xiàn)數(shù)據(jù)處理80%的問題發(fā)生在存儲領(lǐng)域,而這些是由云廠商提供的,因此他們決定開啟Delta Layer項目,為數(shù)據(jù)湖提供統(tǒng)一的存儲層解決方案。
現(xiàn)在常見的數(shù)據(jù)解決方案是數(shù)據(jù)湖存儲所有數(shù)據(jù),再將商業(yè)化相關(guān)的數(shù)據(jù)抽取到數(shù)據(jù)倉庫供商業(yè)分析師使用,通過權(quán)限管理限制不同團(tuán)隊的數(shù)據(jù)訪問權(quán)限。
這種多層架構(gòu)的關(guān)鍵問題是數(shù)據(jù)的分裂,不同決策人員可能看到不同的數(shù)據(jù)版本,這種不一致性可能導(dǎo)致得出不同的決策,從而影響到數(shù)據(jù)的權(quán)威性。
早在2019年DataBricks就提出LakeHouse的概念,即湖倉一體,使用統(tǒng)一數(shù)據(jù)平臺解決BI + AI的問題,目前DataBricks 比較擅長AI 并積極補(bǔ)齊BI的短板,而Snowflake 擅長BI 正補(bǔ)齊AI的能力,從這個角度看,未來DataBricks 和 Snowflake 可能是主要競爭對手。
此外,不少數(shù)據(jù)公司押注SQL,對他們來說“SQL is everything”,而DataBricks認(rèn)為“SQL is not everything”,雖然SQL受眾廣泛,幾乎沒有用戶教育成本,但SQL本身不是為技術(shù)人員設(shè)計的,在解決復(fù)雜數(shù)據(jù)問題時容易遇到瓶頸,Python等高級語言對技術(shù)人員更友好。有些團(tuán)隊為開發(fā)者提供高級語言,然后底層執(zhí)行時再翻譯成SQL,這種方案遇到問題就很難定位。
本文是商業(yè)化系列文章,對相關(guān)話題感興趣的同學(xué)可以關(guān)注后續(xù)更新。
相關(guān)閱讀 | Related Reading
“源”來是你-Vol.37 | 知名開源企業(yè)StreamNative 招募開源社區(qū)運(yùn)營和開源布道師!
Open the World:第七屆中國開源年會(COSCon'22)正式啟動~
企業(yè)實(shí)踐開源的動機(jī)
開源社簡介
開源社成立于 2014 年,是由志愿貢獻(xiàn)于開源事業(yè)的個人成員,依 “貢獻(xiàn)、共識、共治” 原則所組成,始終維持廠商中立、公益、非營利的特點(diǎn),是最早以 “開源治理、國際接軌、社區(qū)發(fā)展、開源項目” 為使命的開源社區(qū)聯(lián)合體。開源社積極與支持開源的社區(qū)、企業(yè)以及政府相關(guān)單位緊密合作,以 “立足中國、貢獻(xiàn)全球” 為愿景,旨在共創(chuàng)健康可持續(xù)發(fā)展的開源生態(tài),推動中國開源社區(qū)成為全球開源體系的積極參與及貢獻(xiàn)者。
2017 年,開源社轉(zhuǎn)型為完全由個人成員組成,參照 ASF 等國際頂級開源基金會的治理模式運(yùn)作。近八年來,鏈接了數(shù)萬名開源人,集聚了上千名社區(qū)成員及志愿者、海內(nèi)外數(shù)百位講師,合作了近百家贊助、媒體、社區(qū)伙伴。
總結(jié)
以上是生活随笔為你收集整理的DataBricks从开源到商业化踩过的坑的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Onestage Grounding
- 下一篇: YOLOv6: A Single-Sta