clickhouse建库_专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行
加入「公開課」交流群,獲取更多學(xué)習(xí)資料、課程及熱招崗位等信息
翻譯|鄭天祺 (Amos Bird) 中科院計(jì)算所博士
整理 | 夕顏
2000 年以來,隨著自互聯(lián)網(wǎng)和云計(jì)算技術(shù)變革,數(shù)據(jù)庫技術(shù)從底層計(jì)算系統(tǒng)開始發(fā)生一次蛻變,進(jìn)入了以開源、分布式和云計(jì)算為主導(dǎo)的新數(shù)據(jù)庫時代。
之后,數(shù)據(jù)庫領(lǐng)域發(fā)生了一些巨大的變化。比如,AWS 于 2014 年推出了云原生關(guān)系型數(shù)據(jù)庫 Aurora。阿里云于 2017 年推出云原生關(guān)系型數(shù)據(jù)庫 POLARDB,并在 2019 年發(fā)布 2.0 版本。除阿里云外,其它國內(nèi)云廠商也相繼推出了自研的云數(shù)據(jù)庫和分布式數(shù)據(jù)庫產(chǎn)品,如 2019 年 8 月,騰訊云一口氣發(fā)布了五大數(shù)據(jù)庫新品:數(shù)據(jù)庫智能管家 DBbrain、云數(shù)據(jù)庫 TBase、數(shù)據(jù)庫備份服務(wù) DBS、云數(shù)據(jù)庫 Redis 混合存儲版,以及自研云原生數(shù)據(jù)庫 CynosDB 商業(yè)化版本,進(jìn)行了一次云數(shù)據(jù)庫產(chǎn)品的戰(zhàn)略升級。
就在不久前,AWS 宣布放棄 Oracle 數(shù)據(jù)庫,遷移到自家的 RedShift、Aurora 和 DynamoDB 等本地 AWS 服務(wù)上,這一消息曾引起一片軒然大波,雖然 Oracle 創(chuàng)始人拉里·埃里森仍然嘴硬道沒有哪家公司能真正離得開 Oracle 數(shù)據(jù)庫產(chǎn)品,但是微軟、Oracle、SAP、AWS、Google、IBM 和阿里云構(gòu)成的 7 強(qiáng)格局中各方勢力正在經(jīng)歷著此消彼長的事實(shí)已無法掩藏。更多的后起之秀正在崛起,分食這塊越來越可口的數(shù)據(jù)庫市場,眼下數(shù)據(jù)庫領(lǐng)域的技術(shù)潮流,也在發(fā)生著微妙的變化。
今年 3 月份,DeveloperWeek 曾對數(shù)百名開發(fā)人員、工程師、軟件架構(gòu)師、開發(fā)團(tuán)隊(duì)和 IT 領(lǐng)導(dǎo)者進(jìn)行了一次調(diào)研,以了解當(dāng)前 NoSQL 與 SQL 的使用情況、最流行的數(shù)據(jù)庫。
調(diào)查結(jié)果顯示,SQL 和 NoSQL 數(shù)據(jù)庫的使用率分別為 60.48% 和 39.52%,兩者之間的差距正在縮小。
從最受歡迎數(shù)據(jù)庫的調(diào)查結(jié)果中可以看到,榜單的前三甲被 MySQL、MongoDB、PostgreSQL(17.4%)占據(jù),緊隨其后的是份額驟然縮小的Redis(8.4%)和 Cassandra(3.0%),而 Oracle 的份額僅為 1.8%。
另外,在過去 30 年中,PostgreSQL 的流行度卻迅速飆升。根據(jù) DB-Engines 的《DBMS of the Year》報告,PostgreSQL 已經(jīng)連續(xù)兩年蟬聯(lián)世界“成長”最快數(shù)據(jù)庫。
雖然開源數(shù)據(jù)庫的前 3 名被 MySQL、MongoDB 和 PostgreSQL 占據(jù),但值得注意的是,一家由俄羅斯最大的搜索引擎巨頭 Yandex 推出的列數(shù)據(jù)庫產(chǎn)品 Clickhouse,和 Galera、Memcached 及 HBase 等占據(jù)了最受歡迎數(shù)據(jù)庫的最后 2% 的份額。
雖然占比并不大,但是自從 2016 年開源以來,Clickhouse 便成為一匹“黑馬”,它抗得住日數(shù)十億數(shù)據(jù)更新和近百萬次數(shù)據(jù)請求,并可秒出查詢結(jié)果,憑借因其快速處理能力,迅速獲得用戶的青睞。
近年來,全球數(shù)據(jù)庫領(lǐng)域發(fā)生了哪些技術(shù)和應(yīng)用上的變革?在這些變革背后隱藏著什么樣的發(fā)展趨勢和潮流?未來,數(shù)據(jù)庫技術(shù)和應(yīng)用又將朝著什么方向發(fā)展?
在由中國計(jì)算機(jī)學(xué)會主辦,CCF 大數(shù)據(jù)專家委員會承辦,CSDN、中科天璣協(xié)辦的中國大數(shù)據(jù)技術(shù)大會(BDTC 2019)上,AI 科技大本營(ID:rgznai100)有幸邀請到 ClickHouse 項(xiàng)目的創(chuàng)始人兼 ClickHouse 開源社區(qū)創(chuàng)始人 Alexey Milovidov 來到現(xiàn)場進(jìn)行了主題分享,并在會前與他進(jìn)行了一次簡短的交流,以進(jìn)一步了解 ClickHouse 產(chǎn)品的具體情況,Alexey 還以自己從事數(shù)據(jù)庫管理系統(tǒng)十多年的經(jīng)驗(yàn),為我們回顧了大數(shù)據(jù)領(lǐng)域的技術(shù)和應(yīng)用進(jìn)展脈絡(luò),以及未來發(fā)展的方向。
以下為采訪實(shí)錄:
AI科技大本營:您好,首先請介紹一下您自己,以及您現(xiàn)在關(guān)注哪些技術(shù)領(lǐng)域?
Alexey Milovidov:我一直在做 ClickHouse 開發(fā)和大數(shù)據(jù)實(shí)時分析技術(shù),將來也會專注于這塊。
AI科技大本營:請您談一談,最近10年,您親身經(jīng)歷了大數(shù)據(jù)技術(shù)和行業(yè)發(fā)生了哪些變化?
Alexey Milovidov:我經(jīng)歷了數(shù)據(jù)庫從 NoSQL 到 Not Only SQL,再到 NewSQL 的演變,數(shù)據(jù)庫具備了更多的能力。雖然不斷有新的形勢出現(xiàn),但是技術(shù)在不斷地融合,包括傳統(tǒng)的系統(tǒng)也在吸收新的系統(tǒng)技術(shù)。如 MongoDB 的技術(shù)已經(jīng)被一些傳統(tǒng)的數(shù)據(jù)庫包括 MySQL 等吸納進(jìn)去了。
AI科技大本營:ClickHouse 在這個演變的過程中扮演了什么角色?
Alexey Milovidov:首先,ClickHouse 更像是一種專用系統(tǒng),它以性能為目標(biāo),聚焦于以最快的速度高效地執(zhí)行任務(wù)。不同于傳統(tǒng) OLTP 或文件型系統(tǒng)等,ClickHouse 設(shè)計(jì)之初就是一個分析型數(shù)據(jù)庫,并努力做到極致。
在轉(zhuǎn)變過程中,數(shù)據(jù)庫和機(jī)器學(xué)習(xí)更好地結(jié)合起來了,未來數(shù)據(jù)庫將會更多地與 AI 結(jié)合,有時可以直接在你的系統(tǒng)中運(yùn)行機(jī)器學(xué)習(xí)模型,把原來傳統(tǒng)的技術(shù)運(yùn)用在當(dāng)前數(shù)據(jù)時代的一些 AI 技術(shù)上。為了更好地結(jié)合,Yandex 開源了一些產(chǎn)品,包括 ClickHouse、CatBoost。CatBoost 是一個整合在 ClickHouse 中的機(jī)器學(xué)習(xí)庫,可以訓(xùn)練模型并直接應(yīng)用存儲在 ClickHouse 中的數(shù)據(jù)。
AI科技大本營:在從 IT 向 DT 時代的轉(zhuǎn)換過程中,產(chǎn)品和技術(shù)得以飛速發(fā)展,大數(shù)據(jù)行業(yè)的現(xiàn)狀或痛點(diǎn)發(fā)生了哪些變化?
Alexey Milovidov:一方面是整合,另一方面是為用戶提供更易用的工具,盡可能讓用戶能低成本直接使用而不需要編程,也許用戶還可以用不同的方法進(jìn)行查詢,比如當(dāng)用戶點(diǎn)擊網(wǎng)頁時,任何人都可以用自然語言進(jìn)行查詢,而不是一定要用 SQL。第二個挑戰(zhàn)是如何用 AI 進(jìn)行數(shù)據(jù)庫自動優(yōu)化。另一個挑戰(zhàn)是數(shù)據(jù)庫和專用硬件設(shè)備的整合,比如使用 GPU、TPU、存儲可編程 SSD 等。
AI科技大本營:HTAP (Hybrid Transaction and Analytical Process,混合事務(wù)和分析處理) 是Gartner近年來提出的一個概念,最近比較時髦,有人認(rèn)為它將成為未來大數(shù)據(jù)技術(shù)發(fā)展的主流,您怎么看待這一說法?
Alexey Milovidov:現(xiàn)在 HTAP 系統(tǒng)還是一個權(quán)宜之計(jì),結(jié)合了 TP 和 AP 的功能,性能也還湊合,但現(xiàn)在專門的分析系統(tǒng)比 HTAP 做得更好,它只能算是一種權(quán)宜之計(jì),但是將來有可能會有突破。
AI科技大本營:應(yīng)該如何進(jìn)行改進(jìn)以取得突破?
Alexey Milovidov:也許可以復(fù)制不同的數(shù)據(jù)結(jié)構(gòu),現(xiàn)在可以利用多副本機(jī)制,即異構(gòu)副本機(jī)制存儲兩份不同的數(shù)據(jù)結(jié)構(gòu),一份面向于事務(wù)類型的存儲,一份面向于分析型類型存儲。當(dāng)然這是一個很難的事情,但是通過復(fù)雜的工程實(shí)現(xiàn)這一點(diǎn),也能達(dá)到很好的效果。這其中還有一個挑戰(zhàn),分析系統(tǒng)的數(shù)據(jù)處理量巨大,但是現(xiàn)在新硬件,包括非易失性存儲和專用計(jì)算芯片等硬件加速設(shè)備,使得之前的一些設(shè)計(jì)變得可能。
AI科技大本營:Yandex 是否有類似于 HTAP 的產(chǎn)品應(yīng)用?
Alexey Milovidov:去年,Yandex 推出了一款產(chǎn)品專用于 Yandex 云數(shù)據(jù)庫的產(chǎn)品,叫做 Yandex Database,就是為了 HTAP 而推出的。
AI科技大本營:請您用簡單易懂的話解釋一下 ClickHouse 及其特性,和其他相似產(chǎn)品相比最大的優(yōu)勢體現(xiàn)在哪里?
Alexey Milovidov:ClickHouse是一個免費(fèi)的面向事件處理的分析型數(shù)據(jù)庫系統(tǒng),它最大的特點(diǎn)就是快,俄文中 ClickHouse 就有快速的意思,它可以讓用戶快速進(jìn)行大量查詢而不減慢速度。
AI科技大本營:ClickHouse由于其特性受到很多企業(yè)和個人用戶的青睞,但是同時也有一些不完美的地方,比如不支持事務(wù),不支持Update/Delete操作,支持有限的系統(tǒng)等,將來發(fā)布的新版本會改善這些點(diǎn)嗎?
Alexey Milovidov:ClickHouse 不僅是開源的,未來也有改進(jìn)的計(jì)劃,來年有望支持事務(wù)以及更好的Update/Delete 操作,并支持更多的系統(tǒng)。關(guān)于 2020 年的更多詳細(xì)計(jì)劃,可以查看這個項(xiàng)目的 GitHub 。
Github地址:
https://github.com/ClickHouse/ClickHouse/blob/master/docs/ru/extended_roadmap.md
AI科技大本營:2016年,ClickHouse 中文社區(qū)就已經(jīng)成立了,近年來發(fā)展勢頭比較迅猛,未來ClickHouse在中國有哪些相關(guān)部署與規(guī)劃?
Alexey Milovidov:明年,我們可能將會在杭州、廣州、南京等城市進(jìn)行更多的 Meet Up,并同時與字節(jié)跳動等中國企業(yè)接觸。另外,今年新年期間,可能還有一些針對本地化的有人文情懷的設(shè)計(jì)推出,帶給用戶一些小驚喜。
AI科技大本營:您所關(guān)注的技術(shù)領(lǐng)域最近有哪些研究或應(yīng)用的新趨勢?可以解決現(xiàn)在大數(shù)據(jù)領(lǐng)域的哪些問題?
Alexey Milovidov:第一,數(shù)據(jù)庫技術(shù)將與 AI 技術(shù)將有更多的結(jié)合;第二,整合專用硬件加速設(shè)備;第三,不同新興數(shù)據(jù)庫領(lǐng)域的融合,TP 和 AP 將會有更多融合。這些趨勢將會解決迅速增長的數(shù)據(jù)量帶來的挑戰(zhàn),更好的硬件也能更有效地解決問題,并讓用戶更簡單地使用關(guān)系型數(shù)據(jù)庫。
AI科技大本營:未來,數(shù)據(jù)庫領(lǐng)域?qū)l(fā)生什么變化?比如非關(guān)系型數(shù)據(jù)庫的市場份額將繼續(xù)增長甚至超過關(guān)系型數(shù)據(jù)庫嗎?您對數(shù)據(jù)庫領(lǐng)域未來的發(fā)展有哪些展望?
Alexey Milovidov:SQL 還將繼續(xù)是主流語言,但是會改進(jìn),進(jìn)行更多拓展,變成一個更專業(yè)的系統(tǒng),市場會更大,而 NoSQL 將縮小與 SQL 之間的差距,市場對它仍有需求。在數(shù)據(jù)庫領(lǐng)域,將來可能會更多地與多領(lǐng)域進(jìn)行整合,比如用 AI 輔助設(shè)計(jì),進(jìn)行時序分析等。另外,盡可能讓當(dāng)前的數(shù)據(jù)庫系統(tǒng)能夠存儲各式各樣的數(shù)據(jù),包括現(xiàn)在很多的物聯(lián)網(wǎng)數(shù)據(jù)傳感器、圖片、音像、地理信息等信息。之前我們是沒有考慮過這些的,但現(xiàn)在有這樣的發(fā)展趨勢。
采訪嘉賓:Alexey Milovidov,俄羅斯 Yandex 公司 ClickHouse 開源社區(qū)創(chuàng)始人,ClickHouse 項(xiàng)目的創(chuàng)始人,這是一個開源的分析數(shù)據(jù)庫管理系統(tǒng)。2008 年畢業(yè)于莫斯科國立大學(xué)力學(xué)與數(shù)學(xué)系,獲數(shù)學(xué)專業(yè)學(xué)位。此后,他在 Yandex LLC 工作,領(lǐng)導(dǎo) Yandex Metrica(類似于谷歌 Analytics 和百度統(tǒng)計(jì))引擎開發(fā)團(tuán)隊(duì)和 ClickHouse 開發(fā)團(tuán)隊(duì)。他有 11 年 C++ 編程語言開發(fā)專用數(shù)據(jù)結(jié)構(gòu)的經(jīng)驗(yàn)。
(*本文為AI科技大本營原創(chuàng)文章,轉(zhuǎn)載請微信聯(lián)系 1092722531)
總結(jié)
以上是生活随笔為你收集整理的clickhouse建库_专访ClickHouse创始人:数据库竞争依旧火热,技术整合势在必行的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ol xyz 加载天地图_OpenLay
- 下一篇: html语言可以干什么,JavaScri