【2017年第2期】感悟大数据——从数据管理和分析说起
周傲英
華東師范大學數據科學與工程學院,上海 ?200062?
摘要:大數據依然很熱,對其解讀也越發眾說紛紜。結合筆者長期以來的研發經歷和深層思考,討論了對“大數據”本身、“大數據”國家戰略、“互聯網+”行動計劃的理解。在大數據語境下重提數據庫理念,說明這對于理解數據管理的發展趨勢、把握技術發展的機遇有著重要的意義。此外,從一個資深的IT學者和實踐者的角度,討論近10年來IT發展范型的變化,介紹了近5年來筆者領導研發的3個數據管理系統,提出了分享型數據的概念,作為區塊鏈背后的基本思想的抽象。
關鍵詞:大數據;數據庫理念;互聯網+;分享型數據庫
中圖分類號:TP399 ??文獻標識碼:A
doi: 10.11959/j.issn.2096-0271.2017014
Understanding on the big data:beyond the data management and analytics
ZHOU Aoying
School of Data Science and Engineering, East China Normal University, Shanghai 200062, China?
Abstract:?Big data is still a buzzword, and more and more people are talking about it with various kinds of different explanations. Based on writer’s understanding, the big data, big data strategy and “internet plus” initiative will be discussed here. The database philosophy was revisited, for understanding the development of data management is meaningful to catch the good opportunities in big data era. Moreover, from the point of view of a senior IT professional, the development paradigm for IT has been shifted in the past decade. The change was described, and three systems and their development and deployment were presented. A new concept, sharing database, was proposed to catch up the notion behind the block chain.
Key words:?big data, database philosophy, internet plus, sharing database
論文引用格式:周傲英.?感悟大數據——從數據管理和分析說起. 大數據[J], 2017, 3(2): 3-18.
ZHOU A Y.?Understanding on the big data:beyond the data management and analytics. Big data research[J], 2017, 3(2): 3-18.
1 ?引言
已經不記得第一次看到或聽到“大數據”這個詞是在什么時候了,應該比2012年3月29日要早不少時日。2012年3月29日,前美國總統奧巴馬的科技政策辦公室(Office of Science and Technology Policy, OSTP)宣布了投資兩億美元的“大數據研究和發展計劃”。也是在同一天,我國科學技術部發布的“‘十二五’國家科技計劃信息技術領域2013年度備選項目征集指南”把大數據研究列在首位。目前,大數據的熱度似乎還在繼續攀升,廣度的延伸更是超乎預期。2012年5月28日,每年一度的數據庫審稿會暨戰略研討會在新疆大學召開,按照中國計算機學會數據庫專家委員會(以下簡稱專委會)的安排,李建中老師和筆者代表專委會給新疆大學的師生做學術交流報告。筆者當時的報告題目是“大數據時代的若干數據管理和分析問題”,討論的話題主要包括:大數據的分類及管理、新興的開源數據管理工具以及硬件發展(特別是內存計算)對數據管理與分析技術的影響。李老師的報告是關于大數據計算的,從李老師那里筆者了解到國內的大數據熱已經風起云涌,蔓延到各個領域和各個層面。聽了李老師的報告,受到啟發,產生了一種想從數據庫學者的角度來詮釋大數據研究的沖動,于是就主動提出要在2012年10月合肥召開的第29屆中國數據庫學術會議上作一個題為“從數據庫觀點看大數據研究”的大會報告。因為這次報告,隨后筆者多次受到邀請在不同場合介紹自己的觀點和認識,也有機會得到更多的指點。專委會指派李戰懷、王國仁和筆者以相同的主題把觀點整理出來,作為提交給中國計算機學會的年度發展報告。方糧教授在了解相關內容后,推薦筆者和各位老師將稿件發表在《計算機工程與科學》上[1]。
作為一個數據庫學者,當突然意識到“大數據”已經變成人人都在說的一個熱詞的時候,感覺非常特別。首先是一種本能的抵觸,數據庫本來就是研究怎么管理數據的,為什么要提出一個新的詞,這很像2008年那場著名的關于MapReduce的辯論上數據庫學者的反應。然后就會反思為什么在數據庫輝煌50多年之后還會再出現“大數據”,而且更加風靡,Michael Stonebraker在獲得圖靈獎以后的演講中也說明了這種反思[2]。2016年5月25日,貴陽數博會期間,杜小勇教授組織了“第一屆大數據科學與工程國際會議(2016) (BDSE2016)”中的“大數據分析與管理”主題論壇,筆者在會上的發言題目是:“從管理和分析說起:感悟大數據”,一是為了契合杜教授主題論壇主題,二是想分享自己這么多年的思考或曰感悟。
從1985年本科畢業后開始讀數據庫方向的研究生算起,筆者從事數據庫學習和研究已經30多年了,對數據庫很有感情,也有較為深刻的認識。受Jim Gray提出的科學發現第四范式的啟發,2007年開始申請“國家杰出青年科學基金”時,就把主攻研究方向定為“支持數據密集型計算的數據管理”,這樣算來也有10年時間了。2012年6月,在SAP公司的資助下,筆者得到華東師范大學的支持,成立了“華東師范大學云計算與大數據研究中心”,主要目的是聯合國內高校開展內存及數據庫等新興計算和應用環境下的數據管理技術和系統,云計算和大數據研究中心的根本宗旨就是踐行大數據體現的協同創新精神,迄今也有近5年。在此基礎上,遵照華東師范大學的要求,華東師范大學數據科學與工程研究院作為一個二級實體單位于2013年9月26日正式成立,以大數據為背景的數據科學與工程學院已于2016年9月26日宣布成立,開展數據科學與工程[3]這一交叉學科從本科到博士的人才培養。介紹這些,是想說明筆者有資格發表有關大數據的一些感悟。這里的思考和感悟主要圍繞以下幾個方面展開:大數據何以成為國家戰略?為什么要重提數據庫理念?IT發展范型有何改變?最后結合筆者在概念和系統方面的思考和實踐說明筆者在踐行大數據方面的相關理念。
2 ?大數據何以成為國家戰略
大數據在世界范圍內都很熱,這是事實。據《參考消息》2012年12月12日報道,在美國的2012年十大流行詞評比中,“大數據”名列第二,排名第一的是“財政懸崖”,后者是2012年美國人最為關心的政治事件。2012年底筆者在新聞上讀到一些政府為推動大數據產業的發展,要規劃大數據產業園區,成立大數據局,當時還覺得似乎是反應過度,更沒有想象到會出現貴陽數博會這樣的場面。無論這種潮流何去何從,筆者可以分析一下出現如此局面的原因。
2.1 ?大數據全景圖
一開始,對于“全民大數據”現象總覺得匪夷所思,認為大數據是很技術的一件事,應該是從事技術研發甚至是數據庫研發的人才適合談論這一話題。仔細想想,大數據是和現實應用密切相關的,而信息時代的各種應用服務都涉及數據,所有關心應用的人談論大數據都是合理的。也就是說“全民大數據”現象沒什么值得大驚小怪的。筆者喜歡用一個倒三角來描述這種場景,如圖1所示。
圖1??大數據全景圖
倒三角分成3層,最上面一層也是最廣泛的一層代表的就是應用,凡是和應用相關的人士都可以被納入大數據全景之中。這一層從右到左顏色也從淺變深,想表達的意思是真正實現大數據理念也是從易到難。大數據之所以能成為流行詞,深入人心,主要是因為在互聯網企業中取得極大成功。早期的互聯網企業,都是起步于在線娛樂游戲、搜索引擎或是網上購物。這些互聯網應用的共同特點就是:其商業模式(或曰業務模式)都是自創的,沒有受到線下現實社會的太多約束。換一句話來說,就是這些應用是虛擬世界中的應用,和現實世界關系不大,應用涉及的業務邏輯可以自行設定,涉及的戰線比較短,需要的數據都是互聯網企業能收集和掌握到的。在我國,百度、阿里巴巴、騰訊(BAT)起家的業務模式都是這種類型,百度是做搜索引擎起家的,阿里巴巴是做電商起家的,騰訊是做即時通信和在線娛樂起家的。BAT的成功振奮人心,也給人們帶來無限的想象空間,但是要想在健康醫療和教育領域甚至社會治理等領域復制BAT的成功,困難程度遠非預想。這既有戰線長、數據孤立、難以形成閉環的原因,也有內生機制(也就是人們常說的互聯網基因)的原因。BAT依靠其在虛擬世界的成功以及這種成功帶來的資金、人才和管理方面的優勢,強勢進入現實世界的其他應用領域,這是當前的一種重要趨勢。國內互聯網企業稱之為從線上到線下(online to offline,O2O),也就是利用互聯網思維滲透到線下現實應用,帶來的是跨界、顛覆和倒逼。
倒三角的最底下一層,代表大數據這個大家族中小眾的那個群體,即IT。在互聯網企業,對應的就是計算系統或計算平臺。對作為信息服務業的互聯網企業而言,雖然它們不是IT企業,但IT能力是企業的核心競爭力。用倒三角的最底層表示IT恰如其分,一個倒立的三角形是不是穩固,關鍵還是要看其IT能力夠不夠尖端,能不能很好地支撐上層的計算需求和應用需求。
倒三角的中間一層代表建模和算法。在互聯網企業,隨著用戶規模的增長,與用戶相關的交易數據和交互數據(合起來可以稱為行為數據)呈指數級增長,如何利用好這些數據是衡量互聯網企業贏利能力的關鍵。對這些數據進行實時分析來實現精準營銷和風險控制,是其中的典型應用,說得直白一點,就是常見的在線廣告和個人對個人(peer to peer,P2P)金融。與這個層面對應的專業人士主要包括數理統計、矩陣計算和數值優化等應用數學領域的專家。當然,他們最重要的作用就是基于其堅實的數學功底,深刻理解應用,并在底層的計算平臺上把他們的知識變成算法予以實現。這些專家的重要性不言而喻,人們會稱他們為“數據科學家”“首席科學家”。一個企業或是一個行業,隨著應用的深入,這一層面會變得越來越重要,也就越來越厚。當下時髦的深度學習、人工智能也都是誕生于這一層面,是為了強調其重要性。
2.2 ?大數據熱的由來
上文用倒三角形容大數據人員群體的全景。為了說明大數據為什么會變得那么熱,首先來看看大數據這個倒三角的演化過程,如圖2所示。
圖2 ?大數據演化過程
圖2為大數據的演化過程。在互聯網出現的時候,原本沒有大數據的說法,有的只是想象當中的應用,也就是企業家心目中的創新型的應用。拿馬云來做例子,這個應用就是免費的eBay,或是說之后的阿里巴巴或淘寶。在最初的階段,整個倒三角就是應用。為了實現企業家心目中的應用,要有IT專業人士搭建計算機系統和計算平臺。在這個階段,因為資金和技術都極其有限,只能用最廉價最省錢的方式完成任務,就阿里巴巴而言,應該是“十八羅漢”中的程序員用開源的軟硬件技術完成了任務。這個階段結束以后企業就可以上線了。隨著用戶的增加和收集的用戶行為數據(包括交易數據和交互數據)的快速增長,下一步要做的工作就是精準營銷或是風險控制,這是企業贏利和發展的關鍵所在,需要應用型數學家的介入。正因為其關鍵作用,人們用“大數據分析”“深度學習”“人工智能”描述這個過程,用“數據科學家”指代從事數據分析的人群。整個演化過程可以分成3個階段:第一個階段是應用階段,第二個階段是IT階段,第三個階段是大數據階段。盡管大數據階段至關重要,但應用階段的商業模式以及IT階段的平臺搭建更是決定性的。從這個演化過程不難看出,對大數據的理解和認識不能只停留在欣賞其表面,那樣很容易使其神秘化和玄虛化,更需要了解其賴以存在的載體,即成功的業務模式和IT支撐環境。
大數據為什么會熱起來?那是因為有了互聯網。最早討論類似大數據這樣的概念應該是在數據庫以前,這個觀點在筆者翻譯的《海量數據分析前沿》[4]有論述。20世紀40年代,世界第一臺回旋加速器在美國伯克利建成運行之后,科學數據管理就成為一個極具挑戰性的問題。Jim Gray生前幾年一直在倡導科學觀測和科學實驗等科學大數據的研究,人們把這個總結成科學發現的“第四范型”[5]。但是,真正能讓大數據深入人心、讓人們喜聞樂見的原因,究其緣由,還是互聯網。“互聯網改變世界”,這是20多年前很多學者向聽眾介紹互聯網時常說的一句話。當時并沒有引起太多注意。互聯網改變世界的根本原因在于它改變了人與人之間的連接(people connection),并且通過注重用戶體驗(user experience)體現以用戶為中心的理念。這兩點是革命性的改變,連接的改變不單單是距離或時間的縮短,也不單單是常說的任何人(anyone)、任何時間(anytime)和任何地點(anywhere),形形色色的社交網絡和媒體平臺都提供了人與人建立連接的渠道。因為是在線連接,用戶體驗的改善也變成現實可行的。人們在線期間的顯式或隱式的反饋為分析用戶體驗提供必要的基礎,顯式的反饋包括用戶主動輸入的評論或建議,隱式的反饋包括用戶的在線日志(上網時間、地點和訪問路徑等)。收集到的海量用戶數據反映了用戶的方方面面,對這些數據進行協同過濾和深度學習等智能分析,就可以很清楚地了解用戶的喜好和意圖(所謂的用戶畫像),目的是進行精準營銷(計算廣告)和風險控制(如P2P金融)。
大數據的本質就是原本各自孤立的數據得以互相關聯、融合。上文討論的Web大數據是這樣,傳統的企業大數據也是一樣,科學大數據更是如此。大數據之所以在這個時代成為一個熱點,是因為互聯網為數據的匯聚提供了平臺和可能性。再用一個通俗的例子來說明,網上暴力“人肉搜索”就是大數據應用的典型。當一個人突然成為“網紅”,通過社交媒體或其他在線媒體得到大家的關注,激發了大家的娛樂興致,廣大網民通過網絡把原本分散在不同人手上的信息匯聚在一起,通過大家的添油加醋反復迭代的加工和處理,就會形成一波或長或短的娛樂浪潮。
作為一個從事數據庫系統研究的學者,喜歡從大數據支撐系統的角度把大數據分成前面提到的三大類:Web大數據、決策(或商業智能(business intelligence, BI))大數據和科學大數據,因為支撐這3類大數據的系統有明顯的差別。Web大數據出現最晚,也就十幾年的時間,與有40多年歷史、靠數據庫系統支撐的決策大數據以及有更長歷史、被科學和統計數據庫管理(SSDBM)會議關注的科學大數據相比,它的受眾(廣大網民)最多,目標(贏利賺錢)也最簡單。互聯網企業特別注重用戶體驗,這有其內生動力,因為互聯網經濟本質上就是“眼球經濟”“粉絲經濟”或曰“人氣經濟”,它把“人與人連接”以及“用戶體驗”這兩大革命性的法寶的功能發揮到極致。互聯網企業的極大成功,再加上活生生、通俗易懂的例子,告訴了人們什么是“大數據”。
2.3 ?大數據國家戰略
互聯網企業是使大數據變得炙手可熱的重要推手。除此之外,還有一些客觀原因。從技術上來說,Web大數據有Hadoop這樣的“明星”系統,開源的Hadoop形成了不同于傳統模式的創新社區。因為有了Hadoop開源社區的成功,信息技術的創新就突破了原先由跨國IT企業主導的壟斷局面,形成了“大眾創業、萬眾創新”的局面。這一點對我國特別有意義,有啟示性的意義。在信息技術上我國企業一直受制于西方國家尤其是美國主導的跨國大企業,幾十年來,這些企業采用“在低端慫恿盜版、在高端淘空人才”、釜底抽薪的策略,成功使得我國的信息化基礎設施建設嚴重依賴于他們。導致的結果,不僅僅是我國付出了高額的成本,嚴重影響信息化建設的推進和廣大人民群眾對信息化成果的享受,更為重要的是,國家經濟和社會安全存在重大隱患。近幾年來,隨著“維基泄密”和“棱鏡門”事件的發生,逐漸深刻地認識到“沒有網絡安全就沒有國家安全”這個基本的道理。基于成本和安全的考慮,我國提出了“技術領先、企業先進、自主可控、安全可靠”的新時期信息技術發展戰略。
大數據時代信息技術的發展范型發生了根本性的變化,這一點在第4節還會展開討論。這一發展范型的轉變為我國在信息技術領域趕超世界先進水平提供了機會。傳統的發展范型下,我國的信息技術發展受到了極大的制約,失去了發展的機遇。互聯網企業的成功給我國帶來啟示,幫助人們打破一直以來對壟斷性IT企業及其產品的迷信。在信息技術的發展道路上,跨越式發展和彎道超車是時常發生的現象。對于我國的IT專業人士而言,現在比歷史上任何一個時期的機遇都要好,都要真實。壟斷的跨國IT企業還沉浸在以前那種在中國屢試不爽取得巨大成功的商業模式中,而中國的應用對IT技術的需求卻發生了巨大的變化。中國的互聯網企業做出了重要的貢獻。2013年,當阿里巴巴宣布其成功做到在IT架構中“去IOE”時,得到了廣泛的關注和認可。去掉IBM的小型機、Oracle數據庫和EMC的高端存儲,代之以自己基于開源軟件開發的系統,這是互聯網企業在處理大數據時總結出來的經驗,也代表了我國IT人的心聲。
以上是從技術層面討論了大數據之所以成為國家戰略的原因。大數據對人們的意義不只是在技術層面。正如互聯網是催熱大數據的主要因素一樣,互聯網也是大數據成為國家戰略的主因。前文說到,互聯網的本質體現在連接人和用戶體驗兩個方面。用戶體驗就是利用大數據進行用戶行為分析和畫像,是實實在在的大數據分析。互聯網企業的成功就得益于其在用戶體驗方面的精益求精以及新穎的商業模式和討巧的贏利方式。互聯網經濟的本質就是在各自營造的虛擬世界里聚集人氣,等有了足夠的人氣再利用收集的數據精確分析用戶行為,投其所好,注重用戶體驗,用“羊毛出在豬身上”的方式來盈利。人們起初把這種模式稱為“流量變現”,等認識深刻一點以后,發現其背后真正的邏輯是“數據變現”。這種邏輯是早期互聯網企業的共同邏輯,因為基本邏輯是一樣的,他們的發展自然就會殊途同歸。舉人們熟悉的例子,百度、阿里巴巴、騰訊是我國互聯網企業的成功代表,它們起步的時間差不多,但是聚焦的業務差別很大,分別是搜索引擎、電子商務和即時通信。可是,經過21世紀初以來的十幾年的發展,三者業務卻不知不覺地變得雷同,競爭也針鋒相對。相信對2015年春節前后的支付寶和微信紅包的大戰還記憶猶新,原因為:支付是互聯網的連接功能中最緊密的一種連接,抓住了一個用戶的支付,就能更緊地把這個用戶連在自己的平臺上。對支付的競爭就是新一輪的用戶之爭、人氣之爭。業務的雷同,根本原因就是在線虛擬世界的“眼球經濟”本質相近,蛋糕有限,把蛋糕做大,從線上走到線下是成功后的BAT的唯一出路,所以就出現了中國互聯網世界特有的O2O這個概念。對起步于線上虛擬世界的互聯網企業而言,線下的現實世界就是其大有作為的廣闊天地。在這樣的背景下,騰訊2012年提出的“互聯網+”在2015年的兩會上被賦予了更廣泛的含義,成為國家層面的行動計劃。按照以上思路來理解,“互聯網+”行動計劃的根本目標就是所有行業包括政府本身,效仿互聯網企業的做法(或者說是遵循互聯網思維),利用大數據從提升用戶體驗的角度提供產品或服務。在某種意義上而言,最近提出的供給側結構性改革也遵循了同樣的思路。
按照出現或提出的先后順序,從“互聯網”到“大數據”,再到“互聯網+”和“大眾創業、萬眾創新”,直到2015年提出的“供給側結構性改革”,它們都是一脈相承的。供給側結構性改革更著重的是需求側,想方設法滿足、釋放、激發乃至創造需求是其核心。互聯網企業在這方面做出了很好的榜樣,它們是充分利用了大數據才得以做到這一點的。從這個意義上來說,“大數據”成為國家戰略順理成章。
3 ?重提數據庫理念的原因
數據庫概念的誕生迄今為止已經有50多年了,發生在計算機從最初純粹的計算領域轉到商業應用領域的20世紀60年代。數據庫的誕生也是由應用來推動的,這與當前大數據概念誕生的情景非常相似。不同點在于數據庫技術和系統成熟以后,出現了Oracle這樣的大型企業,主導了數據庫技術的市場生態構建,也影響著數據庫技術的發展和進步。在大數據時代,代之出現的不再是類似Oracle這樣的企業和生態,而是Hadoop這樣的開源社區和生態。還有一點相同之處,數據庫發展的原點或者說起點是文件系統,初學數據庫課程時,第一章的主要內容就是比較數據庫和文件系統的異同點。作為真正意義上的第一個大數據系統,奠定Hadoop基礎的第一篇論文就是2003年發表的關于谷歌文件系統(GFS)的文章[6],而后才有2004年為方便非專業人士編程使用的MapReduce文章發表[7]。數據庫和大數據出發的原點都是文件系統,這是一個重要的認識。認識到這一點的重要意義在于,在探索支持其他業務的數據管理技術時,可以參考數據庫和當前大數據的經驗,從原點的文件系統開始,在觀念和實踐上少走彎路。
把數據庫和大數據放在一起來討論,是試圖站在更高的角度來看數據庫和大數據。以前筆者討論過如何站在數據庫角度看大數據,也討論過如何在大數據角度來看數據庫。在這里,可以把“大數據”狹義地當作一個技術和系統,這樣的話,可以把數據庫和大數據放在同等的地位來比較和討論。數據庫是從文件系統這個原點出發的,走過了50多年,形成了數千億美元的巨大技術市場。大數據也是從文件系統這個原點出發的,走過了10多年,形成了當前風靡一時的開源生態系統,促成了“萬眾創新”的局面。兩者都是因為應用的推動而誕生,時下所面對的新型應用異彩紛呈,目不暇接。在“互聯網+”行動計劃和“大眾創業、萬眾創新”的號召下,傳統業務模式的再造和創新性業務模式的提出都對數據管理提出了不同于數據庫或大數據的需求。也就是說,從原點文件系統出發,未來可以預期的是針對不同的應用,會有許多類似于RDBMS、Hadoop的系統誕生。從原點出發,360°的每個方向都可能走出一條路。要想理解怎么才能走出一條路,就應該深刻理解為什么數據庫能取得如此大的成功。
3.1 ?數據庫理念
數據庫作為一類重要的系統軟件,在計算機系統中具有舉足輕重的作用,數據庫也因而發展成一個重要的學科方向。按照國際上通用的學科分類方法,計算機科學這個學科可以進一步細分為4個分支:人工智能、程序設計語言、系統、理論計算機科學。系統包括各類軟硬件系統和應用系統,是計算機學科的重要部分,體現了這一學科的重要特點。數據庫作為系統分支中的一個重要方向,歷經50多年發展,學科內涵日趨豐富,其中最核心、最區別于其他方向的內涵稱之為“數據庫理念(database philosophy)”,其基本含義就是真正研習數據庫、能理解數據庫精髓的人會不自覺地按照這種理念去思考問題、分析問題和解決問題。可以說這是數據庫人的一個基本素質、一種習慣。在筆者看來,數據庫理念就是兩個字——“抽象”。50多年前產生數據庫概念和系統,就是源自于“抽象”。對數據語義(data semantics)的抽象, Codd E F提出了關系數據模型;對業務邏輯(business logic)的抽象,Jim Gray完善了事務處理模型。縱觀歷史,數據庫就是因為關系模型、事務處理,再加上查詢優化(系統實現、索引等)這三大成就,造就了數據庫50多年的輝煌和數千億美元的市場。
抽象本身就是概括和泛化,就是從具體到一般,抽取出事物的共同點。數據庫理念中的抽象可以歸結成兩個方面:語義抽象和業務抽象。語義抽象本質上指語義的抽取。在一般文件系統中的數據,其語義是完全混在數據的表示之中的,擺脫了數據的表示無法談數據的含義。在關系數據庫中,關系模型作為一個建模工具,要求在進行數據庫設計的時候,把語義從數據的表示中完全剝離出來,數據的語義完全反映在關系模式上。用另外一句話來說就是內容和結構的分離,這也是所謂結構化數據的確切含義。相比之下,在從事多媒體研究的專業人士眼里,其更多面對的是所謂的非結構化數據,諸如信息檢索、圖像處理、自然語言處理等,他們能做到的就是特征選擇或特征抽取,特征作為語義,但沒法像數據庫那樣完全分離開來。在這個意義上來說,關系數據庫的語義抽象是一個極端的例子。在業務抽象方面,事務處理也是一個極端的例子,在關系數據庫管理系統(relational database management system,RDBMS)早期的發展中,將記賬、訂票和銀行轉賬等業務抽象成統一的事務處理。當然,隨著應用的推廣,應該根據對業務的理解進行不同層次的抽象。數據庫以后出現的TPMonitor和事務中間件也是一種抽象,在Hadoop中,MapReduce本質上也是一種業務抽象。
3.2 ?大數據語境下的數據管理
抽象是數據庫的基本理念,秉承這種理念來看數據管理技術和系統的發展脈絡,可以站在更高層面理解當前的大數據熱,也可以展望數據管理技術和系統的發展趨勢。數據庫是數據管理的“溫飽”階段,其信守的原則是“one size fits all”,之前的數據庫人以及其他領域的人都接受了這個認識。將數據庫看作數據管理的“溫飽”階段,就是因為人們認為所有有關數據管理的事情都要由數據庫來解決。“大數據”概念的誕生,標志著數據管理進入“時尚”階段,人們為了解決數據管理問題不再求助于數據庫系統,開始研發適合自己的系統。如果說在數據庫時期,解決數據管理問題需要“削足適履”來使用數據庫系統,那么到了大數據時代,人們開始根據每個不同的應用度身定制自己的系統,也就是“量足制鞋”。隨著Hadoop大數據系統的成功,數據庫人開始意識到“one size doesn’t fit all”。
在經歷短暫的迷茫和苦悶之后,數據庫界很快提出了“one size fits a bunch”的獨到見解。這一見解充分體現了數據庫理念。度身定制一個系統是谷歌公司以Jeff Dean為首的技術人員為解決快速準確搜索問題而進行的,他們的文章[6,7]發表以后,Hadoop卻出乎意料地出現、開源了,并且很快得到廣泛的關注,人們開始改進和完善Hadoop,用它來解決更多其他的應用問題。這實際上就是走了“one size fits a bunch”的道路。為了能適用一捆(a bunch)應用,就要對應用進行抽象。基本的發展路徑為:最初的系統是因為要滿足具體的應用而設計研發的,成功應用以后可以看其他相似的應用是否可以使用這個系統。隨著開源或更多人的加入,根據對相似應用的抽象,進一步改進和完善系統,這個過程是一個迭代的過程,也是一個從具體到一般的抽象過程。對于系統研發人員,不是數據庫時代那樣追求“one size fits all”。對于應用開發人員,在具體應用開發時也不需要“削足適履”,而是在開源社區里尋找合適的開源軟件作為支撐系統的基礎。
人們在談到大數據時往往是在談數據分析,是在討論如何靠數據分析來分析用戶行為,改善用戶體驗,也就是如何利用大數據做精準營銷和風險控制。這一類的數據分析不追求百分之百的精確,往往是以排序或概率的形式呈現結果。當第一批成功的互聯網公司經過十幾年的發展,逐漸走向同質化、形成直接競爭的時候,其共同做法就是把“蛋糕”做大,從線上走到線下。與此同時,在“互聯網+”行動計劃的號召下,越來越多的傳統業務會接受互聯網和大數據思維,立足提升用戶體驗,創新業務模式,從線下走到線上,稱之為反向的O2O。這兩種O2O基本構成了“互聯網+”的具體實踐局面,其共同之處就是把傳統的線下現實世界中涉及人、財、物交易的情形移到互聯網上來實施。與典型的分析型的大數據應用不一樣,財物的交易要做到絕對精確,要有類似數據庫系統那樣的恢復和容錯機制,這就是互聯網級的任務關鍵型(mission-critical)應用,或是說,面向互聯網級應用的事務處理系統。舉例來說,在競爭日趨激烈的形勢下,金融、電信等服務行業都樂于采用類似“秒殺”這樣的互聯網化的促銷手段。“秒殺”指的是在特定時刻推出一定量的優惠產品,通過媒體和廣告宣傳,吸引大量潛在客戶進行搶購,從而在促銷的同時達到宣傳作用,進而帶動其他產品銷售。對于IT支撐系統的開發和運維人員而言,“搶票”“秒殺”等銷售行為,由于其接入用戶量巨大,為后端的票務管理、訂單管理、物流以及支付等核心信息系統造成了短時超高負載。從用戶規模看,這樣的應用是“互聯網級”的;從應用特征看,它們是核心或關鍵任務應用;從負載特征看,它們面臨的是“現象級(phenomenal)”的負載。這一類系統在我國有很大的發展空間,阿里巴巴陽振坤博士領導開發OceanBase系統的初衷就是為了支撐“雙十一”購物節超高頻度的交易和支付。
我國的信息化程度和水平相比西方發達國家要落后一些,互聯網的普及使得我國有絕佳的機遇在信息化推進方面實行跨越式發展,甚至實現超越。我國的人口基數以及近年來網民數量的劇增、新型信息服務的快速發展,對支撐互聯網級任務關鍵型應用的系統的需求越來越迫切。“垂直化”是這些應用的一個重要特征,即事務處理、分析處理一體化,與應用邏輯形成閉環,如圖3所示。對于金融欺詐檢測、實時信用報告查詢、電信故障報警等應用而言,傳統的從事務系統向分析系統的批量導入、閑時導入方式不能滿足應用的實時和高一致性需求。而這兩點正是事務處理的關鍵。因此,實時數據注入也是互聯網級應用的重要需求。
圖3 ?支撐互聯網級任務關鍵型應用的數據系統
3.3 ?關于開源軟件的聯想
上文討論了支撐互聯網級任務關鍵型應用的數據系統,幾年前谷歌公司就發布了有關F1和Spanner系統的消息,但是都很簡單,難以窺其全貌。雖然其系統是與在線廣告有關的,但是由于涉及數據一致性和事務處理,對于支撐任務關鍵型應用還是很有價值的。筆者最近得知,谷歌作為一個搜索引擎互聯網公司已經開始招收大批傳統的數據庫學者和專家加盟,說明事務處理等傳統數據庫概念和技術在互聯網環境下重新引起了關注。現實世界的應用需要數據庫,虛擬世界的應用又在以極快的速度和現實世界接軌融合,在新的應用環境中,數據庫也同樣被需要。隨著我國“互聯網+”行動計劃的推進,對這類系統的需求也就越來越迫切。
在開源社區里,類似Hadoop和Spark的分析軟件琳瑯滿目,國內的同行也使用得得心應手。但如果沒有開源軟件,國內專家是否有勇氣做自己的開源系統,營造出一個良好的開源文化和生態,這個問題至關重要。開源是新一輪IT創新最大的特點,也是我國IT界難得的機遇。如果沒有在開源文化和開源生態方面有所進步,注定會錯過這一輪的發展機遇。雖然“大眾創業、萬眾創新”提供了良好的輿論和政策環境,但真正理解并且付諸實踐則完全是另一回事。由此筆者聯想到“小偷和強盜”的場景。
“小偷和強盜”場景是這樣的。20世紀90年代,中美兩國圍繞加入WTO展開了多次知識產權談判,軟件盜版和專利保護成為爭執的焦點,我國的貿易談判代表處于被動局面,被推到風口浪尖。1991年11月21日,時任副總理的吳儀前往華盛頓與美國代表團展開新一輪談判,尚未落座,就遇到了美國貿易副代表沃夫的挑釁,沃夫說,中國人盜版,是小偷,他這次是要來和小偷談判的。吳儀副總理在沃夫話音未落之時就回敬,“我們也曾經遇到過強盜,我們是來和強盜談判的”。
2013年,筆者受邀擔任中國大數據技術大會(BDTC 2013)程序委員會主席,全程參加了12月5日和6日兩天的大會。直接的感受就是,與會代表熱情很高,與會者都是購票入場,兩天的會議有超過2 000人參會,場場爆滿,這與學術界的很多活動形成鮮明對比。這次參會給筆者耳目一新的感覺,也引發一些思考。在準備大會最后的發言時,筆者的眼前浮現出“小偷和強盜”的場景。筆者當時發言的大致意思是:這實際上是一個Hadoop用戶大會(盡管當時請了Spark的Ion Stoica來演講),只是因為Hadoop是開源的,沒有盟主。包括來自BAT的大多數報告都在說明如何將Hadoop用得好、用得有效,系統的節點很多,數據量很大,服務的人群很大,名列世界第一。這些都是成功的,值得肯定的。可是,很少或者說幾乎沒有聽到介紹如何開發新的功能回饋到Hadoop開源社區中去。筆者認為,只有那樣才能贏得尊重和欽佩,而不只是僅僅被認可。如果只是想從開源的“池子”里獲取想要的免費開源軟件,而沒想到要貢獻自己的代碼和軟件,這無疑還是一個“小偷”,或者說還是小偷心態。小偷越偷越弱,強盜越搶越強。很多規則是由強盜制定的。今日的開源與最早的開源似乎有很大的不同,開源背后可能有更加強大的商業模式。如何爭取在開源世界的話語權,營造自己的開源文化和開源生態是一個值得深刻思考的問題。
4 ?筆者的認識和實踐
與以往不同,最近這十幾年信息技術的發展都是圍繞數據展開的,這在以前是很難想象的。以前的進步大多是以硬件的速度提升或體系結構的創新為標志,沒有更多地關注應用,沒有把滿足用戶的需求作為根本動力。這也許昭示了信息技術發展范型的轉變。本節將討論對IT發展范型轉變的認識,秉承上文提到的數據庫理念,結合當前的區塊鏈技術熱點,介紹筆者的一些認識和系統研發實踐。
4.1 ?IT發展范型的轉變
傳統的IT企業分成3類:硬件制造商、軟件生產商和系統集成商。產業互動的基本模式就是系統集成商作為乙方為應用單位(甲方)提供解決方案和采購清單,甲方按照乙方的要求購買硬件和軟件產品,乙方按照軟件工程的瀑布模型根據時間節點要求為甲方開發應用系統。乙方作為解決方案提供商,實質上就是把甲方購買的系統集成起來,用以滿足甲方提出的信息化需求。這是人們熟悉的模式,也是專業人士一直習慣的模式。這種甲方乙方的方式有很多弊端,包括建設周期長、成本高,且這種模式只是甲方乙方的一種博弈,系統建設的真正目的和系統的最終用戶沒有被重視。
互聯網時代,很少會有互聯網企業按照這種甲方乙方的模式開發它們的信息系統。首先,要清楚一點,互聯網企業不是IT企業,它只是一般的信息服務企業,因為它既不生產和銷售硬件軟件產品,也不提供信息系統解決方案。可是,人們有時候會很自然地把它們歸入IT企業,那是因為IT對于互聯網企業極為重要,表面上給人以IT企業的感覺,IT能力是互聯網企業的核心競爭力。互聯網企業的興起將IT發展范型帶入了一個新的階段。現在實行的IT發展范型是:應用驅動、度身定制、融會貫通、開源系統。這種范型帶來了深刻的變化,包括技術路徑和行業理念方面的變化。伴隨著互聯網企業的興起,人們也充分認識到,這十幾年以來,作為非IT企業的互聯網企業推動了IT的發展,而不是像以往那樣由IT企業提出概念,推出產品,進而推動技術和應用進步。云計算和大數據無疑是近十幾年以來IT領域最重要的概念,這兩個概念都不是IT企業推出和推動的,反而是亞馬遜公司和谷歌公司來主導或推動的,這體現了IT領域應用驅動創新的事實。
應用驅動創新是IT創新的基本特征,這種驅動不是單向的。業務和技術的進步是相輔相成、互相促進的關系。以神州專車為例,從傳統的意義上來說,神州專車的信息平臺是一個管理信息系統,是為司機和乘客服務的。實際上,這也沿襲了管理信息系統的理念,后臺被稱為客服,司機使用的稱為4G端,乘客使用的為應用。從互聯網的角度來看,這個平臺支撐的是一個典型的互聯網應用,利用各種優惠吸引用戶下載應用,利用移動互聯網和位置信息進行服務預訂和自動派單,利用大數據分析設計各種激勵機制,調動司機積極性和提升用戶體驗。調研發現,平臺系統升級頻繁,體現了“按需服務”的思想。在這樣的平臺上,司機、乘客和管理團隊都成為促進系統完善的動力。業務的發展和技術的進步互相促進,形成迭代,也就形成一個創新的正向循環。從技術創新來看,開源的技術生態的建設客觀上為萬眾創新提供了基礎,IT的創新由以前IT壟斷企業主導的模式變成了由現實應用開發人員來推動。其中的根本原因是,互聯網企業取得的極大成功,特別是其在IT領域的創新和開源,打破了長期以來形成的壟斷和迷信。這告訴人們應該去崇尚創新能力,而非基于已有的IT產品做簡單的拼接和集成,應該立足現實應用,勇于根據需求度身定制,實現自己的系統。
4.2 ?分享型數據庫
在大數據戰略和“互聯網+”行動計劃的推動過程中,共享經濟或分享經濟(sharing economy)又成為一個熱門話題。為分享經濟業務模式提供運營支撐的信息技術自然是一個值得關注的問題。前文也提到過,數據庫理念的核心就是抽象。如果能針對分享經濟的各種模式抽象出共性的有關數據的概念和技術,是否就可以有一個被稱為“分享型數據庫(sharing database)”的概念,這也是在這里想闡釋的。
互聯網經濟的發展軌跡可以分成3個階段:粉絲經濟、智慧經濟、分享經濟。粉絲經濟階段就是前面說的眼球經濟階段,主要做法就是流量變現,主要手段就是在線廣告和服務或產品推薦。智慧經濟階段,實際上就是大數據階段,利用大數據分析做精準營銷和互聯網金融,智慧就體現在對數據的駕馭上。當前我國的互聯網經濟處于分享經濟的預備階段。2015年以來,分享經濟成為政府、企業和學者關心的重點問題之一。這也很容易理解,分享經濟的一個核心思想是盤活資源存量,在不增加資源消耗的前提下提高使用率和有效性,符合生態文明建設的宗旨。政府一直以來孜孜以求的簡政放權也和分享經濟倡導和依賴的“去中心”“去中介”思路如出一轍。從這兩年我國關于網約車的行政規定和政策出臺的過程,能切身體會分享經濟的強勢啟動。國際上,優步(Uber)、空中食宿(Airbnb)等分享經濟模式也進入一個爆發發展的時期,為人們觀念的更新和我國的相關行業發展提供了有價值的參考。
時下來談論分享經濟,區塊鏈(blockchain)與比特幣(BitCoin)也是繞不開的話題。區塊鏈就是一個分布式賬本,本質上是一個去中心化的P2P分布式數據庫。近來,比特幣因為其底層的區塊鏈技術再度成為熱點,只是人們這次關心的焦點落在底層的技術上。區塊鏈這個P2P分布式數據庫,就像傳統意義上的記載所有交易記錄的賬本,因為其去中心化、無界性、頑健性、無需信任、低成本等特點,迎合了當前分享經濟的潮流,成為后互聯網時代受到追捧的技術和理念。
眾所周知,數字化、城市化和全球化是當今世界的三大趨勢,它們相互影響,相互增強,正在重塑世界,其中數字化最具顛覆性。數字化可以徹底改變傳統行業的業務模式,在中國,以BAT為代表的互聯網企業已經扮演這樣的角色。在數字化進程中,區塊鏈可能會是下一個如此角色的扮演者。它不僅僅會影響金融服務,還會影響物聯網和分享經濟的發展。區塊鏈技術讓人們可以交換類似于比特幣、股權憑證、合約、證券等虛擬貨幣,也能為Uber、Airbnb等分享經濟業務模式提供更好的支持。從這個意義上來說,區塊鏈是全方位的,幾乎和互聯網一樣重要,可以為我國的“互聯網+”行動計劃和“供給側改革”提供理念和技術支持。
互聯網帶來的變化業已顯現。互聯網改變了人們生產生活的方方面面,更重要的是帶來了人們觀念上的深刻改變,中國大地上如火如荼的“互聯網+”和“分享經濟”就是這種觀念變化的具體體現。在分享經濟時代,因為涉及財物,與傳統的搜索和推薦等互聯網信息服務相比,新的應用更像任務關鍵型應用,所以底層需要類似數據庫那樣的基礎支撐系統。實際上,金融應用正是50多年前催生數據庫系統的重要驅動力。在新的應用和技術語境下,“分享型數據庫”也許是一個值得考慮的概念。一是,它要支持關鍵任務應用,必須具備頑健性和一致性;二是,它主要用來支持分享經濟業務模式的實現;三是,它本身也是通過分享經濟的方式予以實現。當然,還可以通過對區塊鏈及其代表的技術和理念的深入理解和實踐,賦予“分享數據庫”更豐富和具體的內涵。眾所周知,數據庫理念就是抽象。如果把比特幣看成區塊鏈技術的一個應用案例,區塊鏈就可以看作一種共性的技術,是一種抽象。如果再把區塊鏈當成一個具體案例,那么背后共性或是抽象的概念,就可以稱之為分享型數據庫。
4.3 ?大數據實時注入和分析系統:Ginkgo
數據處理的時效性直接影響了數據處理的價值,隨著數據集規模的不斷增大,數據處理的時間也在不斷增長。針對大數據集,如何有效縮短數據處理的時延是一個挑戰性的問題,同時也有來自應用系統的實際需求。開源大數據分析系統Gingko與既有系統相比,具有實時注入和實時查詢的特點,可大幅減少數據處理的周期,提高數據處理的響應速度,進而有效提升面向大數據處理的實際價值。Ginkgo的系統架構如圖4所示。
圖4 ?Ginkgo的系統架構
Ginkgo采用內存計算架構,充分利用高速訪問內存的特性,同時在數據處理邏輯的多個層面上通過并行化提高響應速度:充分利用分區并行、流水線并行、操作內并行和獨立并行,高并發執行任務;利用LLVM技術編譯代碼,提高操作運行效率;采用彈性流水線技術,可以根據負載和資源,動態伸縮并行度,充分利用資源提高運行效率;運行時任務調度模塊能夠感知系統負載,調度合適的任務,高效地實現任務之間的獨立并行。
Ginkgo具備實時查詢處理功能的同時,還支持數據源新數據的實時注入。區別于數據流系統,Ginkgo不僅支持對數據的在線處理,而且可將這些數據持久化存儲。實時注入基于事務處理控制方式,設計并實現以下一系列功能:針對實時數據注入對應的追加型事務,采用面向元數據的集中式事務處理策略,實現事務型數據注入;非阻塞分布式數據注入框架,將傳統的集中式單機數據注入轉變為分布式數據注入,充分利用分布式系統的特點,避免單機的單點故障和性能瓶頸;數據注入過程中實現了讀寫分離和寫寫分離,有效提高并行處理效率。
4.4 ?面向關鍵任務應用的可伸縮事務處理系統:Cedar
隨著“互聯網+”的發展和普及,在互聯網企業向零售、訂票、電信、交通運輸物流、金融等傳統領域延伸的同時,傳統領域也藉由互聯網實現反向O2O(線下到線上)。金融、電信等行業大量采用互聯網化的促銷手段,例如“搶票”和“秒殺”。近年的發展表明這種現象將越來越普遍。隨之而來的問題是,一方面現有系統升級的“向上擴展(scaling up)”方式由于升級代價巨大、只升不降的特點,不適合這些應用;另一方面,原有數據管理系統和事務處理系統的架構和實現技術并未能夠充分利用多核CPU、大容量內存、固態存儲、新型存儲介質、高速網絡等硬件以及發展迅速的集群構建技術,無法有力支撐應用的新需要。筆者自2013年開始面向金融、電信、零售和服務等行業的關鍵任務應用需要,研究支持可擴展事務處理的數據庫系統架構與實現方法,在開源OceanBase 0.4.2的基礎上,設計實現了支持高通量、高性能、可擴展事務處理的開源系統Cedar,其版本演化如圖5所示,并在金融、零售服務、教育領域的多個系統中進行了應用驗證。Cedar的系統架構如圖6所示。
圖5 ?Cedar的版本演化
圖6 ?可伸縮事務處理系統Cedar系統架構
4.5 ?基于設計思維的企業社交網絡服務:Talent Network
隨著互聯網服務日益豐富,傳統IT企業面臨著技術提升、管理變革、服務轉型等一系列的新挑戰。如何提升員工能力、整合團隊,不僅是人力資源管理的問題,也對大型企業IT部門的技術支持部門提出了新挑戰。自2015年6月起,華東師范大學的研究團隊與Infosys研究院一起,基于企業海量的內部項目技術文檔、員工檔案、會議和消息通信等管理記錄,構建了一個新型的企業社交網絡服務—— Talent Network。這一系統不僅服務企業超過16萬名員工,提供傳統的用戶檔案瀏覽、社交關系構建、消息通信等社交網絡服務,還為每一個用戶提供技術專家查找和引見、社交路徑推薦等功能,為企業管理人員提供了團隊建設建議、團隊分析等功能。作為一個新型企業內部服務系統,Talent Network從企業轉型的切身需要出發,從用戶角度進行設計,通過簡潔精美的界面,隱藏復雜的算法和分析模型,實現了技術研發與企業應用的完美結合。
5 結束語
大數據依然很熱,但大數據與應用密切相關,本文分析了產生“大數據”的歷史和現實背景,說明了大數據之所以成為國家戰略的原因。回顧數據庫的發展歷史,提出了對數據庫理念的認識,討論了數據庫的輝煌成就在大數據時代帶給人們的啟示。互聯網的發展改變了信息技術的發展范型。“應用驅動創新”成為IT領域創新的重要特點。當前形勢下,走創新之路就要立足現實應用中的問題,解放思想,破除迷信,融入開源社區,采用開放結構,應用和技術協同發展。
參考文獻:
[1]李戰懷,?王國仁,?周傲英?.?從數據庫視角解讀大數據的研究進展與趨勢[J].?計算機工程與科學,?2013,?35(10):?1-11.
LI?Z H?,?WANG?G R?,?ZHOU?A Y.?Research progress and trends of big data from a database perspective[J].?Computer Engineering & Science,?2013,?35(10):?1-11.
[2]STONEBRAKER?M,?CETINTEMEL?U.?One size fits all:10 years later[C]//?31st IEEE International Conference on Data Engineering, April 13-17, 2015, Seoul, Korea. [.S.l.:s.n.],?2015.
[3]周傲英,?錢衛寧,?王長波.?數據科學與工程:大數據時代的新興交叉學科[J].?大數據, 2015022.
ZHOU?A Y,?QIAN?W N,?WANG?C B.?Data sciences and engineering: an emerging interdisciplinary in the big data era[J].?Big Data Research, 2015022.
[4]美國國家學術院國家研究委員會. 海量數據分析前沿[M].?華東師范大學數據科學與工程研究院, 譯.?北京:?清華大學出版社,?2015.
National Research Council of the National Academies. Frontiers in massive data analysis[M].?Translated by Data Science and Engineering Research Institute of East China Normal University.?Beijing:?Tsinghua University PressPress,?2015.
[5]GHEMAWAT?S,?GOBIOFF?H,?LEUNG?S T.?The Google file system[C]//?The ACM Symposiumon Operating Systems Principles (SOSP), October 19-22, 2003, Lake George, NY, USA,?New York:?ACMPress,?2003:?29-43.
[6]DEAN?J,?GHEMAWAT?S.?MapReduce:simplified data processing on large clusters[C]//?The 6th Symposium on Operating System Design and Implementation, December 6-8, 2004, San Francisco, USA.?New York:?ACM Press,?2004:?137-150.
[7]HEY?T,?TANSLEY?S,?TOLLE?K M.?The fourth paradigm:data-intensive scientific discovery[J].?Proceedings of the IEEE,?2009,?99(8):?1334-1337.
周傲英(1965-),男,華東師范大學副校長、數據科學與工程學院院長,主要研究方向為Web數據管理、數據密集型計算、內存集群計算、分布事務處理、大數據基準測試和性能優化。曾獲得國家杰出青年基金,入選長江學者計劃特聘教授。目前擔任第七屆國務院學科評議組成員、中國計算機學會數據庫專業委員會副主任、《計算機學報》副主編;曾任ER’2004大會主席,ICDE’2009、ICDE’2012 PC副主席,VLDB’2014 PC共同主席。
總結
以上是生活随笔為你收集整理的【2017年第2期】感悟大数据——从数据管理和分析说起的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【2016年第6期】大规模分布式科学数据
- 下一篇: 工业大数据分析综述:模型与算法