CCF大专委2018年大数据发展趋势预测
CCF大專委2018年大數據發展趨勢預測
周濤,卞超軼,潘柱廷,查禮,程學旗
中國科學院計算技術研究所
論文引用格式:周濤, 卞超軼, 潘柱廷, 等. CCF大專委2018年大數據發展趨勢預測[J]. 大數據, 2018, 4(1): 77-84.
ZHOU T, BIAN C Y, PAN Z T, et al. Developing tendency prediction of big data in 2018 from CCF TFBD[J]. Big Data Research, 2018, 4(1): 77-84.1? 引言
在2017年中國大數據技術大會(BDTC)開幕式上,中國計算機學會(CCF)大數據專家委員會(以下簡稱大專委)如期發布了2018年大數據十大發展趨勢預測,引發了業界的廣泛關注和持續傳播。
本次大數據發展趨勢預測經歷了候選項征集和正式投票兩個環節。在候選項征集環節,補充了若干體現大數據領域最新進展的候選項,并調整和刪除了一些過時選項,最終形成的預測選項包括67項發展趨勢選項和9項專項調研選項。在正式投票環節,投票范圍面向大專委的正式委員和通訊委員,共收回選票82份。通過對這些選票的匯總和整理,形成了對2018年發展趨勢的預測,與2017年預測結果的對比見表1。
表1 大專委2017年、2018年大數據十大發展趨勢預測對比
通過對比不難發現,大專委對2018年大數據發展趨勢預測的結果與2017年預測結果的重合度較高,10條預測項中有6條出現在2017年度的預測結果中。新出現的4條預測項反映了本次大專委預測結果的兩大特點:一是人工智能在大數據應用中具有壓倒性的優勢,新增的4條預測項中,3條與人工智能相關(2018年預測排名中的第6條、第8條、第10條);二是對大數據學科建設的依賴性增強,體現在新出現的另外一條預測項上(2018預測排名中的第4條),大專委的專家既對數據科學寄予厚望,又擔心其學科突破進展緩慢。本文將對2018年大數據十大發展趨勢預測進行簡要的解讀。
2 ?2018年大數據發展十大趨勢
2.1 ?趨勢一:機器學習繼續成為大數據智能分析的核心技術
該項延續了2017年的預測結果,再次在投票中拔得頭籌,可見其公認度之高和穩定。“大數據”一詞原本是數據量大、數據樣式復雜等特性的代名詞,如今已經逐漸轉變為預測分析、用戶行為分析、態勢感知等高級智能分析方法的運用。
大數據智能分析旨在從數據中挖掘提取潛藏的巨大價值,這正是大數據的核心意義所在。智能分析方法均以機器學習為核心,甚至可以說是機器學習技術的不同表現形式。機器學習(包括近年來興起的深度學習、強化學習等)已是從事大數據行業的人員應具備的基礎技能之一,它在大量數據樣本的支撐與分布式存儲管理及計算處理等技術的支持配合下,成為將大數據轉化為實際價值的核心手段的不二之選。
2.2 ?趨勢二:人工智能和腦科學相結合,成為大數據分析領域的熱點
與趨勢一相同,該項也延續了2017年預測結果的排位,再次占據投票排行的榜眼位置。腦科學也稱神經科學(Neuroscience),近年來在研究深度和寬度上有了重大突破,包含從對單個神經細胞的分子與細胞級的研究到對全腦神經網絡的活動成像。人工智能與腦科學的結合可以追溯到20世紀四五十年代,人工神經網絡的出現正是兩個學科的最初也是最重要的成果之一。DeepMind公司在2017年12月發布的AlphaZero同時在圍棋、國際象棋上展現出超越人類的強大智能,其中采用的卷積神經網絡等深度學習技術的思想也是起源于人工神經網絡及一些對人腦的初步研究結論,這說明了腦科學與人工智能結合的巨大潛力。
然而,腦科學研究與人工智能的真正融合還沒有發生,因為研究者尚未完成對人腦神經結構的解析,不清楚百億級的神經元如何交互,以完成高效的信息處理。腦科學的研究進展可能成為人工智能跨越發展的關鍵助推,如神經網絡的自組織、自學習等,從而為大數據分析帶來突破。因此,對人工智能與腦科學的結合研究將持續升溫,成為相關領域的重要熱點。
2.3 ?趨勢三:數據科學帶動多學科融合
該項是2017年預測結果趨勢四——“多學科融合與數據科學興起”的發展演進。數據科學從興起逐漸成長為現實,專門的研究機構的建立以及相應的專業與學位的設立是這一過程的真實寫照,數據科學家已然成為21世紀最受追捧的職業之一。但從本質上看,數據科學是一門綜合統計、數據挖掘、機器學習、數據可視化、分布式系統、高性能計算等多項理論及技術,以從數據中提取潛在價值為目標的學科,它的存在本身就是多學科融合的典范。因此,數據科學的發展成熟必然會進一步推動相關學科的深入交叉融合。
此外,數據科學的發展對其他領域也產生了重要影響,包括經濟學、醫學、生物學、社會學等,它提供的數據處理及分析技術為研究者們提供了極大的幫助。人們發現越來越多的來自不同學科領域的問題可以采用類似的思想和方法進行研究,從而推動學科間的交流融合,促進共同發展。
2.4 ?趨勢四:數據學科雖然興起,但是學科突破進展緩慢
該項是十大預測中的新面孔。隨著大數據技術的廣泛應用,近年來數據學科已然興起。國內外一些高校已經設立了相關專業,開設有關課程,逐步探索其發展方向。國外很多大學將數據科學與原有特色專業結合,在本校具有優勢的領域中關注和實踐數據科學。國內高校也紛紛設立了與大數據相關的專業或研究所,探索數據科學專業的未來發展。2016—2017年,經教育部批準,國內共有35所高校成功申請了“數據科學與大數據技術”本科專業。除了數學、通信和計算機等基礎課程外,開設的專業課程主要分為3個方向,即大數據分析方向、大數據平臺方向和深度計算分析方向。
學科是人類知識體系中的基本組成部分,任何一個學科的發展都會經歷萌生、形成、成長到成熟的過程。總體來說,大數據學科建設尚處于摸索階段,還沒有一個成熟的學科體系,相關課程體系及要求尚未完全達成共識,還需要進行進一步的技術研究、實踐積累和理論提升,只有相應的知識被創造并逐步發展成系統化的理論與方法,才能形成一個有特色的學科。
趨勢四與趨勢三共同出現,反映了大專委的專家對大數據學科建設的矛盾心理。一方面,大專委的專家寄希望于在具體的應用技術之外,能夠通過學科建設帶動大數據的發展;另一方面,又對學科建設發展的進度持悲觀看法。暫且不考慮這種矛盾性,這兩項趨勢預測同時出現,也體現了大專委越來越多的專家開始在技術之外,從科學的角度思考大數據的本質問題。
2.5 ?趨勢五:推動數據立法,重視個人數據隱私
該項來自于2017年預測結果的趨勢九。數據安全和個人隱私泄漏已然成為全球安全問題的焦點,近年來,有關數據和個人隱私數據泄露的安全事件頻頻爆出,如美國信用機構Equifax因遭到黑客襲擊,大約1.43億名用戶的數據被泄露,相關內容包括社保號碼、生日、地址等。所以,在2018年的十大趨勢中,該項被更多的專家關注,一舉進入前五。
要做到對數據加強保護,除了采用技術手段和行業自律外,還應加強法律建設和政府監管。2017年6月1日起,我國開始施行的《中華人民共和國網絡安全法》用一個章節的篇幅專門規定網絡信息安全保護相關條款,這對加強數據保護起到了非常積極的作用。但是,還要看到,由于技術的快速發展和現實情況的復雜多變,我國現行的法律法規中對網絡信息保護的條款還不夠,相互之間的協調也還存在一定的問題。因此,要從數據的全生命周期進行綜合考慮,進一步推動數據立法,從法律層面對數據的采集、傳輸、流轉、交易、使用和銷毀等環節做出明確約束,使得個人數據隱私保護有法可依,以更好地對數據和個人隱私進行強有力的法律保護。
2.6 ?趨勢六:大數據預測和決策支持仍然是應用的主要形式
這是有關大數據應用場景的預測。利用大數據做預測和決策支持是大數據的經典應用場景,也與機器學習和數據挖掘密切相關。典型做法是通過分析海量歷史數據,找到現有現象之間的相關關系,建立相應的機器學習模型,并應用構建的模型預測未來,進而向決策者提供決策支持。
通過對海量的多維、異構數據進行融合分析,可以從時間、空間、網絡等多個維度面向特定對象建立更全面和精準的畫像,分析歷史行為軌跡,預測未來發展態勢。典型應用場景包括個性化推薦、資源配置優化、企業決策支持等。例如,電子商務企業通過分析用戶的歷史購買行為,進行精準的商品推薦;網約車企業通過歷史數據對特定區域未來的客流量進行預測,進而實現車輛預先調度,達到整體資源利用最優化的目的。
2.7 ?趨勢七:數據的語義化和知識化是數據價值的基礎問題
該項在2017年的預測中排名第六,2018年的排名變化不大。數據語義化是通過符號變換將文檔轉換成機器可“理解”的符號的過程;數據知識化是在語義化的基礎上進一步挖掘并展示數據深層含義的過程,這兩個過程是知識自動發現和挖掘的基礎。從 Linked of Data的發展,到Google知識圖譜,再到 Google Vault以及深度問答應用的出現,證明了數據的知識化組織和語義關聯是發現、挖掘并有效管理大數據深層價值的前提。在可預見的未來,人們將面臨更快的數據增長和更廣的數據維度,面對這些海量復雜數據,數據的價值更容易被淹沒。如何更好地發現和理解這些海量數據,依然會是未來持續關注的問題。
2.8 ?趨勢八:基于海量知識的智能是主流智能模式
該項同樣是趨勢預測中的新面孔,可以作為趨勢七的后續。2017年人工智能領域的一大熱點是出現了像“AlphaGo”“AlphaZero”這種不基于人類已有知識的智能模式,但大專委的專家給出的預測中包含了基于海量知識的智能模式,這也體現了人工智能應用模式多樣化的趨勢。
計算機既能存儲人們積累起來的知識和經驗,又可以挖掘大數據中包含的信息,因此可以取代部分人腦的勞動。如果對人腦的研究有重大科學突破,機器很有可能成為人工大腦,像會思考的人一樣處理信息。人工大腦的實現依賴于海量數據語義挖掘、信息抽取和知識庫構建的創新及實用方法以及面向海量語義知識庫(信息)的語義查詢技術和方法。在趨勢七的基礎上,利用大數據實現基于海量知識的智能,也就順理成章了。
2.9 ?趨勢九:大數據的安全持續令人擔憂
這是最近5年來連續出現在預測結果中的選項,只是每年的排名會有一些變化。大數據安全風險伴隨大數據應用而生,人們在享受大數據福祉的同時,也遭受著前所未有的安全挑戰。隨著大數據應用的爆發,應用系統遭受攻擊、數據丟失和個人信息泄漏的事件常有發生,而地下數據交易 “黑灰產”也導致了大量的數據濫用和網絡詐騙事件。這些安全事件,有的造成了個人的財產損失,有的引發了惡性社會事件,有的甚至危及了國家安全。可以說當前環境下,大數據平臺與技術、大數據環境下的數據和個人信息、大數據應用等方面都面臨著極大的安全挑戰,這些挑戰不僅對個人會產生重大的影響,更直接威脅到社會穩定和國家安全。
相對于業務功能,安全手段往往具有滯后性。現有大數據平臺和技術主要圍繞大容量、高速率的數據處理功能開發,在安全機制方面多通過調用外部安全組件、修補安全補丁的方式進行,存在整體安全規劃不足、缺乏內建安全機制和安全措施協調不夠等問題。因此,要想讓大數據發揮作用,其安全保護仍然是一個要花大力氣、持續解決的重要事項。
2.10 ?趨勢十:基于知識圖譜的大數據應用成為熱門應用場景
該項首次出現在大專委的調查問卷中,就成功入選十大趨勢,可見知識圖譜在大數據領域的受關注程度。知識圖譜是一種以符號形式描述物理世界中概念、實體及其關系的網狀知識結構。當前知識圖譜技術主要應用于智能語義搜索(如Knowledge Vault)、移動個人助理( 如Google Now、Apple Siri)以及深度問答系統(如IBM Watson、Wolfram Alpha)等。然而,隨著各領域數據的積累,海量復雜數據將不斷加劇知識的碎片化和復雜化,知識的碎片化會降低知識的價值,而知識的復雜化會降低知識的易用性。因此,需要一個能夠有效管理領域知識的載體。知識圖譜的出現,不僅可以將信息表達成更近似人類認知世界的形式,而且提供了一種更好的組織、管理和利用海量復雜數據的方式。現在基于知識圖譜的大數據應用已經開始慢慢滲透到各行各業,例如,互聯網金融中的反欺詐應用、企業的精準營銷應用、生命科學中的藥物發現應用、電信行業的客戶關系發現應用等。預期未來基于知識圖譜的大數據應用將會滲透到更多領域和場景。
3 ?大數據發展專項調研
3.1 ?最令人矚目的應用領域
大數據的發展最直接的推動力來自于應用,最近5年大數據“最令人矚目的應用領域”的專項調研結果見表2。前三甲一直都是互聯網和電子商務、金融、健康醫療,但2018年金融超越互聯網和電子商務,排名上升到首位,這在調研中還是首次出現。此外,城鎮化和智慧城市的得票數也有所上升,其他選項的得票數與前四名相去甚遠,不足以出現在排名中。這反映出隨著國家智慧城市建設的推進,面向智慧城市的大數據應用受到了更多的關注。
表 2 大數據應用最令人矚目領域調查結果對比
3.2 ?取得應用和技術突破的數據類型
所謂“取得應用和技術突破的數據類型”是指當前的分析技術和應用形態還不成熟、在未來一年最有可能取得突破性進展的數據類型,最近4年的預測結果見表3。其中對2018年的預測集中在城市數據和視頻數據,排名第三的語音數據及后續項目的得票數與前兩名相去甚遠。這可能與對這兩類數據的處理還沒有成熟的應用模式有關,而對語音、互聯網、圖形圖像等數據的處理技術和應用模式已相對成熟,要想取得新的突破難度更大。
表 3 取得應用和技術突破的數據類型調查結果對比
3.3 ?與大數據最匹配的概念
本項調查結果見表4。在對2018年的預測中,“機器人和人工智能”得票數遠高于其他候選項,以至于其他選項都不足以出現在該統計表中。人工智能呈現出的“一邊倒”的優勢,也反映了正處于風口上的人工智能的火熱程度。
表 4? 與大數據最匹配的概念調查結果對比
3.4 ?我國大數據發展的最主要推動者
本項關注到底是什么樣的力量在推動大數據的技術、產業、應用的發展,調研結果見表5。可以看出,除了大型互聯網公司和政府機構,其他的推動者都已經先后淡出了這個名單。這說明大專委的專家們已經形成了較為一致的看法:能夠推動大數據發展的,要么是具備資金、技術和數據優勢的互聯網公司,要么是具備政策影響力的政府機構,其他機構對大數據發展的推動力都十分有限。
表 5? 我國大數據發展的最主要推動者調查結果對比
3.5 ?大數據發展階段判斷
本項借用Gartner技術成熟度曲線中對技術發展階段的劃分,評估人們對大數據當前發展階段的看法,見表6。從這6個階段的投票分布來看,第二階段(即將快速增長)和第六階段(穩步成長中)占投票數的63%,對比2017年的預測集中度有了進一步的提升,這表明整體上大專委的專家對大數據的發展前景持更加樂觀的態度。事實上Gartner從2015年起,已經不在每年的新興技術成熟度曲線中給出大數據的位置,Gartner對此的解釋是大數據已經快速發展成為一項各個領域通用的基礎技術,因此不再作為新興技術進行定位。大專委的專家們給出的發展階段判斷與Gartner的判斷有一定的一致性。
表 6? 大數據發展階段判斷調查結果對比
4 ?結束語
本文介紹了CCF大專委對2018年大數據發展趨勢預測的結果,并將最近幾年的預測結果進行了對比分析,以便讀者能夠全面地了解大數據的發展趨勢。
當前在各個領域通過采集、分析和運用數據提升能力的行為越來越普遍,大數據已經真正成為眾多行業的底層關鍵技術。期待國內的大數據產業和技術能夠實現快速、良性的發展,為社會創造更多的價值。
點擊下方?閱讀原文?即可獲取全文
作 者 簡 介
周濤(1979-),男,博士,北京啟明星辰信息安全技術有限公司教授級高級工程師、助理總裁,核心研究院院長,主要研究方向為大數據安全分析、事件關聯分析、入侵檢測等。
?
卞超軼(1987-),男,北京啟明星辰信息安全技術有限公司高級研究員,主要研究方向為大數據自身安全、大數據安全分析、AI+信息安全等。
?
潘柱廷(1969-),男,北京永信至誠科技股份有限公司教授級高級工程師、高級副總裁,中國計算機學會(CCF)常務理事、中國網絡安全協會人才培養教育工作委員會副主任、CCF大數據專家委員會委員兼副秘書長、CCF計算機安全專家委員會常務委員、中國互聯網協會常務理事、云安全聯盟(CSA)中國區理事。長期從事信息安全技術、戰略研究和教育工作。
?
查禮(1974-),男,中國科學院計算技術研究所副研究員,中國計算機學會大數據專家委員會委員,《大數據》雜志編委。2003年于北京理工大學博士畢業后進入中國科學院計算技術研究所,一直從事分布式系統方向的研究工作。作為課題負責人承擔過多項網格、云計算和大數據相關的國家級研究課題。發起并組織“Hadoop in China”大會(現已更名為中國大數據技術大會)。自2008年舉辦以來,參會人數逐年遞增,目前已成為專注于大數據相關技術方向國內活躍的技術大會。曾兩次獲國家科技進步獎二等獎(2007年、2012年)。
?
程學旗(1972-),男,大數據分析系統國家工程實驗室副主任,中國科學院計算技術研究所研究員、副總工程師、副所長,中國科學院網絡數據科學與技術重點實驗室主任,中國計算機學會大數據專家委員會秘書長,國家杰出青年科學基金獲得者。先后主持并完成了十余項國家自然科學基金、國家重點基礎研究發展計劃(“973”計劃)、國家高技術研究發展計劃(“863”計劃)、國家信息安全重大專項以及中國科學院知識創新工程等科研任務。兩次獲得國家科技進步獎二等獎(2012年個人排名第一、2004年個人排名第二),獲得第十二屆中國青年科技獎、中國計算機學會青年科學家獎、中國科學院青年科學家獎等榮譽。主要研究方向為 Web 信息檢索與數據挖掘。
?
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的科技期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
總結
以上是生活随笔為你收集整理的CCF大专委2018年大数据发展趋势预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者:孙卫强(1976-),男,博士,上
- 下一篇: C++成员函数中的const修饰符