CCF大专委2019年大数据发展趋势预测
CCF大專委2019年大數據發展趨勢預測
周濤, 潘柱廷, 程學旗
?
論文引用格式:
周濤,?潘柱廷,?程學旗.?CCF大專委2019年大數據發展趨勢預測.?大數據[J],?2019,?5(1):?109-115
ZHOU?T,?PAN?Z?Y,?CHENG?X?Q.?Developing?tendency?prediction?of?big?data?in?2019?from?CCF?TFBD.?Big?data?research[J],?2019,?5(1):?109-115
1 引言
2018年12月6日,中國計算機學會(CCF)大數據專家委員會(以下簡稱大專委)在2018年中國大數據技術大會(BDTC)的開幕式上,正式發布了2019年大數據十大發展趨勢預測。作為自2012年起就持續開展的一項活動,大專委“大數據發展趨勢預測”已經形成了良好的品牌效應。本次趨勢預測結果一經發布,就引發了國內各大媒體的廣泛傳播。
本次大數據發展趨勢預測面向大專委的正式委員和通訊委員,經歷了候選項征集和正式投票兩個環節。2018年委員們對趨勢預測的參與熱情有了顯著提升,投票人數創歷史新高。在候選項征集環節,有47位委員對候選項的設立積極建言獻策,筆者團隊根據大家的意見對2019年趨勢預測的候選項進行了大幅度的修訂,補充了若干體現大數據領域最新進展的候選項,調整和刪除了一些過時選項,最終形成的預測選項包括60項發展趨勢選項和9項專項調研選項。在正式投票環節,通過微信、郵件等方式共收回選票130份。通過對這些選票的匯總和整理,形成了對2019年發展趨勢的預測,見表1。
通過與2018年大數據發展趨勢預測結果的對比可以發現,2019年大數據發展趨勢預測結果具有以下特點。
人工智能呈現出壓倒性優勢。在十大發展趨勢預測中,有6條與人工智能直接或間接相關,且涉及學科發展(第1條、第6條)、實現技術(第2條、第9條)、應用場景(第5條、第7條)等多個方面。
數據安全問題關注度持續提升。本次趨勢預測中出現了兩條與數據安全相關的預測項,其中既有與個人數據安全與隱私保護相關的預測項(第3條),又有與國家層面數據權屬相關的預測項(第10條),說明大專委的專家們開始站在更高的層面上思考數據安全問題。
大數據學科建設受到重視。大專委的專家們認可數據科學對多學科融合的推動作用(第4條),也重視基礎理論研究,但仍然不認為短期內能取得突破性進展。
區塊鏈技術首次出現在預測結果中。區塊鏈并不是一項新技術,在2018年年底甚至已經出現了降溫的態勢。在區塊鏈大熱的時候,該選項從未進入前十名,反倒是在當前這個時間點上被更多的專家認可(第8條),背后的原因值得思考。
2 2019年大數據發展十大趨勢預測
2.1?趨勢一:數據科學與人工智能的結合越來越緊密
該項是在本次候選項征集階段,根據委員們反饋的意見新增的項目。一個候選項首次出現就成為趨勢預測的冠軍,這在歷次調研中都沒出現過,可見本預測項的受歡迎程度。
數據科學與人工智能雖然目前是兩個獨立的學科,但二者均與計算機、數學(特別是統計學)有密切的聯系,問題空間也有一定的重合度。近年來,人工智能已經成為推動數據科學發展的核心驅動力,許多委員從事與兩個學科相關的工作,例如為了應用人工智能技術而借助數據科學的理論和方法進行數據管理,或者為了挖掘數據的價值而借助人工智能技術進行數據分析。相信隨著應用場景的拓展,二者之間的界限也會越來越模糊。
2.2?趨勢二:機器學習繼續成為大數據智能分析的核心技術
該項在連續兩年拔得頭籌后,終于走下冠軍寶座,以微弱劣勢屈居亞軍。這種連續排名靠前的陣勢,本身就說明了大家對機器學習的認可。
大數據的價值是潛在的,不具備表象性。管理大數據的價值在于利用大數據,而如果沒有機器學習技術對大數據進行分析,大數據的利用將無從談起。隨著機器學習與數據科學家的關系越來越緊密,對于數據科學領域的職業發展而言,掌握機器學習的基礎技能將成為一種必需技能。在大數據時代,依靠大數據管理和高性能計算的支持,機器學習將成為大數據智能分析的核心技術。
2.3?趨勢三:大數據的安全和隱私保護成為研究和應用熱點
該項目是本次新增的候選項。在往年的調研中,趨勢項“大數據的安全持續令人擔憂”曾經連續5年入選十大趨勢預測。2018年筆者根據候選項征集結果,對該項目進行了擴展,補充了與隱私保護相關的內容,調整后的項目依然延續了往年的熱度,成為排名第3位的趨勢項,這也說明大家對數據安全是一貫重視的。
2018年,一個標志性的事件使得數據安全與隱私保護成為政府、學術界和產業界共同關注的焦點,這就是歐盟《通用數據保護條例(GDPR)》的推出。GDPR引發了全球各行各業,特別是互聯網巨頭的高度關注。GDPR中的相關條款(如適用范圍的擴大、對數據主體權利的提升、對數據控制者和處理者嚴格的問責制度、對數據畫像的特別限制等)對現有的數據安全機制提出了更高的要求,這也使得人們對數據安全和隱私保護問題的關注度得到了提升。
2.4?趨勢四:數據科學帶動多學科融合;基礎理論研究受到重視,但未見突破
該項是2018年預測結果趨勢項第3條“數據科學帶動多學科融合”與趨勢項第4條“數據學科雖然興起,但是學科突破進展緩慢”的合集。由于本次投票中兩個趨勢項得票相同、內容相關,故在這里合并為一個趨勢項。這兩個趨勢項的排名與去年類似,依然成為較為靠前的趨勢項。
在大數據時代,許多學科表面上看來研究的方向大不相同,但是從數據的視角來看,其實是相通的。隨著社會的數字化程度逐步加深,越來越多的學科將在數據層面趨于一致,可以采用相似的思想進行統一的研究。“數據科學發現范式”成為多學科通用的研究范式,因此數據科學對多學科融合的推動作用受到了委員們的認可。
作為一門與數學、計算機等學科相關的交叉學科,雖然數據科學已經初具規模,國內也出現了相關的專業設置、課程設置、標準教材,但數據科學自身仍然缺少突破性的理論成果。對科學問題的認識和求解需要一個過程且有不確定性,近期仍然很難取得重大突破。該趨勢項的產生說明大專委的專家對大數據學科建設的矛盾心理依然存在。
2.5?趨勢?五:基于知識圖譜的大數據應用成為熱門應用場景
該項首次出現在2018年大數據發展趨勢預測的結果中,2019年預測結果的排名由2018年的第10位大幅攀升至第5位,說明人們對知識圖譜的關注度有了進一步的提升。
知識圖譜是一種以符號形式描述物理世界中的概念、實體及其關系的網狀知識結構。基于知識圖譜建立大數據表述的實體間的關聯關系,并以此為基礎開展各類個性化的應用成為發展趨勢。當前知識圖譜技術主要應用于智能語義搜索(如Knowledge?Vault)、移動個人助理(如Google?Now、Apple?Siri)以及深度問答系統(如IBM?Watson、Wolfram?Alpha)等。隨著智能音箱、語音助手、智能客服、知識問答等應用的成熟,普通人在日常生活中已經不知不覺地享受到知識圖譜帶來的種種便利,預期未來基于知識圖譜的大數據應用將會滲透到更多的領域和場景。
2.6?趨勢六:數據的語義化和知識化是數據價值的基礎問題
該項在近3年的趨勢調研中連續出現,每年的排名變化不大,由2018年的第7位上升至2019年的第6位。該趨勢項可以看成趨勢五“基于知識圖譜的大數據應用成為熱門應用場景”背后的理論基礎。
數據語義化是通過符號變換將文檔轉換成機器可“理解”的符號的過程;數據知識化是在語義化的基礎上,進一步挖掘并展示數據深層含義的過程,這兩個過程是知識自動發現和挖掘的基礎。從大數據中獲得知識和價值是人們利用大數據的一個基本需求。在當前熱門的大數據應用中,從知識圖譜到多種自然語言問答應用的出現,可以推斷廣大用戶在大數據時代獲取信息時,越來越需要數據和信息的知識化組織和語義關聯。
2.7?趨勢七:人工智能、大數據、云計算將高度融合為一體化的系統
該項也是在候選項征集階段,根據大專委委員們反饋的意見新增的項目。本趨勢項集齊了“ABC(artificial?intelligence、big?data、cloud?computing)”三大熱門技術,這使得它首次出現便躋身最終的預測項中。
該項主要體現了工業界的發展趨勢。當前無論是公有云還是專有云,云服務提供商都傾向于提供一體化的平臺,為用戶提供統一的人工智能分析建模、大數據計算以及資源分配與共享管理功能,從而增加便利性、降低使用成本、豐富業務場景。反映在云服務內容上,無論是國外亞馬遜的AWS、微軟的Azure、谷歌的GoogleCloud,還是國內的阿里云、騰訊云,都已經不滿足于僅僅提供基礎設施即服務(infrastructure?as?a?service,?IaaS)層虛擬化的能力,而是更多地提供大數據存儲及智能分析的軟件即服務(softwareasaservice,SaaS)能力,這將大大加快云用戶在此基礎上拓展業務能力的步伐。
2.8?趨勢八:基于區塊鏈技術的大數據應用場景漸漸豐富
與區塊鏈相關的趨勢項首次出現在預測結果中。區塊鏈不是一項“新興”的技術,它已經存在了很多年;區塊鏈也不是一項“熱門”的技術,事實上在近期咨詢機構的報告中,區塊鏈已經漸漸走下巔峰,有了降溫的趨勢。但在區塊鏈火熱的時候,該選項從來沒有出現在預測結果中,反倒是在這個時間點上被更多的委員們認可,這反映了專家們對新事物的冷靜判斷力。
2018年CCF區塊鏈專業委員會正式成立,致力搭建產業界和學術界互動的專業平臺,這也推動了本項目成為2019年的趨勢項之一。區塊鏈具有去中心化、難以篡改、記錄可溯源等優點,這使得它在交易、認證、流程管理等領域具有廣泛的應用場景。相信隨著更多的應用驅動,更多的基于區塊鏈的大數據應用將會涌現。
2.9?趨勢九:大數據處理多樣化模式并存融合,基于海量知識仍是主流智能模式
該項是兩個趨勢項“大數據處理多樣化模式并存融合”與“基于海量知識仍是主流智能模式”的合集,同樣也是由于得票相同的原因進行了合并。其中,趨勢項“基于海量知識仍是主流智能模式”在2018年趨勢預測中排名第8位,在2019年的趨勢預測中微調至第9位,變化趨勢不明顯。
在大數據處理模式方面,專家們認為批量計算、流式計算和內存計算等多種大數據計算模式將同時存在,一些技術將趨于融合。現實中的需求是多樣化的,不同業務場景中數據的量級、產生的速度、對時延的容忍度、計算的模式(歷史、近線、實時)等差異巨大,這就需要有多樣化的模式滿足差異化的需求。
在數據工程領域,知識是更高層次的數據,海量知識來源于對海量數據的語義挖掘、信息抽取和知識庫構建。通過從數據中提煉信息和知識,可以消除原始數據中的不確定性、補充信息的上下文、降低特定問題搜索空間。在海量知識的基礎上進行檢索和推理,是當前火熱的各類“智能助手”背后的核心技術,這也是該趨勢項能夠持續入選的主要原因。
2.10?趨勢十:關鍵數據資源涉及國家主權
該項首次入選十大趨勢,說明專家們已經不僅僅局限在從個人、機構的視角考慮數據安全問題,而是開始站在國家層面思考數據安全問題。
在信息時代,數據已經像石油一樣,成為重要的戰略資源。但是在數據主體方面,有相當一部分數據資源掌握在各類企業中,這是與傳統自然資源相比最大的差異。一些互聯網巨頭掌握的數據資源非常多,如果其喪失數據權屬,可能會危及社會秩序和國家安全。為此,國家互聯網信息辦公室于2017年制定了《關鍵信息基礎設施安全保護條例(征求意見稿?)》,將一旦遭到破壞、喪失功能或者數據泄露,可能嚴重危害國家安全、國計民生、公共利益的信息系統,納入了關鍵信息基礎設施保護范圍,這也推動了委員們對數據權屬問題的高度重視。
3 大數據發展專項調研
與往年的調研保持一致,本年度的趨勢調研仍然包括9個專項調研項目。對于每個調研項目,保留得票數遠高于其余候選項的條目作為調研結果,具體見表2。
在“最令人矚目的應用領域”投票中,健康醫療排在了首位,而人們習以為常的互聯網、電子商務退居到第4位,這表明大數據的應用領域會更加豐富。這對整個行業而言是個利好消息。與之相對應的是,在“將取得重大應用和技術突破的數據類型”投票中,城市數據排在了首位,其次是視頻數據,而往年經常出現在前面的互聯網公開數據的票數很小,在表2中沒有列出來。
在“最令人矚目的學科和技術”投票中,人工智能、自然語言處理/知識工程、圖計算位列三甲,在“將取得突破性進展的技術環節”投票中,數據語義理解、數據分析、大數據安全排在前三位,這與前文的“十大發展趨勢預測”的結果是吻合的。
在“大數據市場處于哪個階段”的判斷上,參照常規的技術成熟度曲線,將大數據市場的發展分為極為初級、即將快速擴張、爆發增長、上升乏力、下降和幻滅、穩步成長6個階段。可以看到,大專委的專家認為大數據的發展還是趨于樂觀的,大部分把選票投給了即將快速擴張、爆發增長和穩步成長3個階段。從投票結果來看,大數據已經度過了下降期和幻滅期,進入了相對豐富的增長階段。
在“我國大數據發展的最主要推動者”投票中,投票結果已經維持多年不變,仍然只有大型互聯網公司和政府機構,推動者的豐富度和力度還有待加強。反映在“數據資源流轉上的舉措”上,投票結果跟往年比依舊沒有顯著的變化,大家還是更傾向于自己收集數據,或者為已經收集的數據提供服務,產業界期待的數據交易選項并沒有得到太多的選票。在“專家個人的工作重點”投票中,排名前三位的分別是算法等基礎技術研究、應用實踐、人才教育,其他選項(如基礎理論研究)的票數較少,這也反映了國內大數據人才在各領域的分布情況。
在“大數據的最佳拍檔概念”投票中,排名前三位的選項(數據科學、機器人和人工智能、智能計算和認知計算)的票數非常接近,且遠遠領先于其余選項。這3個選項之間本身就有很強的關聯關系。考慮到人工智能在近兩年投票中的壓倒性優勢,出現這樣的結果也在意料之中。
4 結束語
作為一項已經連續開展了7年的趨勢預測活動,筆者期待在每年的預測結果中能夠產生一些新熱點,給讀者一些新感受,但結果卻往往事與愿違,特別是最近3年的趨勢預測結果。每年的預測結果中大約有60%的趨勢選項會跟上一年的完全重合,其余的變化往往來源于已有候選項的相近概念,很難產生新熱點。
筆者也在思考出現這種局面的原因。可能正像對“大數據發展階段”的判斷那樣,大數據已經成為各行各業的底層共性技術,進入了一個穩定發展的時期。在這種情況下,所謂的“熱點”,其實已經成為支撐領域發展不可或缺的“支點”,而相對穩定的支點是一個行業發展成熟的重要標志。在這種情況下,除非是出現變革型的理論或技術突破,否則整個領域將會在幾個基礎的支點支撐下平穩發展。
作者簡介
周濤(1979-?),男,博士,阿里巴巴集團安全部教授級高級工程師、資深算法專家,主要研究方向為大 數據安全分析、事件關聯分析、入侵檢測等。
潘柱廷(1969-?),男,北京永信至誠科技股份有限公司教授級高級工程師、高級副總裁,中國計算機學會(CCF)常務理事、中國網絡安全協會人才培養教育工作委員會副主任、CCF大數據專家委員會委員兼副秘書長、CCF計算機安全專家委員會常務委員、中國互聯網協會常務理事、云安全聯盟(CSA)中國區理事。長期從事信息安全技術、戰略研究和教育工作。
程學旗(1972-?),男,大數據分析系統國家工程實驗室副主任,中國科學院計算技術研究所研究員、副總工程師、副所長,中國科學院網絡數據科學與技術重點實驗室主任,中國計算機學會大數據專家委員會秘書長,國家杰出青年科學基金獲得者。先后主持并完成了十余項國家自然科學基金、國家重點基礎研究發展計劃(“973”計劃)、國家高技術研究發展計劃(“863”計劃)、國家信息安全重大專項以及中國科學院知識創新工程等科研任務。兩次獲得國家科技進步獎二等獎(2012年個人排名第一、2004年個人排名第二),獲得第十二屆中國青年科技獎、中國計算機學會青年科學家獎、中國科學院青年科學家獎等榮譽。主要研究方向為?Web?信息檢索與數據挖掘。
《大數據》期刊
《大數據(Big?Data?Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
人工智能在醫學影像中的研究與應用
基于數據挖掘的觸診成像乳腺癌智能診斷模型和方法
分布式數據庫在金融應用場景中的探索與實踐
共享單車運營分析及決策研究
基于百度貼吧的HIV高危人群特征分析
總結
以上是生活随笔為你收集整理的CCF大专委2019年大数据发展趋势预测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CyberSecurityLearni
- 下一篇: 作者:张鹏(1993-),男,国防科学技