基于机器学习与人工智能的数据(数据库+大数据)技术
? ? ? ?該文主要介紹了數據技術的發展現狀和展望,通過對第35屆中國數據庫學術會議的內容整理以及總結而成,希望能夠給以后打算從事數據庫研發或者開發的朋友們指點迷津。本文主要內容包括:1.數據新技術簡介,2.數據質量管理(data cleaning),3.數據分析技術,4.大數據技術的發展,5.數據技術的研究熱點,6.總結。
- 數據新技術簡介?
? ? ? ?隨著大數據、機器學習(深度學習)、人工智能、區塊鏈等相關技術的迅速發展,數據技術發生著巨大的變化。我們通過兩個例子來說明這一點,第一個例子就拿數據質量管理中的實體識別(entity resolution)來說,對于兩個實體(比如數據庫里面的兩條記錄),要判斷它們是否是同一個實體,我們一般的傳統做法是通過定義很多相似度函數(similar function)來生成兩個記錄的相似向量(向量中的每一維代表不同屬性的相似度,因為一個實體有多個屬性,所以要定義很多相似度函數),再通過對相似向量權值相加算出總體的相似度(標準化,一般滿足[0,1]之間),緊接著設置一個閾值a,若總體相似度大于a,則實體匹配,否則不匹配,這樣做的效果很不理想。而現在我們通常借助于機器學習的方法來訓練權值以及分類器,或者基于圖計算以及深度學習方法來生成一些非監督分類器算法,這一些方法與傳統的方法相比,它的效率與準確率有了很大的提升。第二個例子是數據庫語言的變化,眾所周知現在最流行的查詢語言是SQL,但是隨著未來技術的發展,通過自然語言支持數據庫查詢,或者是將機器學習語言納入到數據庫查詢語言將是一個非常具有發展潛力的研究方向。因而未來的數據庫發展離不開現在熱門的機器學習和人工智能技術,而機器學習和人工智能也會借鑒數據庫中的一些知識,完美自己,通過兩者不斷的迭代和相互促進,共同發展。
- 數據質量管理
? ? ? ?數據清洗是數據管理中非常重要的一個方面,數據清洗主要包括錯誤檢測(error detection)和數據修復(data repairing)兩個過程。錯誤檢測主要包括數據丟失(NULL or N/A)、數據去重(duplicate data)、數據違規(data violation)以及數據錯誤(data error)。數據修復技術主要包括基于限制的(constraint-based)、基于規則(rule-based)、基于統計的(statistical)、基于人機共生(human-in-the-loop)的一些方法。而這些方法越來越多的由機器來完成,因此我們可以發現現在的數據清洗技術充滿著大量的機器學習人工智能技術。隨著機器學習以及云計算的發展,未來的研究方向主要包括:生成標準測試集(benchmark)、數據清理和眾包(crowdsourcing)技術的結合、數據清理和深度學習的結合、隱私數據的清理、數據清理與遷移學習的結合。
- 數據分析技術
? ? ? ?數據挖掘是一個傳統的數據分析技術,隨著大數據的到來,數據的多樣性和大量性促使著傳統數據挖掘技術的發展,它不再僅僅處理結構化的數據,未來的發展主要包括web數據挖掘、文本數據挖掘、時序數據挖掘(數據具有時間屬性,如臨床路徑數據)、時空數據挖掘(數據由時間和空間兩個維度,如GPS定位)、圖數據挖掘、大數據挖掘。而大數據挖掘也會常常用到大數據近似算法,它利用采樣(sampling)、略圖(sketch)、摘要等技術,引入可控誤差,解決由大數據規模帶來的時間/空間/通訊量效率的問題。大數據的近似算法不像傳統的近似算法(NP完全問題的近似解),它是P問題的線性甚至亞線性時間近似解,隨著數據規模的進一步擴展,近似算法將在大數據處理和分析鄰域發揮越來越大的作用。
- 大數據技術的發展
? ? ? ?經過40余年的發展,當今信息技術社會正在經歷IT時代到DT時代的轉變,大數據技術正在深刻的影響著社會和世界。現在的大數據技術主要包括Apache Hadoop、Apache Spark(批處理平臺)、Spark Streaming、Apache Flink(流處理平臺)、Apache Beam(混合批流處理平臺,它緊緊是一個框架,沒有真正的技術引擎)。隨著技術的發展和需求的增加,未來大數據主要集中在三個方面:第一是批流融合,因為現在還沒有一個真正意義上的批流融合大數據計算系統,而未來批流融合的現實需求非常巨大(如雙十一),該系統需要統一數據模型、統一操作、計算模型、統一用戶接口等等。第二是跨域處理,我們只需要在自己的節點去分析去計算,然后將計算的結果進行傳輸和融合,而不像現在的將數據集中起來。第三是邊緣計算,利用邊緣計算的能力,例如IoT、可穿戴設備、自動駕駛汽車、無人飛機、AR/VR設備等,提供高性能和低延時的邊緣大數據計算平臺。
- 數據技術的研究熱點
? ? ? ?未來數據技術主要會集中在圖數據、文本數據、時空數據以及文本數據等類型;機器學習與數據管理技術的結合,如自然語言支持數據庫的查詢、機器學習引入查詢優化(分布式查詢優化)、機器學習技術減少數據庫參數配置的代價、機器學習技術提高數據庫中特有查詢,如近似查詢的效果等等;現有關系型數據庫發展,如海量并發事務管理、新的面向內存的架構設計,減少封鎖、IO代價等;圖數據管理技術發展,如圖數據挖掘、知識圖譜、圖數據應用(異常檢測、應用)、大數據環境下傳統圖問題的新方法(分布式、近似算法等);數據分析技術發展,如深度學習模型及其在不同數據的應用、時序數據的深度分析與挖掘、基于強化學習的數據分析方法、關聯規則、聚類、異常發現等;人工智能和深度學習技術,將進一步和數據管理融合,在數據表示、查詢語言、執行優化、生命周期管理等方面提升數據管理的智能化;區塊鏈技術也是一個很有意義的研究方向。
- 總結
? ? ? ?我們可以看出未來的數據庫技術將與機器學習人工智能技術息息相關、互相促進、共同繁榮,加之大數據和云計算的發展,也將促使著數據庫技術的巨大發展(甚至變革),而這些發展都需要我們解決一些底層的課題,這就需要學術界和工業界的深度融合,相互合作,我們堅信未來的數據庫技術是非常有發展潛力的,以及有著豐富多彩的先進知識。
總結
以上是生活随笔為你收集整理的基于机器学习与人工智能的数据(数据库+大数据)技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 尺子英语怎么读计算机英语怎么读,尺子英语
- 下一篇: 好用文件整理工具,需要速来