2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...
2015年《大數(shù)據(jù)》高被引論文Top10文章展示
【編者按】本刊將把2015年《大數(shù)據(jù)》高被引論文Top10的文章陸續(xù)發(fā)布,歡迎大家關(guān)注!本文為高被引Top10論文的No.2,刊登在2015年第4期。引用格式如下:
李濤, 曾春秋, 周武柏, 等. 大數(shù)據(jù)時代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘[J]. 大數(shù)據(jù), 2015041.
LI T, ZENG C Q, ZHOU W B, et al.?Data mining in the era of big data: from the application perspective[J]. Big Data Research, 2015041.
李?濤1,2,曾春秋1,2,周武柏1,2,周綺鳳3,鄭?理1,2
1.?南京郵電大學(xué)計算機學(xué)院?南京?210023;2.?美國佛羅里達國際大學(xué)?邁阿密?33199;
3.?廈門大學(xué)自動化系?廈門?361005
摘要:介紹了大數(shù)據(jù)時代數(shù)據(jù)挖掘的特點、任務(wù)及難點,分析了大數(shù)據(jù)挖掘的核心架構(gòu),提出大數(shù)據(jù)的核心和本質(zhì),即應(yīng)用、算法、數(shù)據(jù)和平臺4個要素的有機結(jié)合。在此基礎(chǔ)上介紹了本團隊研究設(shè)計的大數(shù)據(jù)挖掘系統(tǒng)FIU-Miner。該系統(tǒng)是一個用戶友好并支持在分布式環(huán)境中進行高效率計算和算法快速集成的數(shù)據(jù)挖掘系統(tǒng)平臺,使得數(shù)據(jù)分析人員能夠快速有效地進行各類數(shù)據(jù)挖掘任務(wù)。最后,介紹了基于FIU-Miner的3個典型的成功應(yīng)用案例:高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;FIU-Miner;高端制造業(yè);空間數(shù)據(jù)挖掘;商務(wù)智能
doi:?10.11959/j.issn.2096-0271.2015041
Data mining in the era of big data: from the application perspective
Li Tao1,2, Zeng Chunqiu1,2, Zhou Wubai1,2, Zhou Qifeng3, Zheng Li1,2
1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;
2. School of Computer Science, Florida International University, Miami 33199, USA;
3. Department of Automation, Xiamen University, Xiamen 361005, China
Abstract:?The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.
Key words:?big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence
5 ?FIU-Miner應(yīng)用實例二:空間數(shù)據(jù)挖掘
FIU-Miner?已被成功應(yīng)用于TerraFlyGeocloud[11],支持多種在線空間數(shù)據(jù)分析的平臺。
5.1 ?空間數(shù)據(jù)挖掘
隨著衛(wèi)星科技的發(fā)展及移動設(shè)備的普及,獲取一個對象實時完整的空間信息變得越來越容易。為了能夠從中實時性地獲取有用信息,需要有效的方法進行空間數(shù)據(jù)挖掘。空間數(shù)據(jù)挖掘是從大型空間數(shù)據(jù)庫里發(fā)現(xiàn)有趣的、不知道的但非常有價值的模式的一個過程。但由于空間數(shù)據(jù)類型和空間關(guān)系的復(fù)雜性,從空間數(shù)據(jù)庫里挖掘有趣和有價值的模式比從傳統(tǒng)數(shù)據(jù)庫里挖掘難度更大。
5.2 ?TerraFlyGeocloud介紹
空間數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域,?包括水資源管理、交通管理、災(zāi)難管理、犯罪分析、疾病分析和房地產(chǎn)等。一個典型的空間挖掘系統(tǒng)應(yīng)支持以下功能:在線的空間數(shù)據(jù)分析、空間數(shù)據(jù)可視化和空間數(shù)據(jù)查詢。這里,介紹一個具體的空間數(shù)據(jù)挖掘系統(tǒng):美國佛羅里達國際大學(xué)(FIU)?計算機學(xué)院的高性能數(shù)據(jù)研究中心實驗室開發(fā)的TerraFlyGeoCloud?系統(tǒng)。TerraFlyGeoCloud是建立在TerraFly系統(tǒng)之上的、支持多種在線空間數(shù)據(jù)分析的一個平臺。圖8和圖9分別給出了TerraFlyGeoCloud?的系統(tǒng)界面和工作流程。
圖8 ?TerraFlyGeoCloud 系統(tǒng)界面
圖9 ?分析工作流程
為了方便使用,TerraFlyGeoCloud?還提供了一種支持類SQL語句的空間數(shù)據(jù)查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據(jù)用戶的不同要求,渲染和畫圖查詢得到空間數(shù)據(jù),比如學(xué)校周邊一定距離內(nèi)所有的開放住宅、離某條公路一定距離內(nèi)所有的賓館、特定地區(qū)的交通情況及不同郵政區(qū)域的平均收入情況等。MapQL的實現(xiàn)如圖10(a)所示,其中MapQL語句是整個過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。
下面簡要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規(guī)則,不出現(xiàn)關(guān)鍵字拼寫錯誤;第二步語義檢查,確保MapQL?將要訪問的數(shù)據(jù)是正確并存在的。接下來,系統(tǒng)會進行語句解析并把包含樣式信息的解析結(jié)果存入空間數(shù)據(jù)庫中。樣式信息包括“渲染什么”及“在哪渲染”。當(dāng)所有的樣式信息保存入庫時,?系統(tǒng)就會為接下來的渲染創(chuàng)建樣式配置對象。最后,從空間數(shù)據(jù)庫里加載樣式信息,并根據(jù)樣式信息為每個對象進行渲染。比如想查詢佛羅里達國際大學(xué)周圍的房價,可通過如圖10(b)的MapQL語句查詢,結(jié)果如圖10(c)。
圖10 ?MapQL的實現(xiàn)、語句查詢及可視化地圖
MapQL提供了一個比地理信息系統(tǒng)應(yīng)用程序編程接口(API)更友好的界面,使得開發(fā)人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時能夠靈活地創(chuàng)建自己的地圖。
除了支持地理信息系統(tǒng)的各種應(yīng)用外,TerraFly平臺還有豐富的GIS數(shù)據(jù)集,?包括美國和加拿大的道路數(shù)據(jù)、美國人口普查和社會經(jīng)濟數(shù)據(jù)、1 500萬企業(yè)的統(tǒng)計和管理記錄、200萬專業(yè)醫(yī)生的數(shù)據(jù)、各種公共場所的數(shù)據(jù)集和全球環(huán)境數(shù)據(jù)等,?用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數(shù)據(jù)集。
5.3 TerraFlyGeocloud使用難點
通過對TerraFlyGeoCloud的進一步使用和研究,發(fā)現(xiàn)了如下幾個問題。這些問題非常典型,普遍存在于這類空間數(shù)據(jù)挖掘系統(tǒng)中。
(1)寫MapQL查詢語句的難度。雖然大多數(shù)開發(fā)人員熟悉SQL語句,可以很快地寫MapQL查詢。但對不熟悉SQL的用戶而言,學(xué)習(xí)MapQL還是比較困難的。所以,?對絕大多數(shù)用戶而言,利用MapQL來完成空間分析任務(wù)仍然比較困難。
(2)空間分析任務(wù)的復(fù)雜性。一個典型的空間分析任務(wù)往往涉及幾個子任務(wù)。此外,這些子任務(wù)之間并不是完全獨立的。其中一些子任務(wù)的輸出往往是其他子任務(wù)的輸入。根據(jù)這種依賴關(guān)系,一個空間數(shù)據(jù)分析任務(wù)可以自然地表示為一個工作流。但構(gòu)造和管理這樣一個復(fù)雜的工作流程是空間數(shù)據(jù)分析的一個難點。
(3)順序執(zhí)行空間數(shù)據(jù)分析的工作流的效率往往很低。盡管一個工作流中的子任務(wù)并不是互相依賴,但這些子任務(wù)只能由最終用戶來順序執(zhí)行。這種順序執(zhí)行的方式?jīng)]有充分利用分布式計算環(huán)境來并行執(zhí)行獨立的子任務(wù)和優(yōu)化系統(tǒng)性能。
這3個問題給空間數(shù)據(jù)挖掘系統(tǒng)帶來了很大的局限,限制了用戶對系統(tǒng)的有效使用。將FIU-Miner?與TerraFlyGeocloud結(jié)合來解決這些問題。首先,根據(jù)序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner來最大化子任務(wù)的并行執(zhí)行,?優(yōu)化工作流的執(zhí)行效率。
TerraFlyGeocloud+FIU-Miner系統(tǒng)架構(gòu)如圖11所示。主要有4層:用戶界面層、地理空間服務(wù)層、計算服務(wù)層和空間數(shù)據(jù)存儲和管理層。其中,從MapQL的查詢?nèi)罩局型诰虿樵兡J绞且粋€關(guān)鍵的步驟,這個步驟發(fā)生在地理空間服務(wù)層。挖掘出的順序查詢模式可以用來產(chǎn)生查詢模板和構(gòu)造空間分析的工作流。序列模式里面的每個查詢對應(yīng)于工作流里面的一個子任務(wù)。FIU-Miner在計算服務(wù)層,主要負責(zé)工作流的構(gòu)建、管理、調(diào)度和執(zhí)行。
圖11 ?TerraFlyGeocloud+FIU-Miner 系統(tǒng)架構(gòu)
5.4 應(yīng)用實例
利用FIU-Miner,系統(tǒng)可以通過構(gòu)建空間數(shù)據(jù)分析的工作流來優(yōu)化分析流程, 提高分析效率。下面通過一個詳細的房產(chǎn)投資案例來展示[12]。
房產(chǎn)投資案例的目的是要尋找具有良好升值潛力的房產(chǎn)。如果一棟房產(chǎn)本身價值很低,但它周圍的房產(chǎn)卻相對來說比其高,那么對此房產(chǎn)進行投資將是一個非常不錯的選擇。根據(jù)歷史查詢數(shù)據(jù),通過序列模式挖掘,發(fā)現(xiàn)這個任務(wù)一般有下面幾個步驟:
●?計算不同地區(qū)的平均價格,比較鄰近地區(qū)的價格,確定感興趣的地區(qū);
●?對感興趣的地區(qū)進行空間自相關(guān)分析,確定候選地區(qū);
● ?驗證候選地區(qū)罪案率和平均收入,?確定選擇結(jié)果;
● ?在地圖上對結(jié)果進行可視化。
這個任務(wù)的工作流如圖12所示。工作流里面所有的子任務(wù)都是由FIU-Miner來調(diào)度并在分布式環(huán)境中執(zhí)行的。
圖12 ?房產(chǎn)投資案例的工作流程
5.5?應(yīng)用亮點評述
上述實際案例中,將FIU-Miner應(yīng)用于空間數(shù)據(jù)挖掘,解決了空間數(shù)據(jù)挖掘中寫MapQL查詢語句困難、空間分析任務(wù)復(fù)雜性高及順序執(zhí)行空間數(shù)據(jù)分析工作流效率低這3個主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner強大的分布式處理能力,提高工作流的執(zhí)行效率。
基于FIU-Miner的TerraFlyGeoCloud?在線空間數(shù)據(jù)挖掘系統(tǒng),已成功應(yīng)用于地理(如國土邊界、水位圖等)、自然(颶風(fēng)數(shù)據(jù)分析)、經(jīng)濟(如房產(chǎn)價格分析、人均收入等數(shù)據(jù)分析)、醫(yī)療(肝癌、關(guān)節(jié)炎等疾病數(shù)據(jù)分析)、社會(犯罪數(shù)據(jù)聚類等分析)等眾多領(lǐng)域,受到政府、企業(yè)、研究機構(gòu)及個人的極大重視。
6 ?FIU-Miner應(yīng)用實例三:庫存管理數(shù)據(jù)挖掘
FIU-Miner作為庫存管理數(shù)據(jù)挖掘平臺已被成功應(yīng)用于企業(yè),成為商務(wù)智能數(shù)據(jù)挖掘應(yīng)用中一個典范[13]。
6.1?庫存管理數(shù)據(jù)挖掘任務(wù)
庫存管理是指對制造業(yè)或服務(wù)業(yè)生產(chǎn)、經(jīng)營全過程的各種物品、產(chǎn)品以及其他資源進行管理和控制,使其儲備保持在經(jīng)濟合理的水平上。高效、可靠的庫存管理可以為制定合理的貨物安全庫存量和訂貨量提供可靠的依據(jù),提高企業(yè)管理人員的決策質(zhì)量,從而減小資金的占用和缺貨損失,提高企業(yè)的經(jīng)濟效益。當(dāng)今的零售業(yè),?供應(yīng)商往往需要給不同的地區(qū)存儲大量的貨物,且交易活動復(fù)雜頻繁,必須提前合理規(guī)劃好庫存方案。現(xiàn)有的庫存管理系統(tǒng)(如InFlow和Inventoria)僅僅應(yīng)用傳統(tǒng)的統(tǒng)計分析方法分析現(xiàn)存的庫存數(shù)據(jù),對當(dāng)前的庫存信息分布進行跟蹤監(jiān)控。進行庫存決策時僅考慮單一算法模型,而無法根據(jù)綜合分析歷史數(shù)據(jù)和市場的實際狀況快速做出正確決策方案。因此,如何利用大數(shù)據(jù)挖掘技術(shù)開發(fā)智能庫存管理平臺,?實現(xiàn)高效可靠的庫存預(yù)測、庫存異常檢測及庫齡分析等任務(wù),成為當(dāng)前大型零售企業(yè)亟需解決的問題。
6.2?庫存管理數(shù)據(jù)挖掘挑戰(zhàn)
隨著庫存管理數(shù)據(jù)日益龐大,庫存管理系統(tǒng)處理問題的難度也在不斷攀升。以國內(nèi)某大型電子消費產(chǎn)品制造企業(yè)的兩大類電視產(chǎn)品(液晶和等離子)交易為例,其庫存管理數(shù)據(jù)挖掘面臨的主要挑戰(zhàn)如下。
(1)交易記錄繁多:現(xiàn)代大型零售企業(yè)業(yè)務(wù)規(guī)模龐大,產(chǎn)生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數(shù)據(jù)。
(2)屬性關(guān)系復(fù)雜:庫存數(shù)據(jù)屬性繁多,記錄中包含種類眾多的屬性,有將近200個;數(shù)據(jù)層次繁多,在不同數(shù)據(jù)維度上,記錄可屬于不同的層次;庫存數(shù)據(jù)和屬性相關(guān)性復(fù)雜等。
(3)處理速度緩慢:現(xiàn)有數(shù)據(jù)分析工具大多基于內(nèi)存,無法加載龐大數(shù)據(jù)集,?對數(shù)據(jù)輸入格式要求嚴格,適用性不強,?運行速度慢,無法響應(yīng)大數(shù)據(jù)的要求。
因此,現(xiàn)代庫存管理需要采用大數(shù)據(jù)挖掘技術(shù)開發(fā)高效、可靠、能處理大規(guī)模數(shù)據(jù)的智能庫存管理系統(tǒng)。
6.3?具體例子
筆者的研究團隊開發(fā)了基于FIU-Miner?的智能庫存管理系統(tǒng)iMiner[13],該系統(tǒng)為智能庫存管理定制了專門的數(shù)據(jù)挖掘算法,實現(xiàn)了多個功能模塊,開發(fā)了大規(guī)模的數(shù)據(jù)分析平臺系統(tǒng)。
6.3.1?系統(tǒng)概況
圖13展示了iMiner系統(tǒng)整體框架、各功能層次和模塊。系統(tǒng)自底向上分為物理資源層、任務(wù)和系統(tǒng)管理層、數(shù)據(jù)分析層、用戶界面層。該系統(tǒng)分析平臺建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIU-Miner中。這一分析平臺可提供高效率的數(shù)據(jù)分析處理工作流,并且可以有效地集成多種數(shù)據(jù)分析工具和語言,如R、Weka、Python、Hadoop等。數(shù)據(jù)分析層包括了數(shù)據(jù)預(yù)處理和各類數(shù)據(jù)挖掘算法,其中關(guān)鍵因素提取算法有助于提取對入庫/出庫量產(chǎn)生較大影響的因素或者對物料異常情況有決定性影響的因素;分布式K?近鄰算法有助于查找入庫/出庫行為相似的物料;分布式回歸分析有助于對大盤及具體物料的入庫/出庫量進行有效預(yù)測。
圖13 ?iMiner系統(tǒng)架構(gòu)
系統(tǒng)主要聚焦于庫存預(yù)測、庫存異常檢測、庫齡挖掘三大核心功能,通過綜合評價和集成各種算法的輸出使得分析結(jié)果更加穩(wěn)定和準(zhǔn)確。用戶界面層囊括了多種庫存分析結(jié)果的展示,用戶可以通過屬性選擇來查看不同的分析結(jié)果,也可以通過對個別參數(shù)的修改來更新分析結(jié)果,實現(xiàn)實時的人機互動。展示結(jié)果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數(shù)據(jù)整體分布、趨勢和關(guān)鍵信息點。
6.3.2?系統(tǒng)功能模塊
iMiner主要包含庫存預(yù)測(inventory forecasting)、庫存異常檢測(inventory anomaly detection)及庫齡分析(inventory aging analysis)三大功能模塊,如圖14所示。
圖14 ?iMiner主要功能模塊
(1)庫存預(yù)測
庫存管理中,精確和可信的庫存預(yù)測是關(guān)鍵。高效、可靠的預(yù)測可以大大減少庫存負荷,降低額外的貨物維護和損耗。庫存數(shù)據(jù)為標(biāo)準(zhǔn)的時序數(shù)據(jù),數(shù)據(jù)量大、時間跨度長、涵蓋面廣、規(guī)律性差。iMiner?采用一種動態(tài)預(yù)測模型,首先根據(jù)歷史數(shù)據(jù)對出庫的基數(shù)進行預(yù)測,而后結(jié)合出庫數(shù)據(jù)的長期趨勢、周期性因素及事件性因素對基數(shù)進行動態(tài)調(diào)整,從而得到最終的預(yù)測結(jié)果。
? ?(2)庫存異常檢測
對庫存指標(biāo)進行監(jiān)控而達到異常檢測的目的,是庫存管理中不可或缺的部分。iMiner提供了多種庫存指標(biāo)的實時監(jiān)控(如庫存周轉(zhuǎn)率、庫存周轉(zhuǎn)天數(shù)、存銷比、周轉(zhuǎn)提升率、庫存資金周轉(zhuǎn)率)和不同粒度下的指標(biāo)查詢(如按時間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時,?系統(tǒng)從庫存數(shù)據(jù)多個角度入手,及時、準(zhǔn)確地發(fā)現(xiàn)庫存的波動;采用相關(guān)物料的協(xié)同異常判定,使得對于異常結(jié)果的判定更有意義,系統(tǒng)還能夠同時準(zhǔn)確判定整體性指標(biāo)變化和個別指標(biāo)異常。
(3)庫齡分析
庫齡挖掘是為了防止貨物積壓,提前發(fā)現(xiàn)潛在積壓貨物,減小貨物積壓投資。iMiner系統(tǒng)利用統(tǒng)計回歸模型實現(xiàn)庫齡分析,并提供了庫齡分析的基本工具和高級工具。基本工具允許用戶可視化分析給定貨物的庫齡分布,比較不同貨物中當(dāng)前的和歷史的庫齡變化,高級工具能夠幫助用戶找到與積壓相關(guān)的貨物屬性。iMiner系統(tǒng)中,庫齡挖掘主要包含了庫齡相關(guān)分類和標(biāo)準(zhǔn)、庫齡計算、庫齡金額計算以及安全庫存的計算等功能模塊。
6.4?應(yīng)用亮點評述
iMiner是一種新的智能庫存管理系統(tǒng),該系統(tǒng)能夠幫助大型供應(yīng)商實現(xiàn)高效的庫存管理,著力解決大數(shù)據(jù)時代現(xiàn)有庫存管理面臨的兩大關(guān)鍵問題。
(1)大規(guī)模庫存數(shù)據(jù)分析
iMiner系統(tǒng)分析平臺建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIU-Miner中。這一分析平臺是在分布式環(huán)境中管理所有的交易數(shù)據(jù),因此,iMiner能夠自動配置和執(zhí)行大規(guī)模庫存數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析任務(wù)。
(2)復(fù)雜庫存任務(wù)管理
iMiner結(jié)合多種先進的數(shù)據(jù)挖掘算法來分析庫存數(shù)據(jù)。在實踐中,系統(tǒng)采用多種回歸模型,結(jié)合時間序列分析方法來實現(xiàn)庫存預(yù)測;運用情境感知異常檢測算法來識別異常貨物;利用統(tǒng)計回歸模型來進行庫齡分析。從而實現(xiàn)高效、準(zhǔn)確的復(fù)雜庫存任務(wù)管理。
基于FIU-Miner的iMiner商務(wù)智能庫存管理平臺已經(jīng)應(yīng)用于企業(yè),成功解決了產(chǎn)品出庫預(yù)測、指標(biāo)異常檢查、庫齡挖掘等對企業(yè)產(chǎn)品生產(chǎn)和經(jīng)濟效益有重要影響的實際問題。
7 ??結(jié)束語
大數(shù)據(jù)的復(fù)雜特征對數(shù)據(jù)挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數(shù)據(jù)是現(xiàn)象,核心是挖掘數(shù)據(jù)中蘊含的潛在信息,并使它們發(fā)揮價值。數(shù)據(jù)挖掘是理論技術(shù)和實際應(yīng)用的完美結(jié)合。
本文通過目前業(yè)界對大數(shù)據(jù)的理解和認識,結(jié)合筆者及其研究團隊多年來對大數(shù)據(jù)挖掘的深入理論研究及廣泛的應(yīng)用研究,綜合凝練出大數(shù)據(jù)的核心架構(gòu),?即大數(shù)據(jù)挖掘的本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺4個要素的有機結(jié)合。在此架構(gòu)下,?從應(yīng)用的角度重點介紹了研究團隊開發(fā)的能夠快速、有效地進行各類數(shù)據(jù)挖掘任務(wù)的數(shù)據(jù)挖掘系統(tǒng)FIU-Miner,并具體介紹了基于FIU-M i ner的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘3個典型的應(yīng)用案例。FIU-Miner在這些領(lǐng)域的成功應(yīng)用也說明了提出的數(shù)據(jù)挖掘核心架構(gòu)的效用。
致謝
本文總結(jié)介紹了筆者研究團隊近幾年開展的與大數(shù)據(jù)相關(guān)的部分研究和成果。基于這些研究,給出了對大數(shù)據(jù)的理解和看法,希望能起到拋磚引玉的目的。在這些相關(guān)研究中,筆者研究團隊得到了許多人的幫助和機構(gòu)的資助,在此表示衷心感謝。
首先,要大力感謝長虹集團以及其相關(guān)科研人員Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、?Dong Liu。他們不僅為筆者研究團隊的科研提供了資助,而且其相關(guān)研究人員為筆者研究團隊提供了非常多寶貴的專業(yè)領(lǐng)域知識指導(dǎo)。
其次,要深深感謝美國佛羅里達國際大學(xué)的Knowledge Discovery and Research Group(KDRG)研究組的成員:Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他們在相關(guān)的研究及項目中付出了辛勤的勞動,提供了許多寶貴的反饋。
最后,要感謝美國佛羅里達國際大學(xué)的Naphtali Rishe教授以及其帶領(lǐng)的High Performance Database Research Center?(HPDRC)研究組里的成員: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他們在TerrayFlyGeocloud項目上與筆者研究團隊開展了非常有成效的合作。
參考文獻:
[1]?嚴霄鳳,?張德馨.?大數(shù)據(jù)研究[J].?計算機技術(shù)與發(fā)展, 2013, 23(4): 168~172.
YAN X F, ZHANG D X. Big data research[J]. Computer Technology and Development, 2013, 23(4): 168~172.
[2]?李國杰.?對大數(shù)據(jù)的再認識[J].?大數(shù)據(jù), 2015001.
LI G J. Further understanding of big data[J]. Big Data Research, 2015001.
[3]?李濤.?數(shù)據(jù)挖掘的應(yīng)用與實踐:?大數(shù)據(jù)時代的案例分析[D].?廈門:?廈門大學(xué)出版社, 2013.
LI T. Data Mining Where Theory Meets Practice[D]. Xiamen: Xiamen Press, 2013.
[4] HALL M, FRANK E, HOLMES G, et al. The Weka data mining software: an update[J]. SIGKDD Explorations, 2009, 11(1): 10 ~18.
[5] OWEN S, ANIL R, DUNNING T, et al. Mahout in Action[J]. Shelter Island: Manning Publications, 2011.
[6] PREKOPCSAK Z, MAKRAI G, HENK T, et al. Radoop: analyzing big data with rapid mine rand hadoop[C]//Proceedings of Rapid Miner Community Meetingand Conference, Dublin, Ireland, 2011.
[7] YU L, ZHENG J, WU B, et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing[C]// Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12 ), Beijing, China, 2012.
[8] ZENG C Q, JIANG Y X, ZHENG L, et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509.
[9] LEI D, HITT M A, GOLDHAR J D. Advanced manufacturing technology: organizational design and strategic flexibility[J]. Organization Studies, 1996, 17(3): 501~523.
[10] ZHENG L, ZENG C Q, LI L, et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748.
[11] ZHANG M J, WANG H B, LU Y, et al. TerraFly GeoCloud: an online spatial data analysis and visualization system[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3).
[12] ZENG C Q, LI H T, WANG H B, et al. Optimizing online spatial data analysis with sequential query patterns[C]//Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014.
[13] LI L, SHEN C, WANG L, et al. iMiner: mining inventory data for intelligent management[C]//Proceedings of the 23rd ACM International Conference on?Information and Knowledge Management, Shanghai, China, 2014.
李濤,男,南京郵電大學(xué)計算機學(xué)院、軟件學(xué)院院長,南京郵電大學(xué)大數(shù)據(jù)研究院院長。2004年7月獲美國羅徹斯特大學(xué)(University of Rochester)計算機科學(xué)博士學(xué)位,2004-2014年先后任美國佛羅里達國際大學(xué)(Florida International University)計算機學(xué)院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數(shù)據(jù)挖掘及應(yīng)用領(lǐng)域成效顯著的研究工作,曾多次獲得各種榮譽和獎勵,其中包括2006年美國國家自然科學(xué)基金委頒發(fā)的杰出青年教授獎,2010年IBM大規(guī)模數(shù)據(jù)分析創(chuàng)新獎,并于2009年獲得佛羅里達國際大學(xué)最高學(xué)術(shù)研究獎。
曾春秋,男,美國佛羅里達國際大學(xué)計算機科學(xué)博士生,南京郵電大學(xué)計算機學(xué)院大數(shù)據(jù)項目組成員。2009年7月—2012年1月為阿里巴巴(中國)網(wǎng)絡(luò)技術(shù)有限公司高級數(shù)據(jù)工程師。主要研究興趣包括大規(guī)模分布式數(shù)據(jù)挖掘和系統(tǒng)管理,發(fā)表多篇頂級數(shù)據(jù)挖掘國際期刊和會議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。
周武柏,男,美國佛羅里達國際大學(xué)計算機科學(xué)博士生,南京郵電大學(xué)計算機學(xué)院大數(shù)據(jù)項目組成員。主要研究興趣包括數(shù)據(jù)挖掘和計算機系統(tǒng)管理,發(fā)表多篇頂級數(shù)據(jù)挖掘國際期刊和會議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。
周綺鳳,女,博士,廈門大學(xué)自動化系副教授。2002年起從事數(shù)據(jù)挖掘及智能系統(tǒng)方面的研究工作,2014—2015年在美國佛羅里達國際大學(xué)訪學(xué),主要研究興趣包括機器學(xué)習(xí)、數(shù)據(jù)挖掘及其在可持續(xù)發(fā)展等領(lǐng)域的應(yīng)用。
鄭理,男,2014年在美國佛羅里達國際大學(xué)獲得計算機科學(xué)博士學(xué)位,南京郵電大學(xué)計算機學(xué)院項目研究員。主要研究興趣包括信息檢索、推薦系統(tǒng)及災(zāi)難信息管理,發(fā)表多篇頂級數(shù)據(jù)挖掘國際期刊和會議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍編寫。
總結(jié)
以上是生活随笔為你收集整理的2015年《大数据》高被引论文Top10文章No.2——大数据时代的数据挖掘 —— 从应用的角度看大数据挖掘(下)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 田玉靖(1987-),女,北京卡达克数据
- 下一篇: 【CyberSecurityLearni