数据挖掘
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并 通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。 中文名數(shù)據(jù)挖掘 外文名Data mining 別????名資料探勘、數(shù)據(jù)采礦 所屬學(xué)科計(jì)算機(jī)科學(xué) 應(yīng)用領(lǐng)域情報(bào)檢索、數(shù)據(jù)分析、模式識別等 相關(guān)領(lǐng)域人工智能、數(shù)據(jù)庫 1 起源 2 發(fā)展階段 3 使用 4 經(jīng)驗(yàn)之談 5 成功案例 6 經(jīng)典算法 7 過程 ? 算法 ? 應(yīng)用 ? 研究 8 隱私 一般分析目的用的軟件包 K-Miner(神通數(shù)據(jù)挖掘分析系統(tǒng),MPP+SMP并行計(jì)算架構(gòu)) AlpineMiner(AlpineDataLabs) TipDM(頂尖數(shù)據(jù)挖掘平臺) GDM(Geni-Sage Data Mining Analysis System,博通數(shù)據(jù)挖掘分析系統(tǒng)) SAS Enterprise Miner KXEN(凱森) IBM Intelligent Miner Unica PRW SPSS Clementine SGI MineSet Oracle Darwin Angoss KnowledgeSeeker 2. 針對特定功能或產(chǎn)業(yè)而研發(fā)的軟件 KD1(針對零售業(yè)) Options & Choices(針對保險(xiǎn)業(yè)) HNC(針對信用卡詐欺或呆帳偵測) Unica Model 1(針對行銷業(yè)) iEM System (針對流程行業(yè)的實(shí)時(shí)歷史數(shù)據(jù)) 3. 整合DSS(Decision Support Systems)/OLAP/Data Mining的大型分析系統(tǒng) Cognos Scenario and Business Objects 國際相關(guān) [Journals] 1.ACM Transactions on Knowledge Discovery from Data (TKDD) 2.IEEE Transactions on Knowledge and Data Engineering (TKDE) 3.Data Mining and Knowledge Discovery 4.Knowledge and Information Systems 5.Data & Knowledge Engineering [Conferences] 1.SIGMOD:ACM Conference on Management of Data (ACM) 2.VLDB:International Conference on Very Large Data Bases (Morgan Kaufmann/ACM) 3.ICDE:IEEE International Conference on Data Engineering (IEEE Computer Society) 4.SIGKDD:ACM Knowledge Discovery and Data Mining (ACM) 5.WWW:International World Wide Web Conferences (W3C) 6.CIKM:ACM International Conference on Information and Knowledge Management (ACM) 7.PKDD:European Conference on Principles and Practice of Knowledge Discovery in Databases (Springer-VerlagLNAI) 國內(nèi)期刊 數(shù)據(jù)挖掘研究 Hans Journal of Data Mining 是一本關(guān)注數(shù)據(jù)挖掘領(lǐng)域最新進(jìn)展的國際中文期刊,由漢斯出版社發(fā)行,主要刊登數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)安全、知識工程等計(jì)算機(jī)信息系統(tǒng)建設(shè)相關(guān)內(nèi)容的學(xué)術(shù)論文和成果 評述。本刊支持思想創(chuàng)新、學(xué)術(shù)創(chuàng)新,倡導(dǎo)科學(xué),繁榮學(xué)術(shù),集學(xué)術(shù)性、思想性為一體,旨在為了給世界范圍內(nèi)的科學(xué)家、學(xué)者、科研人員提供一個傳播、分享和討 論數(shù)據(jù)挖掘領(lǐng)域內(nèi)不同方向問題與發(fā)展的交流平臺。 研究領(lǐng)域: 數(shù)據(jù)挖掘 · 數(shù)據(jù)結(jié)構(gòu) · 數(shù)據(jù)安全與計(jì)算機(jī)安全 · 數(shù)據(jù)庫 · 數(shù)據(jù)處理 · 知識工程 · 計(jì)算機(jī)信息管理系統(tǒng) · 計(jì)算機(jī)決策支持系統(tǒng) · 計(jì)算機(jī)應(yīng)用其他學(xué)科 · 模式識別 · 人工智能其他學(xué)科 編委信息 主編 丁曉青 教授清華大學(xué) 編委會 蔣嶷川 教授東南大學(xué) 李道亮 教授中國農(nóng)業(yè)大學(xué) 賴劍煌 教授中山大學(xué) 劉金山 教授華南農(nóng)業(yè)大學(xué) 李紹滋 教授廈門大學(xué) 呂紹高 副教授西南財(cái)經(jīng)大學(xué) 馬懋德 副教授新加坡南洋理工大學(xué) 莫宏偉 教授哈爾濱工程大學(xué) 樸昌浩 教授重慶郵電大學(xué) 譚文安 教授南京航空航天大學(xué) 王加陽 教授中南大學(xué) 汪衛(wèi) 教授復(fù)旦大學(xué) 楊力華 教授中山大學(xué) 楊曉忠 教授華北電力大學(xué) 張道強(qiáng) 教授南京航空航天大學(xué) 檢索 《數(shù)據(jù)挖掘》期刊論文已被以下數(shù)據(jù)庫收錄: 維普 萬方 全國期刊聯(lián)合目錄數(shù)據(jù)庫(UNICAT) 中國科學(xué)院國家科學(xué)圖書館 讀秀學(xué)術(shù) DOAJ Open J-Gate Google Scholar Academic Journals Database The Elektronische Zeitschriftenbibliothek(EZB) NewJour SJSU Worldwidescience Ulrichsweb Washington trueserials WorldCat NYULibraries Scirus Journalseek Index Copernicus Cornell University Library Open Access Library
目錄
起源
編輯 數(shù)據(jù)挖掘 需要是發(fā)明之母。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用,包括商務(wù)管理,生產(chǎn)控制,市場分析,工程設(shè)計(jì)和科學(xué)探索等。 數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1) 來自統(tǒng)計(jì)學(xué)的抽樣、估計(jì)和假設(shè)檢驗(yàn),(2)人工智能、模式識別和機(jī)器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計(jì)算、信息論、信號處理、可視化和信息檢索。一些其他領(lǐng)域也起到重要的支撐作用。特別地,需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持。源于高性能(并行)計(jì)算的技術(shù)在處理海量數(shù)據(jù)集方面常常是重要的。分布式技術(shù)也能幫助處理海量數(shù)據(jù),并且當(dāng)數(shù)據(jù)不能集中到一起處理時(shí)更是至關(guān)重要。發(fā)展階段
編輯 第一階段:電子郵件階段 這個階段可以認(rèn)為是從70年代開始,平均的通訊量以每年幾倍的速度增長。 第二階段:信息發(fā)布階段 從1995年起,以Web技術(shù)為代表的信息發(fā)布系統(tǒng),爆炸式地成長起來,成為目前Internet的主要應(yīng)用。中小企業(yè)如何把握好從“粗放型”到“精準(zhǔn)型”營銷時(shí)代的電子商務(wù)。 第三階段: EC(Electronic Commerce),即電子商務(wù)階段 EC在美國也才剛剛開始,之所以把EC列為一個劃時(shí)代的東西,是因?yàn)?Internet的最終主要商業(yè)用途,就是電子商務(wù)。同時(shí)反過來也可以說,若干年后的商業(yè)信息,主要是通過Internet傳遞。Internet即將成 為我們這個商業(yè)信息社會的神經(jīng)系統(tǒng)。1997年底在加拿大溫哥華舉行的第五次亞太經(jīng)合組織非正式首腦會議(APEC)上美國總統(tǒng)克林頓提出敦促各國共同促 進(jìn)電子商務(wù)發(fā)展的議案,其引起了全球首腦的關(guān)注,IBM、HP和Sun等國際著名的信息技術(shù)廠商已經(jīng)宣布1998年為電子商務(wù)年。 第四階段:全程電子商務(wù)階段 隨著SaaS(Software as a service)軟件服務(wù)模式的出現(xiàn),軟件紛紛登陸互聯(lián)網(wǎng)[5],延長了電子商務(wù)鏈條,形成了當(dāng)下最新的“全程電子商務(wù)”概念模式。也因此形成了一門獨(dú)立的學(xué)科——數(shù)據(jù)挖掘與客戶關(guān)系管理碩士。使用
編輯 分析方法: 數(shù)據(jù)挖掘 · 分類 (Classification) · 估計(jì)(Estimation) · 預(yù)測(Prediction) · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) · 聚類(Clustering) · 復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等) 方法簡介: ·分類 (Classification) 首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘分類的技術(shù),建立分類模型,對于沒有分類的數(shù)據(jù)進(jìn)行分類。 例子: a. 信用卡申請者,分類為低、中、高風(fēng)險(xiǎn) b. 故障診斷:中國寶鋼集團(tuán)與上海天律信息技術(shù)有限公司合作,采用數(shù)據(jù)挖掘技術(shù)對鋼材生產(chǎn)的全流程進(jìn)行質(zhì)量監(jiān)控和分析,構(gòu)建故障地圖,實(shí)時(shí)分析產(chǎn)品出現(xiàn)瑕疵的原因,有效提高了產(chǎn)品的優(yōu)良率。 注意: 類的個數(shù)是確定的,預(yù)先定義好的 · 估計(jì)(Estimation) 估計(jì)與分類類似,不同之處在于,分類描述的是離散型變量的輸出,而估值處理連續(xù)值的輸出;分類 數(shù)據(jù)挖掘 的類別是確定數(shù)目的,估值的量是不確定的。 例子: a. 根據(jù)購買模式,估計(jì)一個家庭的孩子個數(shù) b. 根據(jù)購買模式,估計(jì)一個家庭的收入 c. 估計(jì)real estate的價(jià)值 一般來說,估值可以作為分類的前一步工作。給定一些輸入數(shù)據(jù),通過估值,得到未知的連續(xù)變量的值,然后,根據(jù)預(yù)先設(shè)定的閾值,進(jìn)行分類。例如:銀行對家庭貸款業(yè)務(wù),運(yùn)用估值,給各個客戶記分(Score 0~1)。然后,根據(jù)閾值,將貸款級別分類。 · 預(yù)測(Prediction) 通常,預(yù)測是通過分類或估值起作用的,也就是說,通過分類或估值得出模型,該模型用于對未知變量的預(yù)言。從這種意義上說,預(yù)言其實(shí)沒有必要分為一個單獨(dú)的類。預(yù)言其目的是對未來未知變量的預(yù)測,這種預(yù)測是需要時(shí)間來驗(yàn)證的,即必須經(jīng)過一定時(shí)間后,才知道預(yù)言準(zhǔn)確性是多少。 · 相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules) 決定哪些事情將一起發(fā)生。 例子: a. 超市中客戶在購買A的同時(shí),經(jīng)常會購買B,即A => B(關(guān)聯(lián)規(guī)則) b. 客戶在購買A后,隔一段時(shí)間,會購買B (序列分析) · 聚類(Clustering) 聚類是對記錄分組,把相似的記錄在一個聚集里。聚類和分類的區(qū)別是聚集不依賴于預(yù)先定義好的類,不需要訓(xùn)練集。 例子: a. 一些特定癥狀的聚集可能預(yù)示了一個特定的疾病 b. 租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群 聚集通常作為數(shù)據(jù)挖掘的第一步。例如,"哪一種類的促銷對客戶響應(yīng)最好?",對于這一 類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。 · 描述和可視化(Description and Visualization) 是對數(shù)據(jù)挖掘結(jié)果的表示方式。一般只是指數(shù)據(jù)可視化工具,包含報(bào)表工具和商業(yè)智能分析產(chǎn)品(BI)的統(tǒng)稱。譬如通過Yonghong Z-Suite等工具進(jìn)行數(shù)據(jù)的展現(xiàn),分析,鉆取,將數(shù)據(jù)挖掘的分析結(jié)果更形象,深刻的展現(xiàn)出來。經(jīng)驗(yàn)之談
編輯 第一,目標(biāo)律:業(yè)務(wù)目標(biāo)是所有數(shù)據(jù)解決方案的源頭。 第二,知識律:業(yè)務(wù)知識是數(shù)據(jù)挖掘過程每一步的核心。 第三,準(zhǔn)備律:數(shù)據(jù)預(yù)處理比數(shù)據(jù)挖掘其他任何一個過程都重要。 第四,試驗(yàn)律(NFL律:No Free Lunch):對于數(shù)據(jù)挖掘者來說,天下沒有免費(fèi)的午餐,一個正確的模型只有通過試驗(yàn)(experiment)才能被發(fā)現(xiàn)。 第五,模式律(大衛(wèi)律):數(shù)據(jù)中總含有模式。 第六,洞察律:數(shù)據(jù)挖掘增大對業(yè)務(wù)的認(rèn)知。 第七,預(yù)測律:預(yù)測提高了信息泛化能力。 第八,價(jià)值律:數(shù)據(jù)挖掘的結(jié)果的價(jià)值不取決于模型的穩(wěn)定性或預(yù)測的準(zhǔn)確性。 第九,變化律:所有的模式因業(yè)務(wù)變化而變化。成功案例
編輯 數(shù)據(jù)挖掘幫助Credilogros Cía Financiera S.A.改善客戶信用評分 Credilogros Cía Financiera S.A. 是阿根廷第五大信貸公司,資產(chǎn)估計(jì)價(jià)值為9570萬美元,對于Credilogros而言,重要的是識別與潛在預(yù)先付款客戶相關(guān)的潛在風(fēng)險(xiǎn),以便將承擔(dān)的風(fēng)險(xiǎn)最小化。 該公司的第一個目標(biāo)是創(chuàng)建一個與公司核心系統(tǒng)和兩家信用報(bào)告公司系統(tǒng)交互 的決策引擎來處理信貸申請。同時(shí),Credilogros還在尋找針對它所服務(wù)的低收入客戶群體的自定義風(fēng)險(xiǎn)評分工具。除這些之外,其他需求還包括解決方 案能在其35個分支辦公地點(diǎn)和200多個相關(guān)的銷售點(diǎn)中的任何一個實(shí)時(shí)操作,包括零售家電連鎖店和手機(jī)銷售公司。 最終Credilogros 選擇了SPSS Inc.的數(shù)據(jù)挖掘軟件PASWModeler,因?yàn)樗軌蜢`活并輕松地整合到 Credilogros 的核心信息系統(tǒng)中。通過實(shí)現(xiàn)PASW Modeler,Credilogros將用于處理信用數(shù)據(jù)和提供最終信用評分的時(shí)間縮短到了8秒以內(nèi)。這使該組織能夠迅速批準(zhǔn)或拒絕信貸請求。該決策引 擎還使 Credilogros 能夠最小化每個客戶必須提供的身份證明文檔,在一些特殊情況下,只需提供一份身份證明即可批準(zhǔn)信貸。此外,該系統(tǒng)還提供監(jiān)控功能。Credilogros 目前平均每月使用PASW Modeler處理35000份申請。僅在實(shí)現(xiàn) 3 個月后就幫助Credilogros 將貸款支付失職減少了 20%. 數(shù)據(jù)挖掘幫助DHL實(shí)時(shí)跟蹤貨箱溫度 DHL是國際快遞和物流行業(yè)的全球市場領(lǐng)先者,它提供快遞、水陸空三路運(yùn) 輸、合同物流解決方案,以及國際郵件服務(wù)。DHL的國際網(wǎng)絡(luò)將超過220個國家及地區(qū)聯(lián)系起來,員工總數(shù)超過28.5萬人。在美國 FDA 要求確保運(yùn)送過程中藥品裝運(yùn)的溫度達(dá)標(biāo)這一壓力之下,DHL的醫(yī)藥客戶強(qiáng)烈要求提供更可靠且更實(shí)惠的選擇。這就要求DHL在遞送的各個階段都要實(shí)時(shí)跟蹤集 裝箱的溫度。 雖然由記錄器方法生成的信息準(zhǔn)確無誤,但是無法實(shí)時(shí)傳遞數(shù)據(jù),客戶和 DHL都無法在發(fā)生溫度偏差時(shí)采取任何預(yù)防和糾正措施。因此,DHL的母公司德國郵政世界網(wǎng)(DPWN)通過技術(shù)與創(chuàng)新管理(TIM)集團(tuán)明確擬定了一個 計(jì)劃,準(zhǔn)備使用RFID技術(shù)在不同時(shí)間點(diǎn)全程跟蹤裝運(yùn)的溫度。通過IBM全球企業(yè)咨詢服務(wù)部繪制決定服務(wù)的關(guān)鍵功能參數(shù)的流程框架。DHL獲得了兩方面的 收益:對于最終客戶來說,能夠使醫(yī)藥客戶對運(yùn)送過程中出現(xiàn)的裝運(yùn)問題提前做出響應(yīng),并以引人注目的低成本全面切實(shí)地增強(qiáng)了運(yùn)送可靠性。對于DHL來說,提 高了客戶滿意度和忠實(shí)度;為保持競爭差異奠定堅(jiān)實(shí)的基礎(chǔ);并成為重要的新的收入增長來源。 行業(yè)應(yīng)用 價(jià)格競爭空前激烈,語音業(yè)務(wù)增長趨緩,快速增長的中國移動通信市場正面臨 著前所未有的生存壓力。中國電信業(yè)改革的加速推進(jìn)形成了新的競爭態(tài)勢,移動運(yùn)營市場的競爭廣度和強(qiáng)度將進(jìn)一步加大,這特別表現(xiàn)在集團(tuán)客戶領(lǐng)域。移動信息化 和集團(tuán)客戶已然成為未來各運(yùn)營商應(yīng)對競爭、獲取持續(xù)增長的新引擎。 隨著國內(nèi)三足鼎立全業(yè)務(wù)競爭態(tài)勢和3G牌照發(fā)放,各運(yùn)營商為集團(tuán)客戶提供 融合的信息化解決方案將是大勢所趨,而移動信息化將成為全面進(jìn)入信息化服務(wù)領(lǐng)域的先導(dǎo)力量。傳統(tǒng)移動運(yùn)營商因此面臨著從傳統(tǒng)個人業(yè)務(wù)轉(zhuǎn)向同時(shí)拓展集團(tuán)客戶 信息化業(yè)務(wù)領(lǐng)域的挑戰(zhàn)。如何應(yīng)對來自內(nèi)外部的挑戰(zhàn),迅速以移動信息化業(yè)務(wù)作為融合業(yè)務(wù)的競爭利器之一拓展集團(tuán)客戶市場,在新興市場中立于不敗之地,是傳統(tǒng) 移動運(yùn)營商需要解決的緊迫問題。 從目前網(wǎng)絡(luò)招聘的信息來看,大小公司對數(shù)據(jù)挖掘的需求有50多個方面(來源見參考資料): 1、數(shù)據(jù)統(tǒng)計(jì)分析 2、預(yù)測預(yù)警模型 3、數(shù)據(jù)信息闡釋 4、數(shù)據(jù)采集評估 5、數(shù)據(jù)加工倉庫 6、品類數(shù)據(jù)分析 7、銷售數(shù)據(jù)分析 8、網(wǎng)絡(luò)數(shù)據(jù)分析 9、流量數(shù)據(jù)分析 10、交易數(shù)據(jù)分析 11、媒體數(shù)據(jù)分析 12、情報(bào)數(shù)據(jù)分析 13、金融產(chǎn)品設(shè)計(jì) 14、日常數(shù)據(jù)分析 15、總裁萬事通 16、數(shù)據(jù)變化趨勢 17、預(yù)測預(yù)警模型 18、運(yùn)營數(shù)據(jù)分析 19、商業(yè)機(jī)遇挖掘 20、風(fēng)險(xiǎn)數(shù)據(jù)分析 21、缺陷信息挖掘 22、決策數(shù)據(jù)支持 23、運(yùn)營優(yōu)化與成本控制 24、質(zhì)量控制與預(yù)測預(yù)警 25、系統(tǒng)工程數(shù)學(xué)技術(shù) 26、用戶行為分析/客戶需求模型 27、產(chǎn)品銷售預(yù)測(熱銷特征) 28、商場整體利潤最大化系統(tǒng)設(shè)計(jì) 29、市場數(shù)據(jù)分析 30、綜合數(shù)據(jù)關(guān)聯(lián)系統(tǒng)設(shè)計(jì) 31、行業(yè)/企業(yè)指標(biāo)設(shè)計(jì) 32、企業(yè)發(fā)展關(guān)鍵點(diǎn)分析 33、資金鏈管理設(shè)計(jì)與風(fēng)險(xiǎn)控制 34、用戶需求挖掘 35、產(chǎn)品數(shù)據(jù)分析 36、銷售數(shù)據(jù)分析 37、異常數(shù)據(jù)分析 38、數(shù)學(xué)規(guī)劃與數(shù)學(xué)方案 39、數(shù)據(jù)實(shí)驗(yàn)?zāi)M 40、數(shù)學(xué)建模與分析 41、呼叫中心數(shù)據(jù)分析 42、貿(mào)易/進(jìn)出口數(shù)據(jù)分析 43、海量數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)、關(guān)鍵技術(shù)研究 44、數(shù)據(jù)清洗、分析、建模、調(diào)試、優(yōu)化 45、數(shù)據(jù)挖掘算法的分析研究、建模、實(shí)驗(yàn)?zāi)M 46、組織機(jī)構(gòu)運(yùn)營監(jiān)測、評估、預(yù)測預(yù)警 47、經(jīng)濟(jì)數(shù)據(jù)分析、預(yù)測、預(yù)警 48、金融數(shù)據(jù)分析、預(yù)測、預(yù)警 49、科研數(shù)學(xué)建模與數(shù)據(jù)分析:社會科學(xué),自然科學(xué),醫(yī)藥,農(nóng)學(xué),計(jì)算機(jī),工程,信息,軍事,圖書情報(bào)等 50、數(shù)據(jù)指標(biāo)開發(fā)、分析與管理 51、產(chǎn)品數(shù)據(jù)挖掘與分析 52、商業(yè)數(shù)學(xué)與數(shù)據(jù)技術(shù) 53、故障預(yù)測預(yù)警技術(shù) 54、數(shù)據(jù)自動分析技術(shù) 55、泛工具分析 56、互譯 57、指數(shù)化 其中,互譯與指數(shù)化是數(shù)據(jù)挖掘除計(jì)算機(jī)技術(shù)之外最核心的兩大技術(shù)。經(jīng)典算法
編輯 1. C4.5:是機(jī)器學(xué)習(xí)算法中的一種分類決策樹算法,其核心算法是ID3算法。 2. K-means算法:是一種聚類算法。 3.SVM:一種監(jiān)督式學(xué)習(xí)的方法,廣泛運(yùn)用于統(tǒng)計(jì)分類以及回歸分析中 4.Apriori :是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。 5.EM:最大期望值法。 6.pagerank:是google算法的重要內(nèi)容。 7. Adaboost:是一種迭代算法,其核心思想是針對同一個訓(xùn)練集訓(xùn)練不同的分類器然后把弱分類器集合起來,構(gòu)成一個更強(qiáng)的最終分類器。 8.KNN:是一個理論上比較成熟的的方法,也是最簡單的機(jī)器學(xué)習(xí)方法之一。 9.Naive Bayes:在眾多分類方法中,應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes) 10.Cart:分類與回歸樹,在分類樹下面有兩個關(guān)鍵的思想,第一個是關(guān)于遞歸地劃分自變量空間的想法,第二個是用驗(yàn)證數(shù)據(jù)進(jìn)行減枝。 關(guān)聯(lián)規(guī)則規(guī)則定義 在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來看一個有趣的故事: "尿布與啤酒"的故事。 在一家超市里,有一個有趣的現(xiàn)象:尿布和啤酒赫然擺在一起出售。但是這個奇怪的舉措?yún)s使尿布和 數(shù)據(jù)挖掘 啤酒的銷量雙雙增加了。這不是一個笑話,而是發(fā)生在美國沃爾瑪連鎖店超市的真實(shí)案例,并一直為商家所津津樂道。沃爾瑪擁有世界上最大的數(shù)據(jù)倉庫系 統(tǒng),為了能夠準(zhǔn)確了解顧客在其門店的購買習(xí)慣,沃爾瑪對其顧客的購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買的商品有哪些。沃爾瑪數(shù)據(jù)倉庫里集中了其 各門店的詳細(xì)原始交易數(shù)據(jù)。在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘方法對這些數(shù)據(jù)進(jìn)行分析和挖掘。一個意外的發(fā)現(xiàn)是:"跟尿布一起購買最多的商 品竟是啤酒!經(jīng)過大量實(shí)際調(diào)查和分析,揭示了一個隱藏在"尿布與啤酒"背后的美國人的一種行為模式:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿 布,而他們中有30%~40%的人同時(shí)也為自己買一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫下班后為小孩買尿布,而丈夫們在買尿布后 又隨手帶回了他們喜歡的啤酒。 按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。 數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù), 即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有可信度。關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。Agrawal等于1993年首先 提出了挖掘顧客交易數(shù)據(jù)庫中項(xiàng)集間的關(guān)聯(lián)規(guī)則問題,以后諸多的研究人員對關(guān)聯(lián)規(guī)則的挖掘問題進(jìn)行了大量的研究。他們的工作包括對原有的算法進(jìn)行優(yōu)化,如引入隨機(jī)采樣、并行的思想等,以提高算法挖掘規(guī)則的效率;對關(guān)聯(lián)規(guī)則的應(yīng)用進(jìn)行推廣。關(guān)聯(lián)規(guī)則挖掘在數(shù)據(jù)挖掘中是一個重要的課題,最近幾年已被業(yè)界所廣泛研究。過程
編輯 關(guān)聯(lián)規(guī)則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻項(xiàng)目組(Frequent 數(shù)據(jù)挖掘 Itemsets),第二階段再由這些高頻項(xiàng)目組中產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。 關(guān)聯(lián)規(guī)則挖掘的第一階段必須從原始資料集合中,找出所有高頻項(xiàng)目組(Large Itemsets)。高頻的意思是指某一項(xiàng)目組出現(xiàn)的頻率相對于所有記錄而言,必須達(dá)到某一水平。一項(xiàng)目組出現(xiàn)的頻率稱為支持度(Support),以一個包含A與B兩個項(xiàng)目的2-itemset為例,我們可以經(jīng)由公式(1) 求得包含{A,B}項(xiàng)目組的支持度,若支持度大于等于所設(shè)定的最小支持度(Minimum Support)門檻值時(shí),則{A,B}稱為高頻項(xiàng)目組。一個滿足最小支持度的k-itemset,則稱為高頻k-項(xiàng)目組(Frequent k-itemset),一般表示為Large k或Frequent k。算法并從Large k的項(xiàng)目組中再產(chǎn)生Large k+1,直到無法再找到更長的高頻項(xiàng)目組為止。 關(guān)聯(lián)規(guī)則挖掘的第二階段是要產(chǎn)生關(guān)聯(lián)規(guī)則(Association Rules)。從高頻項(xiàng)目組產(chǎn)生關(guān)聯(lián)規(guī)則,是利用前一步驟的高頻k-項(xiàng)目組來產(chǎn)生規(guī)則,在最小信賴度(Minimum Confidence)的條件門檻下,若一規(guī)則所求得的信賴度滿足最小信賴度,稱此規(guī)則為關(guān)聯(lián)規(guī)則。例如:經(jīng)由高頻k-項(xiàng)目組{A,B}所產(chǎn)生的規(guī)則 AB,其信賴度可經(jīng)由公式(2)求得,若信賴度大于等于最小信賴度,則稱AB為關(guān)聯(lián)規(guī)則。 就沃爾瑪案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對交易資料庫中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小信賴度兩個門檻值,在此假設(shè)最小支持度min_support=5% 且最小信賴度min_confidence=70%。因此符合此該超市需求的 關(guān)聯(lián)規(guī)則將必須同時(shí)滿足以上兩個條件。若經(jīng)過挖掘過程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述 Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5% 于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購買的交易行為。Confidence(尿布,啤 酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會同時(shí)購買啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購買尿布 的行為,超市將可推薦該消費(fèi)者同時(shí)購買啤酒。這個商品推薦的行為則是根據(jù)「尿布,啤酒」關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^去的交易紀(jì)錄而言,支持了“大部份購買尿 布的交易,會同時(shí)購買啤酒”的消費(fèi)行為。 從上面的介紹還可以看出,關(guān)聯(lián)規(guī)則挖掘通常比較適用與記錄中的指標(biāo)取離散值的情況。如果原始數(shù)據(jù)庫中的指標(biāo)值是取連續(xù)的數(shù)據(jù),則在關(guān)聯(lián)規(guī)則挖掘之前應(yīng)該進(jìn)行適當(dāng)?shù)臄?shù)據(jù)離散化(實(shí)際上就是將某個區(qū)間的值對應(yīng)于某個值),數(shù)據(jù)的離散化是數(shù)據(jù)挖掘前的重要環(huán)節(jié),離散化的過程是否合理將直接影響關(guān)聯(lián)規(guī)則的挖掘結(jié)果。 分類 按照不同情況,關(guān)聯(lián)規(guī)則可以進(jìn)行分類如下: 1.基于規(guī)則中處理的變量的類別,關(guān)聯(lián)規(guī)則可以分為布爾型和數(shù)值型。 布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,它顯示了這些變量之間的關(guān)系;而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來,對數(shù)值型字段進(jìn)行處理,將其進(jìn)行動態(tài)的分割,或者直接對原始的數(shù)據(jù)進(jìn)行處理,當(dāng)然數(shù)值型關(guān)聯(lián)規(guī)則中也可以包含種類變量。例如:性別=“女”=>職業(yè)=“秘書” ,是布爾型關(guān)聯(lián)規(guī)則;性別=“女”=>avg(收入)=2300,涉及的收入是數(shù)值類型,所以是一個數(shù)值型關(guān)聯(lián)規(guī)則。 2.基于規(guī)則中數(shù)據(jù)的抽象層次,可以分為單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則。 在單層的關(guān)聯(lián)規(guī)則中,所有的變量都沒有考慮到現(xiàn)實(shí)的數(shù)據(jù)是具有多個不同的層次的;而在多層的關(guān) 數(shù)據(jù)挖掘 聯(lián)規(guī)則中,對數(shù)據(jù)的多層性已經(jīng)進(jìn)行了充分的考慮。例如:IBM臺式機(jī)=>Sony打印機(jī),是一個細(xì)節(jié)數(shù)據(jù)上的單層關(guān)聯(lián)規(guī)則;臺式機(jī)=>Sony打印機(jī),是一個較高層次和細(xì)節(jié)層次之間的多層關(guān)聯(lián)規(guī)則。 3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù),關(guān)聯(lián)規(guī)則可以分為單維的和多維的。 在單維的關(guān)聯(lián)規(guī)則中,我們只涉及到數(shù)據(jù)的一個維,如用戶購買的物品;而在 多維的關(guān)聯(lián)規(guī)則中,要處理的數(shù)據(jù)將會涉及多個維。換成另一句話,單維關(guān)聯(lián)規(guī)則是處理單個屬性中的一些關(guān)系;多維關(guān)聯(lián)規(guī)則是處理各個屬性之間的某些關(guān)系。例 如:啤酒=>尿布,這條規(guī)則只涉及到用戶的購買的物品;性別=“女”=>職業(yè)=“秘書”,這條規(guī)則就涉及到兩個字段的信息,是兩個維上的一條關(guān)聯(lián)規(guī)則。算法
1.Apriori算法:使用候選項(xiàng)集找頻繁項(xiàng)集 Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。其核心是基于兩階段頻集思想的遞推算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項(xiàng)集稱為頻繁項(xiàng)集,簡稱頻集。 該算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù) 定義的最小支持度一樣。然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度。然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的 項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。 為了生成所有頻集,使用了遞推的方法。 可能產(chǎn)生大量的候選集,以及可能需要重復(fù)掃描數(shù)據(jù)庫,是Apriori算法的兩大缺點(diǎn)。 2.基于劃分的算法 Savasere等設(shè)計(jì)了一個基于劃分的算法。這個算法先 把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊,每次單獨(dú)考慮一個分塊并對它生成所有的頻集,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集,最后計(jì)算這些項(xiàng)集的 支持度。這里分塊的大小選擇要使得每個分塊可以被放入主存,每個階段只需被掃描一次。而算法的正確性是由每一個可能的頻集至少在某一個分塊中是頻集保證 的。該算法是可以高度并行的,可以把每一分塊分別分配給某一個處理器生成頻集。產(chǎn)生頻集的每一個循環(huán)結(jié)束后,處理器之間進(jìn)行通信來產(chǎn)生全局的候選k-項(xiàng) 集。通常這里的通信過程是算法執(zhí)行時(shí)間的主要瓶頸;而另一方面,每個獨(dú)立的處理器生成頻集的時(shí)間也是一個瓶頸。 3.FP-樹頻集算法 針對Apriori算法的固有缺陷,J. Han等提出了不產(chǎn)生候選挖掘頻繁項(xiàng)集的方法:FP-樹頻集算法。采用分而治之的策略,在經(jīng)過第一遍掃描之后,把數(shù)據(jù)庫中的頻集壓縮進(jìn)一棵頻繁模式樹(FP-tree),同時(shí)依然保留其中的關(guān)聯(lián)信息,隨后再將FP-tree分化成一些條件庫,每個庫和一個長度為1的頻集相關(guān),然后再對這些條件庫分別進(jìn)行挖掘。當(dāng)原始數(shù)據(jù)量很大的時(shí)候,也可以結(jié)合劃分的方法,使得一個FP-tree可以放入主存中。實(shí)驗(yàn)表明,FP-growth對不同長度的規(guī)則都有很好的適應(yīng)性,同時(shí)在效率上較之Apriori算法有巨大的提高。應(yīng)用
就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用在西方金融行業(yè)企業(yè)中,它可 以成功預(yù)測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。現(xiàn)在銀行天天都在開發(fā)新的溝通客戶的方法。各銀行在自己的ATM機(jī)上就捆綁了顧客 可能感興趣的本行產(chǎn)品信息,供使用本行ATM機(jī)的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住 宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當(dāng)客戶打電話咨詢的時(shí)候,數(shù) 據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點(diǎn),同時(shí)也可以顯示出顧客會對什么產(chǎn)品感興趣。 同時(shí),一些知名的電子商務(wù)站點(diǎn)也從強(qiáng)大的關(guān)聯(lián)規(guī)則挖掘中的受益。這些電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則中規(guī)則進(jìn)行挖掘,然后設(shè)置用戶有意要一起購買的捆綁包。也有一些購物網(wǎng)站使用它們設(shè)置相應(yīng)的交叉銷售,也就是購買某種商品的顧客會看到相關(guān)的另外一種商品的廣告。 但是目前在我國,“數(shù)據(jù)海量,信息缺乏”是商業(yè)銀行在數(shù)據(jù)大集中之后普遍所面對的尷尬。目前金融業(yè)實(shí)施的大多數(shù)數(shù)據(jù)庫只能實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等較低層次的功能,卻無法發(fā)現(xiàn)數(shù)據(jù)中存在的各種有用的信息,譬如對這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場的變化趨勢。可以說,關(guān)聯(lián)規(guī)則挖掘的技術(shù)在我國的研究與應(yīng)用并不是很廣泛深入。 近年來,電信業(yè)從單純的語音服務(wù)演變?yōu)樘峁┒喾N服務(wù)的綜合信息服務(wù)商。隨 著網(wǎng)絡(luò)技術(shù)和電信業(yè)務(wù)的發(fā)展,電信市場競爭也日趨激烈,電信業(yè)務(wù)的發(fā)展提出了對數(shù)據(jù)挖掘技術(shù)的迫切需求,以便幫助理解商業(yè)行為,識別電信模式,捕捉盜用行 為,更好地利用資源,提高服務(wù)質(zhì)量并增強(qiáng)自身的競爭力。下面運(yùn)用一些簡單的實(shí)例說明如何在電信行業(yè)使用數(shù)據(jù)挖掘技術(shù)。可以使用上面提到的K 均值、EM 等聚類算法,針對運(yùn)營商積累的大量用戶消費(fèi)數(shù)據(jù)建立客戶分群模型,通過客戶分群模型對客戶進(jìn)行細(xì)分,找出有相同特征的目標(biāo)客戶群,然后有針對性地進(jìn)行營 銷。而且,聚類算法也可以實(shí)現(xiàn)離群點(diǎn)檢測,即在對用戶消費(fèi)數(shù)據(jù)進(jìn)行聚類的過程中,發(fā)現(xiàn)一些用戶的異常消費(fèi)行為,據(jù)此判斷這些用戶是否存在欺詐行為,決定是 否采取防范措施。可以使用上面提到的C4.5、SVM 和貝葉斯等分類算法,針對用戶的行為數(shù)據(jù),對用戶進(jìn)行信用等級評定,對于信用等級好的客戶可以給予某些優(yōu)惠服務(wù)等,對于信用等級差的用戶不能享受促銷等優(yōu) 惠。可以使用預(yù)測相關(guān)的算法,對電信客戶的網(wǎng)絡(luò)使用和客戶投訴數(shù)據(jù)進(jìn)行建模,建立預(yù)測模型,預(yù)測大客戶離網(wǎng)風(fēng)險(xiǎn),采取激勵和挽留措施防止客戶流失。可以使 用相關(guān)分析找出選擇了多個套餐的客戶在套餐組合中的潛在規(guī)律,哪些套餐容易被客戶同時(shí)選取,例如,選擇了流量套餐的客戶中大部分選擇了彩鈴業(yè)務(wù),然后基于 相關(guān)性的法則,對選擇流量但是沒有選擇彩鈴的客戶進(jìn)行交叉營銷,向他們推銷彩鈴業(yè)務(wù)。研究
由于許多應(yīng)用問題往往比超市購買問題更復(fù)雜,大量研究從不同的角度對關(guān)聯(lián) 規(guī)則做了擴(kuò)展,將更多的因素集成到關(guān)聯(lián)規(guī)則挖掘方法之中,以此豐富關(guān)聯(lián)規(guī)則的應(yīng)用領(lǐng)域,拓寬支持管理決策的范圍。如考慮屬性之間的類別層次關(guān)系,時(shí)態(tài)關(guān) 系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴(kuò)展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。 類似區(qū)別 一個經(jīng)常問的問題是,數(shù)據(jù)挖掘和OLAP到底有何不同。下面將會解釋,他們是完全不同的工具,基于的技術(shù)也大相徑庭。 OLAP是決策支持領(lǐng)域的一部分。傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫中 都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會怎么樣(What next)、和如果我采取這樣的措施又會怎么樣(What if)。用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗(yàn)證這個假設(shè)是否正確。比如,一個分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個初始的 假定,認(rèn)為低收入的人信用度也低,然后用OLAP來驗(yàn)證他這個假設(shè)。如果這個假設(shè)沒有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入 和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。 也就是說,OLAP分析師是建立一系列的假設(shè),然后通過OLAP來證實(shí)或推翻這些假設(shè)來最終得到自己的結(jié)論。OLAP分析過程在本質(zhì)上是一個演繹推理的過程。但是如果分析的變量達(dá)到幾十或上百個,那么再用OLAP手動分析驗(yàn)證這些假設(shè)將是一件非常困難和痛苦的事情。 數(shù)據(jù)挖掘與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個假定的模式 (模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。他在本質(zhì)上是一個歸納的過程。比如,一個用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘 工具可能幫他找到高負(fù)債和低收入是引起這個問題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來沒有想過或試過的其他因素,比如年齡。 數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,你也許要驗(yàn)證一下如果采取這樣的行動會給公司帶來什么樣的影響,那么OLAP工具能回答你的這些問題。 而且在知識發(fā)現(xiàn)的早期階段,OLAP工具還有其他一些用途。可以幫你探索數(shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都能幫你更好的理解你的數(shù)據(jù),加快知識發(fā)現(xiàn)的過程。 相關(guān)技術(shù) 數(shù)據(jù)挖掘利用了人工智能(AI)和統(tǒng)計(jì)分析的進(jìn)步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測。 數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,他是統(tǒng)計(jì)分析方法學(xué)的延 伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測的準(zhǔn)確度還是令人滿意的,但對使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增 強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過相對簡單和固定的方法完成同樣的功能。 一些新興的技術(shù)同樣在知識發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹,在足夠多的數(shù)據(jù)和計(jì)算能力下,他們幾乎不用人的關(guān)照自動就能完成許多有價(jià)值的功能。 數(shù)據(jù)挖掘就是利用了統(tǒng)計(jì)和人工智能技術(shù)的應(yīng)用程序,他把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。 相關(guān)影響 使數(shù)據(jù)挖掘這件事情成為可能的關(guān)鍵一點(diǎn)是計(jì)算機(jī)性能價(jià)格比的巨大進(jìn)步。在 過去的幾年里磁盤存儲器的價(jià)格幾乎降低了99%,這在很大程度上改變了企業(yè)界對數(shù)據(jù)收集和存儲的態(tài)度。如果每兆的價(jià)格是¥10,那存放1TB的價(jià)格是 ¥10,000,000,但當(dāng)每兆的價(jià)格降為1毛錢時(shí),存儲同樣的數(shù)據(jù)只有¥100,000! 計(jì)算機(jī)計(jì)算能力價(jià)格的降低同樣非常顯著。每一代芯片的誕生都會把CPU的計(jì)算能力提高一大步。內(nèi)存RAM也同樣降價(jià)迅速,幾年之內(nèi)每兆內(nèi)存的價(jià)格由幾百塊錢降到現(xiàn)在只要幾塊錢。通常PC都有64M內(nèi)存,工作站達(dá)到了256M,擁有上G內(nèi)存的服務(wù)器已經(jīng)不是什么新鮮事了。 在單個CPU計(jì)算能力大幅提升的同時(shí),基于多個CPU的并行系統(tǒng)也取得了很大的進(jìn)步。目前幾乎所有的服務(wù)器都支持多個CPU,這些SMP服務(wù)器簇甚至能讓成百上千個CPU同時(shí)工作。 基于并行系統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)也給數(shù)據(jù)挖掘技術(shù)的應(yīng)用帶來了便利。如果你有一個龐大而復(fù)雜的數(shù)據(jù)挖掘問題要求通過訪問數(shù)據(jù)庫取得數(shù)據(jù),那么效率最高的辦法就是利用一個本地的并行數(shù)據(jù)庫。 所有這些都為數(shù)據(jù)挖掘的實(shí)施掃清了道路,隨著時(shí)間的延續(xù),我們相信這條道路會越來越平坦。 相關(guān)問題 NO.1 Data Mining 和統(tǒng)計(jì)分析有什么不同? 硬要去區(qū)分Data Mining和Statistics的差異其實(shí)是沒有太大意義的。一般將之定義為Data Mining技術(shù)的CART、CHAID或模糊計(jì)算等 等理論方法,也都是由統(tǒng)計(jì)學(xué)者根據(jù)統(tǒng)計(jì)理論所發(fā)展衍生,換另一個角度看,Data Mining有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。但是為什么Data Mining的出現(xiàn)會引發(fā)各領(lǐng)域的廣泛注意呢?主要原因在相較于傳統(tǒng)統(tǒng)計(jì)分析而言,Data Mining有下列幾項(xiàng)特性: 1.處理大量實(shí)際數(shù)據(jù)更強(qiáng)勢,且無須太專業(yè)的統(tǒng)計(jì)背景去使用Data Mining的工具; 2.數(shù)據(jù)分析趨勢為從大型數(shù)據(jù)庫抓取所需數(shù)據(jù)并使用專屬計(jì)算機(jī)分析軟件,Data Mining的工具更符合企業(yè)需求; 3. 純就理論的基礎(chǔ)點(diǎn)來看,Data Mining和統(tǒng)計(jì)分析有應(yīng)用上的差別,畢竟Data Mining目的是方便企業(yè)終端用戶使用而非給統(tǒng)計(jì)學(xué)家檢測用的。 NO.2 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的關(guān)系為何? 若將Data Warehousing(數(shù)據(jù)倉庫)比喻作礦坑,Data Mining就是深入礦坑采 礦的工作。畢竟Data Mining不是一種無中生有的魔術(shù),也不是點(diǎn)石成金的煉金術(shù),若沒有夠豐富完整的數(shù)據(jù),是很難期待Data Mining能挖掘出什么有意義的信息的。 要將龐大的數(shù)據(jù)轉(zhuǎn)換成為有用的信息,必須先有效率地收集信息。隨著科技的 進(jìn)步,功能完善的數(shù)據(jù)庫系統(tǒng)就成了最好的收集數(shù)據(jù)的工具。數(shù)據(jù)倉庫,簡單地說,就是搜集來自其它系統(tǒng)的有用數(shù)據(jù),存放在一整合的儲存區(qū)內(nèi)。所以其實(shí)就是一 個經(jīng)過處理整合,且容量特別大的關(guān)系型數(shù)據(jù)庫,用以儲存決策支持系統(tǒng)(Decision Support System)所需的數(shù)據(jù),供決策支持或數(shù)據(jù)分析使用。從信息技術(shù)的角度來看,數(shù)據(jù)倉庫的目標(biāo)是在組織中,在正確的時(shí)間,將正確的數(shù)據(jù)交給正確的人。 許多人對于Data Warehousing和Data Mining時(shí)常混淆,不知如何分辨。其實(shí),數(shù)據(jù)倉庫是數(shù)據(jù)庫技術(shù)的一個新主題,利用計(jì)算機(jī)系統(tǒng)幫助我們操作、計(jì)算和思考,讓作業(yè)方式改變,決策方式也跟著改變。 數(shù)據(jù)倉庫本身是一個非常大的數(shù)據(jù)庫,它儲存著由組織作業(yè)數(shù)據(jù)庫中整合而來的數(shù)據(jù),特別是指事務(wù)處理系統(tǒng)OLTP(On-Line Transactional Processing)所得來的數(shù)據(jù)。將這些整合過的數(shù)據(jù)置放于數(shù)據(jù)倉庫中,而公司的決策者則利用這些數(shù)據(jù)作決策;但是,這個轉(zhuǎn)換及整合數(shù)據(jù)的過程,是建立一個數(shù)據(jù)倉庫最大的挑戰(zhàn)。因?yàn)閷⒆鳂I(yè)中的數(shù)據(jù)轉(zhuǎn)換成 有用的的策略性信息是整個數(shù)據(jù)倉庫的重點(diǎn)。綜上所述,數(shù)據(jù)倉庫應(yīng)該具有這些數(shù)據(jù):整合性數(shù)據(jù)(integrated data)、詳細(xì)和匯總性的數(shù)據(jù)(detailed and summarized data)、歷史數(shù)據(jù)、解釋數(shù)據(jù)的數(shù)據(jù)。從數(shù)據(jù)倉庫挖掘出對決策有用的信息與知識,是建立數(shù)據(jù)倉庫與使用Data Mining的最大目的,兩者的本質(zhì)與過程是兩回事。換句話說,數(shù)據(jù)倉庫應(yīng)先行建立完成,Data mining才能有效率的進(jìn)行,因?yàn)閿?shù)據(jù)倉庫本身所含數(shù)據(jù)是干凈(不會有錯誤的數(shù)據(jù)參雜其中)、完備,且經(jīng)過整合的。因此兩者關(guān)系或許可解讀為Data Mining是從巨大數(shù)據(jù)倉庫中找出有用信息的一種過程與技術(shù)。 大部分情況下,數(shù)據(jù)挖掘都要先把數(shù)據(jù)從數(shù)據(jù)倉庫中拿到數(shù)據(jù)挖掘庫或數(shù)據(jù)集市中(見圖1)。 從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。就如我們后面會講到的,數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時(shí)已經(jīng)清理過,那很可能在做數(shù)據(jù)挖掘時(shí)就沒必要在清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)被你解決了。 數(shù)據(jù)挖掘庫可能是你的數(shù)據(jù)倉庫的一個邏輯上的子集,而不一定非得是物理上單獨(dú)的數(shù)據(jù)庫。但如果你的數(shù)據(jù)倉庫的計(jì)算資源已經(jīng)很緊張,那你最好還是建立一個單獨(dú)的數(shù)據(jù)挖掘庫。 當(dāng)然為了數(shù)據(jù)挖掘你也不必非得建立一個數(shù)據(jù)倉庫,數(shù)據(jù)倉庫不是必需的。建 立一個巨大的數(shù)據(jù)倉庫,把各個不同源的數(shù)據(jù)統(tǒng)一在一起,解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi),是一項(xiàng)巨大的工程,可能要用幾年的 時(shí)間花上百萬的錢才能完成。只是為了數(shù)據(jù)挖掘,你可以把一個或幾個事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,然后在他上面進(jìn)行數(shù)據(jù)挖掘。 NO.3 OLAP 能不能代替 Data Mining? 所謂OLAP(Online Analytical Process)意指由數(shù)據(jù)庫所連結(jié)出來的在線分析處理程序。有些人會說:「我已經(jīng)有OLAP的工具了,所以我不需要Data Mining。」事實(shí)上兩者間是截然不同的,主要差異在于Data Mining用在產(chǎn)生假設(shè),OLAP則用于查證假設(shè)。簡單來說,OLAP是由使用者所主導(dǎo),使用者先有一些假設(shè),然后利用OLAP來查證假設(shè)是否成立;而 Data Mining則是用來幫助使用者產(chǎn)生假設(shè)。所以在使用OLAP或其它Query的工具時(shí),使用者是自己在做探索(Exploration),但Data Mining是用工具在幫助做探索。 舉個例子來看,一市場分析師在為超市規(guī)劃貨品架柜擺設(shè)時(shí),可能會先假設(shè)嬰兒尿布和嬰兒奶粉會是常被一起購買的產(chǎn)品,接著便可利用OLAP的工具去驗(yàn)證此假設(shè)是否為真,又成立的證據(jù)有多明顯;但Data Mining則不然,執(zhí)行Data Mining的人將龐大的結(jié)帳數(shù)據(jù)整理后,并不需要假設(shè)或期待可能的結(jié)果,透過Mining技術(shù)可找出存在于數(shù)據(jù)中的潛在規(guī)則,于是我們可能得到例如尿布和啤酒常被同時(shí)購買的意料外之發(fā)現(xiàn),這是OLAP所做不到的。 Data Mining常能挖掘出超越歸納范圍的關(guān)系,但OLAP僅能利用人工查詢及可視化的報(bào)表來確認(rèn)某些關(guān)系,是以Data Mining此種自動找出甚至不會被懷疑過的數(shù)據(jù)模型與關(guān)系的特性,事實(shí)上已超越了我們經(jīng)驗(yàn)、教育、想象力的限制,OLAP可以和Data Mining互補(bǔ),但這項(xiàng)特性是Data Mining無法被OLAP取代的。 NO.4 完整的Data Mining 包含哪些步驟? 1、數(shù)據(jù)挖掘環(huán)境 數(shù)據(jù)挖掘是指一個完整的過程,該過程從大型數(shù)據(jù)庫中挖掘先前未知的,有效的,可實(shí)用的信息,并使用這些信息做出決策或豐富知識. 數(shù)據(jù)挖掘環(huán)境可示意如下圖: 數(shù)據(jù)挖掘環(huán)境框圖.gif 2、數(shù)據(jù)挖掘過程圖 下圖描述了數(shù)據(jù)挖掘的基本過程和主要步驟 數(shù)據(jù)挖掘的基本過程和主要步驟 3、數(shù)據(jù)挖掘過程工作量 在數(shù)據(jù)挖掘中被研究的業(yè)務(wù)對象是整個過程的基礎(chǔ),它驅(qū)動了整個數(shù)據(jù)挖掘過 程,也是檢驗(yàn)最后結(jié)果和指引分析人員完成數(shù)據(jù)挖掘的依據(jù)和顧問.圖2各步驟是按一定順序完成的,當(dāng)然整個過程中還會存在步驟間的反饋.數(shù)據(jù)挖掘的過程并不 是自動的,絕大多數(shù)的工作需要人工完成.圖3給出了各步驟在整個過程中的工作量之比.可以看到,60%的時(shí)間用在數(shù)據(jù)準(zhǔn)備上,這說明了數(shù)據(jù)挖掘?qū)?shù)據(jù)的嚴(yán) 格要求,而后挖掘工作僅占總工作量的10%. 圖3數(shù)據(jù)挖掘過程工作量比例 4、數(shù)據(jù)挖掘過程簡介 過程中各步驟的大體內(nèi)容如下: (1). 確定業(yè)務(wù)對象 清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會成功的. (2). 數(shù)據(jù)準(zhǔn)備 1)、數(shù)據(jù)的選擇 搜索所有與業(yè)務(wù)對象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù). 2)、數(shù)據(jù)的預(yù)處理 研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備.并確定將要進(jìn)行的挖掘操作的類型. 3)、數(shù)據(jù)的轉(zhuǎn)換 將數(shù)據(jù)轉(zhuǎn)換成一個分析模型.這個分析模型是針對挖掘算法建立的.建立一個真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵. (3). 數(shù)據(jù)挖掘 對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成. (4). 結(jié)果分析 解釋并評估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會用到可視化技術(shù). (5). 知識的同化 將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去. 5、數(shù)據(jù)挖掘需要的人員 數(shù)據(jù)挖掘過程的分步實(shí)現(xiàn),不同的步會需要是有不同專長的人員,他們大體可以分為三類. 業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對象,并根據(jù)各業(yè)務(wù)對象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求. 數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù). 數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù). 從上可見,數(shù)據(jù)挖掘是一個多種專家合作的過程,也是一個在資金上和技術(shù)上高投入的過程.這一過程要反復(fù)進(jìn)行牞在反復(fù)過程中,不斷地趨近事物的本質(zhì),不斷地優(yōu)先問題的解決方案。數(shù)據(jù)重組和細(xì)分添加和拆分記錄選取數(shù)據(jù)樣本可視化數(shù)據(jù)探索聚類分析神經(jīng)網(wǎng)絡(luò)、決策樹數(shù)理統(tǒng)計(jì)、時(shí)間序列結(jié)論綜合解釋評價(jià)數(shù)據(jù)知識數(shù)據(jù)取樣數(shù)據(jù)探索數(shù)據(jù)調(diào)整模型化評價(jià)。 NO.5 Data Mining 運(yùn)用了哪些理論與技術(shù)? Data Mining是近年來數(shù)據(jù)庫應(yīng)用技術(shù)中相當(dāng)熱門的議題,看似神奇、聽來時(shí)髦,實(shí)際上卻也不是什么新東西,因其所用之諸如預(yù)測模型、數(shù)據(jù)分割,連結(jié)分析(Link Analysis)、偏差偵測(Deviation Detection)等,美國早在二次世界大戰(zhàn)前就已應(yīng)用運(yùn)用在人口普查及軍事等方面。 隨著信息科技超乎想象的進(jìn)展,許多新的計(jì)算機(jī)分析工具問世,例如關(guān)系型數(shù)據(jù)庫、模糊計(jì)算理論、基因算法則以及類神經(jīng)網(wǎng)絡(luò)等,使得從數(shù)據(jù)中發(fā)掘?qū)毑爻蔀橐环N系統(tǒng)性且可實(shí)行的程序。 一般而言,Data Mining的理論技術(shù)可分為傳統(tǒng)技術(shù)與改良技術(shù)兩支。傳統(tǒng)技術(shù)以統(tǒng)計(jì)分析為代表,統(tǒng)計(jì)學(xué)內(nèi)所含序列統(tǒng)計(jì)、概率論、回歸分析、類別數(shù)據(jù)分析等都屬于傳統(tǒng)數(shù)據(jù)挖掘技術(shù),尤其 Data Mining 對象多為變量繁多且樣本數(shù)龐大的數(shù)據(jù),是以高等統(tǒng)計(jì)學(xué)里所含括之多變量分析中用來精簡變量的因素分析(Factor Analysis)、用來分類的判別分析(Discriminant Analysis),以及用來區(qū)隔群體的分群分析(Cluster Analysis)等,在Data Mining過程中特別常用。 在改良技術(shù)方面,應(yīng)用較普遍的有決策樹理論(Decision Trees)、類神經(jīng)網(wǎng)絡(luò)(Neural Network)以及規(guī)則歸納法(Rules Induction)等。決策樹是一種用樹枝狀展現(xiàn)數(shù)據(jù)受各變量的影響情形之預(yù)測模型,根據(jù)對目標(biāo)變量產(chǎn)生之效應(yīng)的不同而建構(gòu)分類的規(guī)則,一般多運(yùn)用在對客戶數(shù)據(jù)的分析上,例如針對有回函與未回含的郵寄對象找出影響其分類結(jié)果的變量組合,常用分類方法為CART(Classification and Regression Trees)及CHAID(Chi-Square Automatic Interaction Detector)兩種。 類神經(jīng)網(wǎng)絡(luò)是一種仿真人腦思考結(jié)構(gòu)的數(shù)據(jù)分析模式,由輸入之變量與數(shù)值中自我學(xué)習(xí)并根據(jù)學(xué)習(xí)經(jīng)驗(yàn)所得之知識不斷調(diào)整參數(shù)以期建構(gòu)數(shù)據(jù)的型樣(patterns)。類神經(jīng)網(wǎng)絡(luò)為非線性的設(shè)計(jì),與傳統(tǒng)回歸分析相比,好處是在進(jìn)行分析時(shí)無須限定模式,特別當(dāng)數(shù)據(jù)變量間存有交互效應(yīng)時(shí)可自動偵測出;缺點(diǎn)則在于其分析過程為一黑盒子,故常無法以可讀之模型格式展現(xiàn),每階段的加權(quán)與轉(zhuǎn)換亦不明確,是故類神經(jīng)網(wǎng)絡(luò)多利用于數(shù)據(jù)屬于高度非線性且?guī)в邢喈?dāng)程度的變量交感效應(yīng)時(shí)。 規(guī)則歸納法是知識發(fā)掘的領(lǐng)域中最常用的格式,這是一種由一連串的「如果…/則…(If / Then)」之邏輯規(guī)則對數(shù)據(jù)進(jìn)行細(xì)分的技術(shù),在實(shí)際運(yùn)用時(shí)如何界定規(guī)則為有效是最大的問題,通常需先將數(shù)據(jù)中發(fā)生數(shù)太少的項(xiàng)目先剔除,以避免產(chǎn)生無意義的邏輯規(guī)則。 NO.6 Data Mining包含哪些主要功能? Data Mining實(shí)際應(yīng)用功能可分為三大類六分項(xiàng)來說明:Classification和Clustering屬于分類區(qū)隔類;Regression和Time-series屬于推算預(yù)測類;Association和Sequence則屬于序列規(guī)則類。 Classification是根據(jù)一些變量的數(shù)值做計(jì)算,再依照結(jié)果作 分類。(計(jì)算的結(jié)果最后會被分類為幾個少數(shù)的離散數(shù)值,例如將一組數(shù)據(jù)分為 "可能會響應(yīng)" 或是 "可能不會響應(yīng)" 兩類)。Classification常被用來處理如前所述之郵寄對象篩選的問題。我們會用一些根據(jù)歷史經(jīng)驗(yàn)已經(jīng)分類好的數(shù)據(jù)來研究它們的特征,然后再根 據(jù)這些特征對其他未經(jīng)分類或是新的數(shù)據(jù)做預(yù)測。這些我們用來尋找特征的已分類數(shù)據(jù)可能是來自我們的現(xiàn)有的客戶數(shù)據(jù),或是將一個完整數(shù)據(jù)庫做部份取樣,再經(jīng)由實(shí)際的運(yùn)作來測試;譬如利用一個大型郵寄對象數(shù)據(jù)庫的部份取樣來建立一個Classification Model,再利用這個Model來對數(shù)據(jù)庫的其它數(shù)據(jù)或是新的數(shù)據(jù)作分類預(yù)測。 Clustering用在將數(shù)據(jù)分群,其目的在于將群間的差異找出來,同時(shí)也將群內(nèi)成員的相似性找出來。Clustering與Classification不同的是,在分析前并不知道會以何種方式或根據(jù)來分類。所以必須要配合專業(yè)領(lǐng)域知識來解讀這些分群的意義。 Regression是使用一系列的現(xiàn)有數(shù)值來預(yù)測一個連續(xù)數(shù)值的可能 值。若將范圍擴(kuò)大亦可利用Logistic Regression來預(yù)測類別變量,特別在廣泛運(yùn)用現(xiàn)代分析技術(shù)如類神經(jīng)網(wǎng)絡(luò)或決策樹理論等分析工具,推估預(yù)測的模式已不在止于傳統(tǒng)線性的局限,在預(yù)測 的功能上大大增加了選擇工具的彈性與應(yīng)用范圍的廣度。 Time-Series Forecasting與Regression功能類似,只是它是用現(xiàn)有的數(shù)值來預(yù)測未來的數(shù)值。兩者最大差異在于Time-Series所分析的數(shù)值都 與時(shí)間有關(guān)。Time-Series Forecasting的工具可以處理有關(guān)時(shí)間的一些特性,譬如時(shí)間的周期性、階層性、季節(jié)性以及其它的一些特別因素(如過去與未來的關(guān)連性)。 Association是要找出在某一事件或是數(shù)據(jù)中會同時(shí)出現(xiàn)的東西。舉例而言,如果A是某一事件的一種選擇,則B也出現(xiàn)在該事件中的機(jī)率有多少。(例如:如果顧客買了火腿和柳橙汁,那么這個顧客同時(shí)也會買牛奶的機(jī)率是85%。) Sequence Discovery與Association關(guān)系很密切,所不同的是Sequence Discovery中事件的相關(guān)是以時(shí)間因素來作區(qū)隔(例如:如果A股票在某一天上漲12%,而且當(dāng)天股市加權(quán)指數(shù)下降,則B股票在兩天之內(nèi)上漲的機(jī)率是 68%)。 NO.7 Data Mining在各領(lǐng)域的應(yīng)用情形為何? Data Mining在各領(lǐng)域的應(yīng)用非常廣泛,只要該產(chǎn)業(yè)擁有具分析價(jià)值與需求的數(shù)據(jù)倉儲或數(shù)據(jù)庫,皆可利用Mining工具進(jìn)行有目的的挖掘分析。一般較常見的應(yīng)用案例多發(fā)生在零售業(yè)、直效行銷界、制造業(yè)、財(cái)務(wù)金融保險(xiǎn)、通訊業(yè)以及醫(yī)療服務(wù)等。 于銷售數(shù)據(jù)中發(fā)掘顧客的消費(fèi)習(xí)性,并可藉由交易紀(jì)錄找出顧客偏好的產(chǎn)品組 合,其它包括找出流失顧客的特征與推出新產(chǎn)品的時(shí)機(jī)點(diǎn)等等都是零售業(yè)常見的實(shí)例;直效行銷強(qiáng)調(diào)的分眾概念與數(shù)據(jù)庫行銷方式在導(dǎo)入Data Mining的技術(shù)后,使直效行銷的發(fā)展性更為強(qiáng)大,例如利用Data Mining分析顧客群之消費(fèi)行為與交易紀(jì)錄,結(jié)合基本數(shù)據(jù),并依其對品牌價(jià)值等級的高低來區(qū)隔顧客,進(jìn)而達(dá)到差異化行銷的目的;制造業(yè)對Data Mining的需求多運(yùn)用在品質(zhì)控管方面,由制造過程中找出影響產(chǎn)品品質(zhì)最重要的因素,以期提高作業(yè)流程的效率。 近來電話公司、信用卡公司、保險(xiǎn)公司以及股票交易商對于詐欺行為的偵測 (Fraud Detection)都很有興趣,這些行業(yè)每年因?yàn)樵p欺行為而造成的損失都非常可觀,Data Mining可以從一些信用不良的客戶數(shù)據(jù)中找出相似特征并預(yù)測可能的詐欺交易,達(dá)到減少損失的目的。財(cái)務(wù)金融業(yè)可以利用 Data Mining來分析市場動向,并預(yù)測個別公司的營運(yùn)以及股價(jià)走向。Data Mining的另一個獨(dú)特的用法是在醫(yī)療業(yè),用來預(yù)測手術(shù)、用藥、診斷、或是流程控制的效率。 NO.8 Web Mining 和數(shù)據(jù)挖掘有什么不同? 如果將Web視為CRM的一個新的Channel,則Web Mining便可單純看做Data Mining應(yīng)用在網(wǎng)絡(luò)數(shù)據(jù)的泛稱。 該如何測量一個網(wǎng)站是否成功?哪些內(nèi)容、優(yōu)惠、廣告是人氣最旺的?主要訪 客是哪些人?什么原因吸引他們前來?如何從堆積如山之大量由網(wǎng)絡(luò)所得數(shù)據(jù)中找出讓網(wǎng)站運(yùn)作更有效率的操作因素?以上種種皆屬Web Mining 分析之范疇。Web Mining 不僅只限于一般較為人所知的log file分析,除了計(jì)算網(wǎng)頁瀏覽率以及訪客人次外,舉凡網(wǎng)絡(luò)上的零售、財(cái)務(wù)服務(wù)、通訊服務(wù)、政府機(jī)關(guān)、醫(yī)療咨詢、遠(yuǎn)距教學(xué)等等,只要由網(wǎng)絡(luò)連結(jié)出的數(shù)據(jù)庫 夠大夠完整,所有Off-Line可進(jìn)行的分析,Web Mining都可以做,甚或更可整合Off-Line及On-Line的數(shù)據(jù)庫,實(shí)施更大規(guī)模的模型預(yù)測與推估,畢竟憑借網(wǎng)際網(wǎng)絡(luò)的便利性與滲透力再配合網(wǎng)絡(luò)行為的可追蹤性與高互動特質(zhì),一對一行銷的理念是最有機(jī)會在網(wǎng)絡(luò)世界里完全落實(shí)的。 整體而言,Web Mining具有以下特性:1.數(shù)據(jù)收集容 易且不引人注意,所謂凡走過必留下痕跡,當(dāng)訪客進(jìn)入網(wǎng)站后的一切瀏覽行為與歷程都是可以立即被紀(jì)錄的;2. 以交互式個人化服務(wù)為終極目標(biāo),除了因應(yīng)不同訪客呈現(xiàn)專屬設(shè)計(jì)的網(wǎng)頁之外,不同的訪客也會有不同的服務(wù);3. 可整合外部來源數(shù)據(jù)讓分析功能發(fā)揮地更深更廣,除了log file、cookies、會員填表數(shù)據(jù)、線上調(diào)查數(shù)據(jù)、線上交易數(shù)據(jù)等由網(wǎng)絡(luò)直接取得的資源外,結(jié)合實(shí)體世界累積時(shí)間更久、范圍更廣的資源,將使分析的 結(jié)果更準(zhǔn)確也更深入。 利用Data Mining技術(shù)建立更深入的訪客數(shù)據(jù)剖析,并賴以架構(gòu)精準(zhǔn)的預(yù)測模式,以期呈現(xiàn)真正智能型個人化的網(wǎng)絡(luò)服務(wù),是Web Mining努力的方向。 NO.9 數(shù)據(jù)挖掘在 CRM 中扮演的角色為何? CRM(Customer Relationship Management)是近來引起熱烈討論與高度關(guān)切的議題,尤其在直效行銷的崛起與網(wǎng)絡(luò)的快速發(fā)展帶動下,跟不上CRM的腳步如同跟不上時(shí)代。事實(shí)上 CRM并不算新發(fā)明,奧美直效行銷推動十?dāng)?shù)年的CO(Customer Ownership)就是現(xiàn)在大家談的CRM—客戶關(guān)系管理。 Data Mining應(yīng)用在CRM的主要方式可對應(yīng)在Gap Analysis之三個部分: 針對Acquisition Gap,可利用Customer Profiling找出客戶的一些共同的特征,希望能藉此深入了解客戶,藉由Cluster Analysis對客戶進(jìn)行分群后再通過Pattern Analysis預(yù)測哪些人可能成為我們的客戶,以幫助行銷人員找到正確的行銷對象,進(jìn)而降低成本,也提高行銷的成功率。 針對Sales Gap,可利用Basket Analysis幫助了解客戶的產(chǎn)品消費(fèi)模式,找出哪些產(chǎn)品客戶最容易一起購買,或是利用Sequence Discovery預(yù)測客戶在買了某一樣產(chǎn)品之后,在多久之內(nèi)會買另一樣產(chǎn)品等等。利用 Data Mining可以更有效的決定產(chǎn)品組合、產(chǎn)品推薦、進(jìn)貨量或庫存量,甚或是在店里要如何擺設(shè)貨品等,同時(shí)也可以用來評估促銷活動的成效。 針對Retention Gap,可以由原客戶后來卻轉(zhuǎn)成競爭對手的客戶群中,分析其特征,再根據(jù)分析結(jié)果到現(xiàn)有客戶數(shù)據(jù)中找出可能轉(zhuǎn)向的客戶,然后設(shè)計(jì)一些方法預(yù)防客戶流失;更有系統(tǒng)的做法是藉由Neural Network根據(jù)客戶的消費(fèi)行為與交易紀(jì)錄對客戶忠誠度進(jìn)行Scoring的排序,如此則可區(qū)隔流失率的等級進(jìn)而配合不同的策略。 CRM不是設(shè)一個(800)客服專線就算了,更不僅只是把一堆客戶基本數(shù)據(jù)輸入計(jì)算機(jī)就夠,完整的CRM運(yùn)作機(jī)制在相關(guān)的硬軟件系統(tǒng)能 健全的支持之前,有太多的數(shù)據(jù)準(zhǔn)備工作與分析需要推動。企業(yè)透過Data Mining可以分別針對策略、目標(biāo)定位、操作效能與測量評估等四個切面之相關(guān)問題,有效率地從市場與顧客所搜集累積之大量數(shù)據(jù)中挖掘出對消費(fèi)者而言最關(guān) 鍵、最重要的答案,并賴以建立真正由客戶需求點(diǎn)出發(fā)的客戶關(guān)系管理。 NO.10 目前業(yè)界常用的數(shù)據(jù)挖掘分析工具? Data Mining工具市場大致可分為三類:隱私
編輯 與數(shù)據(jù)挖掘有關(guān)的,還牽扯到隱私問題,例如:一個雇主可以通過訪問醫(yī)療記錄來篩選出那些有糖尿病或者嚴(yán)重心臟病的人,從而意圖削減保險(xiǎn)支出。然而,這種做法會導(dǎo)致倫理和法律問題。 對于政府和商業(yè)數(shù)據(jù)的挖掘,可能會涉及到的,是國家安全或者商業(yè)機(jī)密之類的問題。這對于保密也是個不小的挑戰(zhàn)。 數(shù)據(jù)挖掘有很多合法的用途,例如可以在患者群的數(shù)據(jù)庫中查出某藥物和其副作用的關(guān)系。這種關(guān)系可能在1000人中也不會出現(xiàn)一例,但藥物學(xué)相關(guān)的項(xiàng)目就可以運(yùn)用此方法減少對藥物有不良反應(yīng)的病人數(shù)量,還有可能挽救生命;但這當(dāng)中還是存在著數(shù)據(jù)庫可能被濫用的問題。 數(shù)據(jù)挖掘?qū)崿F(xiàn)了用其他方法不可能實(shí)現(xiàn)的方法來發(fā)現(xiàn)信息,但它必須受到規(guī)范,應(yīng)當(dāng)在適當(dāng)?shù)恼f明下使用。 如果數(shù)據(jù)是收集自特定的個人,那么就會出現(xiàn)一些涉及保密、法律和倫理的問題。總結(jié)
- 上一篇: IT男着装bug修复,下一个业界男神就是
- 下一篇: 使用ICAP原语实现SPI-Multib