数据分析与数据挖掘的区别与个人理解
數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別與個(gè)人理解
1.理解大數(shù)據(jù)
在了解數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別之前,首先我們要明確大數(shù)據(jù)的概念,因?yàn)槟壳盎ヂ?lián)網(wǎng)所謂的數(shù)據(jù)分析與數(shù)據(jù)挖掘都是基于大數(shù)據(jù)來做的。
1.1大數(shù)據(jù)的定義與特點(diǎn)
大數(shù)據(jù)有非常多的定義,我們套用一個(gè)流傳最廣的概念,大數(shù)據(jù)指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時(shí)代》 中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。
大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)、Veracity(真實(shí)性) 。
總的來說,大數(shù)據(jù)可以概括為很多、很雜、很有價(jià)值的數(shù)據(jù)。
1.2大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別
| 數(shù)據(jù)量 | GB-TB | TB-PB以上 |
| 多樣性 | 結(jié)構(gòu)化數(shù)據(jù) | 結(jié)構(gòu)化、半結(jié)構(gòu)化、多維、音視頻數(shù)據(jù) |
| 速度 | 數(shù)據(jù)量穩(wěn)定,增長不快 | 持續(xù)實(shí)時(shí)產(chǎn)生數(shù)據(jù),要求及時(shí)處理 |
| 價(jià)值 | 高密度 | 低密度 |
1.3大數(shù)據(jù)的理念
①社群思維;
②增強(qiáng)與變革;
③尋找機(jī)會(huì)。
通俗來說,我們可以理解為流量變現(xiàn)。
2.數(shù)據(jù)分析與數(shù)據(jù)挖掘
2.1數(shù)據(jù)分析與數(shù)據(jù)挖掘概念
套用百度百科的定義:
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。這一過程也是質(zhì)量管理體系的支持過程。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。數(shù)據(jù)分析的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,并使得數(shù)據(jù)分析得以推廣。數(shù)據(jù)分析是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。
數(shù)據(jù)挖掘又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來實(shí)現(xiàn)上述目標(biāo)。
2.2數(shù)據(jù)分析與數(shù)據(jù)挖掘的區(qū)別
更詳細(xì)的將兩者進(jìn)行區(qū)分的話,可以從下面幾個(gè)方面進(jìn)行理解:
數(shù)據(jù)分析:
(1)定義:簡單來說,數(shù)據(jù)分析就是對數(shù)據(jù)進(jìn)行分析。專業(yè)的說法,數(shù)據(jù)分析是指根據(jù)分析目的,用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法及工具,對收集來的數(shù)據(jù)進(jìn)行處理與分析,提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用。
(2)作用:它主要實(shí)現(xiàn)三大作用:現(xiàn)狀分析、原因分析、預(yù)測分析(定量)。數(shù)據(jù)分析的目標(biāo)明確,先做假設(shè),然后通過數(shù)據(jù)分析來驗(yàn)證假設(shè)是否正確,從而得到相應(yīng)的結(jié)論。
(3)方法:主要采用對比分析、分組分析、交叉分析、回歸分析等常用分析方法。
(4)結(jié)果:數(shù)據(jù)分析一般都是得到一個(gè)指標(biāo)統(tǒng)計(jì)量結(jié)果,如總和、平均值等,這些指標(biāo)數(shù)據(jù)都需要與業(yè)務(wù)結(jié)合進(jìn)行解讀,才能發(fā)揮出數(shù)據(jù)的價(jià)值與作用。
數(shù)據(jù)挖掘:
(1)定義:數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中,通過統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法,挖掘出未知的、且有價(jià)值的信息和知識(shí)的過程。
(2)作用:數(shù)據(jù)挖掘主要側(cè)重解決四類問題:分類、聚類、關(guān)聯(lián)和預(yù)測(定量、定性),數(shù)據(jù)挖掘的重點(diǎn)在尋找未知的模式與規(guī)律;如我們常說的數(shù)據(jù)挖掘案例:啤酒與尿布、安全套與巧克力等,這就是事先未知的,但又是非常有價(jià)值的信息。
(3)方法:主要采用決策樹、神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則、聚類分析等統(tǒng)計(jì)學(xué)、人工智能、機(jī)器學(xué)習(xí)等方法進(jìn)行挖掘。
(4)結(jié)果:輸出模型或規(guī)則,并且可相應(yīng)得到模型得分或標(biāo)簽,模型得分如流失概率值、總和得分、相似度、預(yù)測值等,標(biāo)簽如高中低價(jià)值用戶、流失與非流失、信用優(yōu)良中差等。
數(shù)據(jù)分析和數(shù)據(jù)挖掘的最大區(qū)別在于,數(shù)據(jù)分析,是以輸入的數(shù)據(jù)為基礎(chǔ),通過先驗(yàn)的約束,對數(shù)據(jù)進(jìn)行處理,但是不以結(jié)論來調(diào)整。因此數(shù)據(jù)分析的重點(diǎn)在于數(shù)據(jù)的有效性、真實(shí)性和先驗(yàn)約束的正確性。而數(shù)據(jù)挖掘則不同,數(shù)據(jù)挖掘是對信息的價(jià)值化的獲取。價(jià)值化自然不考慮數(shù)據(jù)本身,而是考慮數(shù)據(jù)是否有價(jià)值。此時(shí)對比數(shù)據(jù)分析,最大的特點(diǎn)就是,你需要調(diào)整你的不同的先驗(yàn)約束,再次對數(shù)據(jù)進(jìn)行分析。而先驗(yàn)的約束已經(jīng)不是針對數(shù)據(jù)來源自身的特點(diǎn),例如信噪比處理算法。而是你期望得到的一個(gè)有價(jià)值的內(nèi)容,做先驗(yàn)的約束。以觀測,數(shù)據(jù)根據(jù)這個(gè)約束,是否有正確的反饋。
2.3數(shù)據(jù)分析與數(shù)據(jù)挖掘的聯(lián)系
從概念上來說:數(shù)據(jù)分析和數(shù)據(jù)挖掘的主要聯(lián)系是,數(shù)據(jù)分析的結(jié)果是信息,這些信息作為數(shù)據(jù),由數(shù)據(jù)去挖掘。而數(shù)據(jù)挖掘,又使用了數(shù)據(jù)分析的手段,周而復(fù)始。
從職業(yè)上來說:職業(yè)上,有數(shù)據(jù)分析師和數(shù)據(jù)挖掘工程師,這兩者的相似點(diǎn)可總結(jié)如下:
1、都跟數(shù)據(jù)打交道,他們玩的都是數(shù)據(jù),如果沒有數(shù)據(jù)或者搜集不到數(shù)據(jù),他們都要丟飯碗。
2、知識(shí)技能有很多交叉點(diǎn),他們都需要懂統(tǒng)計(jì)學(xué),懂?dāng)?shù)據(jù)分析一些常用的方法,對數(shù)據(jù)的敏感度比較好。
3、 在職業(yè)上他們沒有很明顯的界限,很多時(shí)候數(shù)據(jù)分析師也在做挖掘方面的工作,而數(shù)據(jù)挖掘工程師也會(huì)做數(shù)據(jù)分析的工作,數(shù)據(jù)分析也有很多時(shí)候用到數(shù)據(jù)挖掘的工具和模型。而在做數(shù)據(jù)挖掘項(xiàng)目時(shí)同樣需要有人懂業(yè)務(wù)懂?dāng)?shù)據(jù),能夠根據(jù)業(yè)務(wù)需要提出正確的數(shù)據(jù)挖掘需求和方案能夠提出備選的算法模型,實(shí)際上這樣的人一腳在數(shù)據(jù)分析上另一只腳已經(jīng)在數(shù)據(jù)挖掘上了。
事實(shí)上沒有必要將數(shù)據(jù)分析和數(shù)據(jù)挖掘分的特別清,但是我們需要看到兩者的區(qū)別和聯(lián)系,想要成為或者作為一名數(shù)據(jù)行業(yè)的從業(yè)者,要根據(jù)自身的特長和愛好規(guī)劃自己的職業(yè)生涯,以尋求自身價(jià)值的最大化。
3.數(shù)據(jù)分析與數(shù)據(jù)挖掘?qū)W習(xí)路線
3.1必備技能
1.基礎(chǔ)技能
2.python
3.HQL
4.數(shù)據(jù)可視化
5.統(tǒng)計(jì)分析方法
6.互聯(lián)網(wǎng)數(shù)據(jù)分析業(yè)務(wù)了解
3.2學(xué)習(xí)路線
照搬一博主學(xué)習(xí)路線,傳送門:數(shù)據(jù)分析數(shù)據(jù)挖掘?qū)W習(xí)路徑
針對我自己情況,也是許久才最終定下來準(zhǔn)備學(xué)習(xí)數(shù)據(jù)分析以及挖掘,以后從業(yè)準(zhǔn)備找數(shù)據(jù)挖掘相關(guān)崗位。先說一下我自己的情況,統(tǒng)計(jì)專業(yè)研究生,做過數(shù)據(jù)挖掘相關(guān)項(xiàng)目,但一直學(xué)習(xí)的是深度學(xué)習(xí)計(jì)算機(jī)視覺CV方面的知識(shí),出于對自身情況以及職業(yè)興趣,糾結(jié)了好久的我在七月的尾巴做了決定,最終的我還是選擇數(shù)據(jù)崗位。
因?yàn)槲覐膩頉]有系統(tǒng)學(xué)習(xí)過數(shù)據(jù)分析與挖掘相關(guān)知識(shí),現(xiàn)在準(zhǔn)備從基礎(chǔ)入門,寫下一系列的文章,希望我可以堅(jiān)持下來吧。
總結(jié)
以上是生活随笔為你收集整理的数据分析与数据挖掘的区别与个人理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 致远SPM国资企业解决方案之信访管理
- 下一篇: TOF相机国产、非国产统计参数对比分析