大数据挖掘简介
大數(shù)據(jù)挖掘涉及如下的課程:機(jī)器學(xué)習(xí),統(tǒng)計(jì)學(xué),人工智能,數(shù)據(jù)庫(kù)等,但是更多的注重如下的特性:
1)可擴(kuò)展性(Scalability)(大數(shù)據(jù))
2)算法和架構(gòu)
3)自動(dòng)的處理大數(shù)據(jù)
我們需要學(xué)習(xí)挖掘不同類型的數(shù)據(jù):
1)高維的數(shù)據(jù)
2)圖數(shù)據(jù)
3)無(wú)限的(infinite/never-ending)數(shù)據(jù)
4)貼有標(biāo)簽的數(shù)據(jù)
同時(shí)我們還要學(xué)習(xí)不同的計(jì)算模型:
1)MapReduce算法
2)流和在線(Streams and Online)算法
3)Single machine in-memory
然后,還要學(xué)習(xí)解決現(xiàn)實(shí)中的問(wèn)題,像:
1)推薦系統(tǒng)
2)關(guān)聯(lián)規(guī)則
3)鏈接分析
4)重復(fù)檢測(cè)
等等。
還要學(xué)習(xí)各種“工具",像:
1)線性代數(shù)(SVD,推薦系統(tǒng)等)
2)優(yōu)化(隨機(jī)梯度下降)
3)動(dòng)態(tài)規(guī)劃(頻繁項(xiàng)集)
4)Hashing(LSH,Bloom filters)
以上所有的內(nèi)容可以通過(guò)如下的圖關(guān)聯(lián)在一起來(lái)展示,如下:
在學(xué)習(xí)大數(shù)據(jù)挖掘之前,需要有如下的預(yù)備知識(shí):
1)算法方面的知識(shí)(CS161)——?jiǎng)討B(tài)規(guī)劃,基本的數(shù)據(jù)結(jié)構(gòu)等
2)基本的概率論方面的知識(shí)(CS109)——矩(Moments),典型的分布,最大似然估計(jì)(MLE)等
3)編程方面的知識(shí)(CS107)——C++或Java將非常有用
內(nèi)容來(lái)自于:http://www.stanford.edu/class/cs246/slides/01-mapreduce.pdf
總結(jié)
- 上一篇: 放大电路反馈类型的判断方法
- 下一篇: 打开APP,判断是否是原生页面的方法(含