关于小数据博客
? ?作為博客的第一篇博文,一直在考慮應(yīng)該寫點(diǎn)什么?思考了很久,最終還是決定聊一聊為什么要寫博客以及為什么博客名叫小數(shù)據(jù)?
為什么要寫博客?
? ?做數(shù)據(jù)挖掘純屬興趣,從大二參加數(shù)學(xué)建模開始,就深深的被數(shù)據(jù)這一塊吸引了,那個(gè)時(shí)候還沒有聽說過數(shù)據(jù)挖掘和大數(shù)據(jù)的概念,只是覺得這一塊很有意思,它讓我意識(shí)到“原來我也可以做點(diǎn)東西,我也可以通過努力來解決一點(diǎn)現(xiàn)實(shí)生活中的問題”,而不是一無是處,什么也做不了,我很喜歡這種感覺。于是就這樣一路玩過來。
? ?做數(shù)模的時(shí)候很崇拜技術(shù),一直覺得我們要用很NB別人都不會(huì)用的算法,那樣才叫厲害(PS:現(xiàn)在回頭看以前寫的論文,才發(fā)現(xiàn)那時(shí)候是多么的幼稚)。由于專業(yè)的關(guān)系首先接觸到的是神經(jīng)網(wǎng)絡(luò),拿去做模型果然吸引了大家的眼球,屢試不爽;之后順便把所有的智能算法都學(xué)了一番,包括模糊算法、遺傳算法、粒子群、蟻群...;后來又用到了元胞自動(dòng)機(jī),排隊(duì)論等等,越學(xué)越覺得自己懂得越少,還會(huì)有很多自己不知道的很厲害的算法。于是很腦殘的花了很長的一段時(shí)間(一直到畢業(yè))專攻算法:回歸(OLS,GLM,GAM,MARS,Lasso,Ridge...),時(shí)間序列(AR,MA,ARMA,ARIMA,Holt-Winter),分類(Decision Trees,SVM,Bayesian,KNN,...),聚類(K-means,Hierarchical-based,Density-based,GMM,...),Ensemble methods(bagging,boosting,RandomForest),推薦(Collaborative Filtering,Association Rule,Content-based,...)...
? ?學(xué)算法的同時(shí)慢慢意識(shí)到,用什么算法不是最重要的,模型背后的邏輯才重要,說清楚為什么這么做才重要。于是又回頭惡補(bǔ)這一部分,找了美賽最近10年的所有Outstanding論文,大概100多篇。看了三個(gè)多月,一篇一篇的解剖,找出論文的框架(這篇論文做了哪幾個(gè)模塊?研究思路是什么?為什么要做這幾個(gè)模塊?每個(gè)模塊又做了哪些子模塊?怎么做的?...),收獲頗豐,心得寫了整整兩本(PS:后來送人了,心痛啊。。。)。效果很明顯,后來看數(shù)模題目的時(shí)候,論文應(yīng)該分哪幾個(gè)模塊,每個(gè)模塊寫些什么,甚至某一個(gè)段落應(yīng)該寫些什么都可以想象的到(就這種很奇怪的感覺)。
? ?現(xiàn)在回歸頭來看雖然學(xué)了很多東西,但是一味追求數(shù)量,忽略了“質(zhì)”,所有的東西都只了解了個(gè)大概,沒有一個(gè)算得上精通,越來越感覺到有點(diǎn)紙上談兵,很多事情無能為力。是時(shí)候靜下心來,好好沉淀沉淀了。所以,回頭梳理一下“學(xué)過”的算法,把基礎(chǔ)打得牢一點(diǎn),把一直缺失的“質(zhì)”找回來,而寫博客是一種很好的方式,這就是寫博客的原因。
為什么博客名叫小數(shù)據(jù)?
? ?現(xiàn)在大數(shù)據(jù)被炒得很火,所有的人都在談大數(shù)據(jù)。在進(jìn)入公司之前,我也一直幻想著公司有很多數(shù)據(jù),我可以用很多高級(jí)的算法構(gòu)建一個(gè)很復(fù)雜的模型產(chǎn)生很好很好的效果;但是到公司之后才發(fā)現(xiàn),做數(shù)據(jù)沒有那么高大上,你需要的數(shù)據(jù)要么沒有,即使有也非常的少、殘缺不全;在這里你可能用不上任何的算法模型,絕大部分工作就是做描述性的統(tǒng)計(jì)。
? ?我接到第一個(gè)關(guān)于數(shù)據(jù)的任務(wù)就是分析公司一款產(chǎn)品的運(yùn)營數(shù)據(jù)并給出改進(jìn)意見,數(shù)據(jù)只有7條(1-7月份運(yùn)營數(shù)據(jù),11個(gè)指標(biāo)+2個(gè)目標(biāo)變量),連個(gè)多元回歸模型都做不了。但是做過分析之后讓我很震撼,這么少的數(shù)據(jù)放在商業(yè)背景里去理解也能產(chǎn)生價(jià)值,也能幫助改進(jìn)優(yōu)化業(yè)務(wù);在以前看來這是多么不可思議的一件事情。這件事對(duì)我有非常大的觸動(dòng),深深的意識(shí)到數(shù)據(jù)多少不重要,算法高級(jí)與否不重要,數(shù)據(jù)思維才重要,得到的結(jié)果有價(jià)值才重要!所以把博客取名為小數(shù)據(jù),寓意小數(shù)據(jù)也會(huì)有價(jià)值,也值得分析。
轉(zhuǎn)載于:https://www.cnblogs.com/SmallData/p/3920868.html
總結(jié)
- 上一篇: 2008-2013年写的10个小软件
- 下一篇: placeholder调整颜色