数据分析导论
當時恰好趕上 2009 年微博的熱潮。我用 3 個月的時間就就積累了 4 萬粉絲,一年的時間積累了上百萬粉絲。這是怎么做到的呢?
通過數據采集,我收集了每天的微博熱點,然后對熱點進行抓取、去廣告,再讓機器定時自動進行發布。同時我讓賬號每天都去關注明星的粉絲列表,這樣可以獲得 15% 的回粉概率。久而久之,就會有源源不斷的粉絲。其實就是數據分析幫我做到了微博的自動化運營。
學習數據分析的核心就是培養數據思維,掌握挖掘工具,熟練實踐并積累經驗。
認知,實踐,反饋;形成高效學習閉環。
業務洞察是分析數據的前提,分析數據是理解數據的前提,理解數據是數據挖掘的前提。從業務到數據再到挖掘,每一步環環相扣,相輔相成。業務千變萬化,規律亙古不變。
當然原理可以采用偽代碼的方式,把流程畫出來即可。項目中,很多時候都是直接使用類庫,所以你更應該關注的機器學習的效率和結果。
很多時候,我們在選擇模型的時候,都要試,一次會用多種模型,然后看訓練結果的好壞,再決定采用哪個模型。
特征工程,以及調試的過程其實就是經驗積累的過程,很多時候調參數的時間,比你寫程序的時間還要長。但是這個積累過程還是挺重要的,當你有了更多經驗之后,這個“試”的效率就會提升!
算法原理和使用是兩個維度,你對算法原理理解的深刻在使用上就越隨心所欲;當然,你不理解算法原理,仍然可以使用這些模型。
關于思維培養的三個特點:
1、思維是創造性的
2、在思維培養中,提問比使用更重要
3、保持一顆好奇心
思維:
《思維簡史:從叢林到宇宙》
數據處理
《數據挖掘:概念與技術》
《Pentaho Kettle解決方案》
《精益數據分析》
《Small Data》
《利用Python進行數據分析》《python數據科學手冊》
?
總結
- 上一篇: mysql中一条SQLupdate语句是
- 下一篇: 数据分析全景图