spark学习流程
鏈接:https://www.zhihu.com/question/31427697/answer/75234187
來源:知乎
著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
其實,我想說,起初學習Hadoop的一些經驗對現在學習和理解spark有了很大的幫助,尤其反反復復幾次Hadoop的配置,現在linux基礎指令和spark安裝,比較順手了,出錯了也知道哪里遺漏了。
肯定第一步是配置spark環境:包括linux系統的安裝,java,ssh,Hadoop,Scala,spark的安裝與環境變量設置。雖說簡單,但對于初學者說,尤其是沒有使用過linux系統的,還是有些挑戰。其中遺漏一些細節問題,都會出錯。
第二步:java學習。會java的可以忽略,不會的建議還是學習下java,雖說可以跳過java直接學習Scala,但是Scala畢竟和java聯系密切,教材中也經常拿Scala和Java做比較。掌握Java基礎就行,最差就是能看懂吧。。
第三步:Hadoop學習。HDFS,MR計算框架,必須得知道吧。spark也是需要在HDFS上進行數據獲取的,學習Hadoop才能知道其不足,明白spark的優勢,為什么Hadoop必死。在hdfs的操作指令也必須掌握。能會寫MapReduce程序就再好不過了。(我還不會。。。)
第四步:Scala學習。函數式編程,重點明白這個吧。一些trait什么的使用,會java了這些都是小菜,本質一樣,表達方式不同而已。所以。再次強調要學習JAVA。對我來說,不需要深入學習Scala編程,只需能看懂,而且會使用Scala操作RDD就行。后面的復雜高級編程我沒學,以后用到再看。
第五步:就是spark學習。當然,最好學習spark的方式就是看官方文檔,讀源碼,看博客(博客寫的都太簡單,沒有特別深入的),看RDD的論文,作業如何調度,什么什么的。對于英語水平不高,閱讀官方文檔略困難的童鞋,推薦某研究院的spark官方文檔中文翻譯,還是很全的。不推薦買國內的書看,想看度娘參考下就行了,所以。英語也得提升啊。
轉載于:https://www.cnblogs.com/txfsheng/p/8989694.html
總結
- 上一篇: 第二次OO总结
- 下一篇: spring boot自定义配置文件