python大数据入门书籍_初学大数据,一定要知道这些
該樓層疑似違規(guī)已被系統(tǒng)折疊 隱藏此樓查看此樓
經(jīng)常有初學者問我,自己想往大數(shù)據(jù)方向發(fā)展,該學哪些技術(shù),學習路線是什么樣的,覺得大數(shù)據(jù)很火,就業(yè)很好,薪資很高。。。。。。。如果自己很迷茫,為了這些原因想往大數(shù)據(jù)方向發(fā)展,也可以,那么我就想問一下,你的專業(yè)是什么,對于計算機/軟件,你的興趣是什么?是計算機專業(yè),對操作系統(tǒng)、硬件、網(wǎng)絡、服務器感興趣?是軟件專業(yè),對軟件開發(fā)、編程、寫代碼感興趣?還是數(shù)學、統(tǒng)計學專業(yè),對數(shù)據(jù)和數(shù)字特別感興趣。
其實這就是想告訴你的大數(shù)據(jù)的三個發(fā)展方向,平臺搭建/優(yōu)化/運維/監(jiān)控、大數(shù)據(jù)開發(fā)/設計/架構(gòu)、數(shù)據(jù)分析/挖掘。請不要問我哪個容易,哪個前景好,哪個錢多。
先扯一下大數(shù)據(jù)的4V特征:
l 數(shù)據(jù)量大,TB->PB
l 數(shù)據(jù)類型繁多,結(jié)構(gòu)化、非結(jié)構(gòu)化文本、日志、視頻、圖片、地理位置等;
l 商業(yè)價值高,但是這種價值需要在海量數(shù)據(jù)之上,通過數(shù)據(jù)分析與機器學習更快速的挖掘出來;
l 處理時效性高,海量數(shù)據(jù)的處理需求不再局限在離線計算當中。
現(xiàn)如今,正式為了應對大數(shù)據(jù)的這幾個特點,開源的大數(shù)據(jù)框架越來越多,越來越強,先列舉一些常見的:
文件存儲:Hadoop HDFS、Tachyon、KFS
離線計算:Hadoop MapReduce、Spark
流式、實時計算:Storm、Spark Streaming、S4、Heron
K-V、NOSQL數(shù)據(jù)庫:HBase、Redis、MongoDB
資源管理:YARN、Mesos
日志收集:Flume、Scribe、Logstash、Kibana
消息系統(tǒng):Kafka、StormMQ、ZeroMQ、RabbitMQ
查詢分析:Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid
分布式協(xié)調(diào)服務:Zookeeper
集群管理與監(jiān)控:Ambari、Ganglia、Nagios、Cloudera Manager
數(shù)據(jù)挖掘、機器學習:Mahout、Spark MLLib
數(shù)據(jù)同步:Sqoop
任務調(diào)度:Oozie
……
眼花了吧,上面的有30多種吧,別說精通了,全部都會使用的,估計也沒幾個。
下面我主要說一下第二個方向(開發(fā)/設計/架構(gòu))
第一章:初識Hadoop
1.1 學會百度與Google
不論遇到什么問題,先試試搜索并自己解決。
Google首選,翻不過去的,就用百度吧。
1.2 參考資料首選官方文檔
特別是對于入門來說,官方文檔永遠是首選文檔。
相信搞這塊的大多是文化人,英文湊合就行,實在看不下去的,請參考第一步。
1.3 先讓Hadoop跑起來
Hadoop可以算是大數(shù)據(jù)存儲和計算的開山鼻祖,現(xiàn)在大多開源的大數(shù)據(jù)框架都依賴Hadoop或者與它能很好的兼容。
關于Hadoop,你至少需要搞清楚以下是什么:
l Hadoop 1.0、Hadoop 2.0
l MapReduce、HDFS
l NameNode、DataNode
l JobTracker、TaskTracker
l Yarn、ResourceManager、NodeManager
自己搭建Hadoop,請使用第一步和第二步,能讓它跑起來就行。
建議先使用安裝包命令行安裝,不要使用管理工具安裝。
另外:Hadoop1.0知道它就行了,現(xiàn)在都用Hadoop 2.0.
1.4 試試使用Hadoop
HDFS目錄操作命令;
上傳、下載文件命令;
提交運行MapReduce示例程序;
打開Hadoop WEB界面,查看Job運行狀態(tài),查看Job運行日志。
知道Hadoop的系統(tǒng)日志在哪里。
1.5 你該了解它們的原理了
MapReduce:如何分而治之;
HDFS:數(shù)據(jù)到底在哪里,什么是副本;
Yarn到底是什么,它能干什么;
NameNode到底在干些什么;
ResourceManager到底在干些什么;
1.6 自己寫一個MapReduce程序
請仿照WordCount例子,自己寫一個(照抄也行)WordCount程序,
打包并提交到Hadoop運行。
你不會Java?Shell、Python都可以,有個東西叫Hadoop Streaming。
如果你認真完成了以上幾步,恭喜你,你的一只腳已經(jīng)進來了。
總結(jié)
以上是生活随笔為你收集整理的python大数据入门书籍_初学大数据,一定要知道这些的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: windows驱动开发 DDK/WDK/
- 下一篇: java 获取周六周日_JS实现获取当前