當前位置：首頁 > 编程语言 > python >内容正文

python

python大数据入门书籍_初学大数据，一定要知道这些

發(fā)布時間：2023/12/14 python 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 python大数据入门书籍_初学大数据，一定要知道这些小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

該樓層疑似違規(guī)已被系統(tǒng)折疊隱藏此樓查看此樓

經(jīng)常有初學者問我，自己想往大數(shù)據(jù)方向發(fā)展，該學哪些技術(shù)，學習路線是什么樣的，覺得大數(shù)據(jù)很火，就業(yè)很好，薪資很高。。。。。。。如果自己很迷茫，為了這些原因想往大數(shù)據(jù)方向發(fā)展，也可以，那么我就想問一下，你的專業(yè)是什么，對于計算機/軟件，你的興趣是什么？是計算機專業(yè)，對操作系統(tǒng)、硬件、網(wǎng)絡、服務器感興趣？是軟件專業(yè)，對軟件開發(fā)、編程、寫代碼感興趣？還是數(shù)學、統(tǒng)計學專業(yè)，對數(shù)據(jù)和數(shù)字特別感興趣。

其實這就是想告訴你的大數(shù)據(jù)的三個發(fā)展方向，平臺搭建/優(yōu)化/運維/監(jiān)控、大數(shù)據(jù)開發(fā)/設計/架構(gòu)、數(shù)據(jù)分析/挖掘。請不要問我哪個容易，哪個前景好，哪個錢多。

先扯一下大數(shù)據(jù)的4V特征：

l 數(shù)據(jù)量大，TB->PB

l 數(shù)據(jù)類型繁多，結(jié)構(gòu)化、非結(jié)構(gòu)化文本、日志、視頻、圖片、地理位置等；

l 商業(yè)價值高，但是這種價值需要在海量數(shù)據(jù)之上，通過數(shù)據(jù)分析與機器學習更快速的挖掘出來；

l 處理時效性高，海量數(shù)據(jù)的處理需求不再局限在離線計算當中。

現(xiàn)如今，正式為了應對大數(shù)據(jù)的這幾個特點，開源的大數(shù)據(jù)框架越來越多，越來越強，先列舉一些常見的：

文件存儲：Hadoop HDFS、Tachyon、KFS

離線計算：Hadoop MapReduce、Spark

流式、實時計算：Storm、Spark Streaming、S4、Heron

K-V、NOSQL數(shù)據(jù)庫：HBase、Redis、MongoDB

資源管理：YARN、Mesos

日志收集：Flume、Scribe、Logstash、Kibana

消息系統(tǒng)：Kafka、StormMQ、ZeroMQ、RabbitMQ

查詢分析：Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Flink、Kylin、Druid

分布式協(xié)調(diào)服務：Zookeeper

集群管理與監(jiān)控：Ambari、Ganglia、Nagios、Cloudera Manager

數(shù)據(jù)挖掘、機器學習：Mahout、Spark MLLib

數(shù)據(jù)同步：Sqoop

任務調(diào)度：Oozie

……

眼花了吧，上面的有30多種吧，別說精通了，全部都會使用的，估計也沒幾個。

下面我主要說一下第二個方向(開發(fā)/設計/架構(gòu))

第一章：初識Hadoop

1.1 學會百度與Google

不論遇到什么問題，先試試搜索并自己解決。

Google首選，翻不過去的，就用百度吧。

1.2 參考資料首選官方文檔

特別是對于入門來說，官方文檔永遠是首選文檔。

相信搞這塊的大多是文化人，英文湊合就行，實在看不下去的，請參考第一步。

1.3 先讓Hadoop跑起來

Hadoop可以算是大數(shù)據(jù)存儲和計算的開山鼻祖，現(xiàn)在大多開源的大數(shù)據(jù)框架都依賴Hadoop或者與它能很好的兼容。

關于Hadoop,你至少需要搞清楚以下是什么：

l Hadoop 1.0、Hadoop 2.0

l MapReduce、HDFS

l NameNode、DataNode

l JobTracker、TaskTracker

l Yarn、ResourceManager、NodeManager

自己搭建Hadoop，請使用第一步和第二步，能讓它跑起來就行。

建議先使用安裝包命令行安裝，不要使用管理工具安裝。

另外：Hadoop1.0知道它就行了，現(xiàn)在都用Hadoop 2.0.

1.4 試試使用Hadoop

HDFS目錄操作命令；

上傳、下載文件命令；

提交運行MapReduce示例程序；

打開Hadoop WEB界面，查看Job運行狀態(tài)，查看Job運行日志。

知道Hadoop的系統(tǒng)日志在哪里。

1.5 你該了解它們的原理了

MapReduce：如何分而治之；

HDFS：數(shù)據(jù)到底在哪里，什么是副本；

Yarn到底是什么，它能干什么；

NameNode到底在干些什么；

ResourceManager到底在干些什么；

1.6 自己寫一個MapReduce程序

請仿照WordCount例子，自己寫一個(照抄也行)WordCount程序，

打包并提交到Hadoop運行。

你不會Java？Shell、Python都可以，有個東西叫Hadoop Streaming。

如果你認真完成了以上幾步，恭喜你，你的一只腳已經(jīng)進來了。

總結(jié)

以上是生活随笔為你收集整理的python大数据入门书籍_初学大数据，一定要知道这些的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： windows驱动开发 DDK/WDK/
下一篇： java 获取周六周日_JS实现获取当前

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python大数据入门书籍_初学大数据，一定要知道这些

總結(jié)