Hadoop入门(一)概念与单机安装
一、hadoop的概念
(1)什么是大數據
大數據是不能用傳統的計算技術處理的大型數據集的集合。它不是一個單一的技術或工具,而是涉及的業務和技術的許多領域。
?
(2)hadoop的定義
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構。
Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。
?
二、前置條件
vmvare10,ubuntu14
(1)Linux apt sources 使用aliyun鏡像
sudo su gedit /etc/apt/sources.list 注釋所有內容 增加 /etc/apt/sources.list.d/00mirrors.aliyun.com.list # aliyun deb http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse deb http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse deb-src http://mirrors.aliyun.com/ubuntu/ trusty main restricted universe multiverse deb-src http://mirrors.aliyun.com/ubuntu/ trusty-security main restricted universe multiverse deb-src http://mirrors.aliyun.com/ubuntu/ trusty-updates main restricted universe multiverse deb-src http://mirrors.aliyun.com/ubuntu/ trusty-proposed main restricted universe multiverse deb-src http://mirrors.aliyun.com/ubuntu/ trusty-backports main restricted universe multiverse #更新 apt-get update(2)Linux 安裝 ssh (server 和 client)
sudo su apt-get install ssh #登錄檢驗ssh ssh -l mk localhost #退出ssh exit?
三、Hadoop單機安裝(Ubuntu14版)
在用戶mk,jdk和Hadoop安裝路徑/home/mk/soft/
1、安裝配置jdk
A、在線安裝:
B、離線安裝
1)下載jdk-7u80-linux-x64.tar.gz
下載路徑:http://www.oracle.com/technetwork/java/javase/downloads/java-archive-downloads-javase7-521261.html
把離線包拷入到ubuntu的當前用戶mk的soft文件夾下,然后執行命令安裝。
2)執行命令
?
C、配置JDK環境變量JAVA_HOME
安裝完jdk后,需要配置環境變量,把java變成系統內命令
編輯/etc/profile文件來修改系統環境變量。
1)配置環境變量
執行命令(后面java.sh不要有空格,如‘java.sh ’,否則讀不了配置文件)
sudo gedit /etc/profile.d/java.sh打開/etc/profile.d/java.sh文件在文件中添加如下配置
export JAVA_HOME=/home/mk/soft/jdk1.7.0_80 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH=$JAVA_HOME/bin:$PATH注意:寫配置值時,export語句的內容里面不要換行
?
2)驗證配置
(1)使profile文件修改配置生效
執行命令:source /etc/profile
? ?或者注銷再登錄當前用戶
? ? ? ?執行命令:sudo reboot
(2)驗證java質量
? ? ?執行命令 :java -version
?
?
2、安裝hadoop
A、下載解壓hadoop安裝包
下載hadoop安裝包hadoop-2.6.0.tar.gz
下載路徑:http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz
?
B、拷貝到hadoop用戶目錄中,執行命令進行安裝?
執行命令
tar xvf hadoop-2.6.0.tar.gz mv hadoop-2.6.0 soft/C、修改hadoop環境變量配置
執行命令(后面hadoop.sh不要有空格,如‘hadoop.sh ’,否則讀不了配置文件)
? ?hadoop.sh的內容
export HADOOP_HOME=/home/mk/soft/hadoop-2.6.0 export CLASSPATH=.:$HADOOP_HOME/share/hadoop/common/hadoop-common-2.6.0.jar:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar:$HADOOP_HOME/share/hadoop/common/lib/commons-cli-1.2.jar:$CLASSPATH export PATH=$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH? 注意:寫配置值時,export語句的內容里面不要換行
?D、驗證配置
1)使hadoop命令配置生效
執行命令:source /etc/profile
或注銷再登錄當前用戶
? 2) 驗證:
hadoop version
?
3、啟動Hadoop?
A、進入到 /home/mk/soft/hadoop-2.6.0/etc/hadoop目錄,查看配置文件
? ? 執行命令: cd soft/hadoop-2.6.0/etc/hadoop/
? ? 列出配置文件: ?ls
?
B、編輯/home/mk/soft/hadoop-2.6.0/etc/hadoop/hadoop-env.sh文件,修改參數信息
執行命令:
cd soft/hadoop-2.6.0/ etc/hadoop sudo gedit hadoop-env.sh?修改文件里面的export JAVA_HOME=${JAVA_HOME}為
export JAVA_HOME=/home/mk/soft/jdk1.7.0_80?C、測試Hadoop環境可用性
執行命令?:hadoop
?
三、測試例子
題目:使用hadoop自帶的hadoop-mapreduce-examples-2.6.0.jar對某目錄下的文檔進行單詞數的統計
執行命令:
#切換到用戶目錄cd /home/mk/#在用戶目錄下創建input目錄mkdir input#復制hadoop的配置文件進入inputcp $HADOOP_HOME/etc/hadoop/*.xml input/#統計input目錄里面的以dfs前綴的單詞,保存結果在output目錄hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+'#輸出output目錄的結果cat output/*結果:
?
總結
以上是生活随笔為你收集整理的Hadoop入门(一)概念与单机安装的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: nba2k19一直闪退怎么回事?
- 下一篇: Hadoop入门(二)集群安装