Hadoop3 Hive Spark完整安装与实践
大數(shù)據(jù)實(shí)踐 Hadoop3 Hive Spark完全安裝
在下載目錄下打開終端,移動(dòng)下載好的文件到/usr/local
sudo mv 文件名 /usr/local在/usr/local中解壓文件
cd /usr/local sudo tar -zxvf 文件名改個(gè)名
sudo mv 文件名 簡稱安裝一些工具
sudo apt-get update sudo apt-get install -y openssh-client openssh-server vim ssh unzip安裝java
sudo apt install openjdk-8-jdk openjdk-8-jre配置java環(huán)境變量
sudo gedit ~/.bashrc在最后添加
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre保存退出后刷新、驗(yàn)證
source ~/.bashrc java -versionLab 1
Hadoop配置
給文件夾添加最高權(quán)限
sudo chmod 777 /usr/local/hadoop給hadoop添加環(huán)境變量
sudo gedit ~/.bashrc在最后添加
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin保存退出后刷新、驗(yàn)證
source ~/.bashrc hadoop version給HDFS的NameNode和DataNode建立文件夾,建立保存日志的文件夾
mkdir -p $HADOOP_HOME/hdfs/namenode mkdir -p $HADOOP_HOME/hdfs/datanode mkdir $HADOOP_HOME/logs進(jìn)入hadoop的配置文件夾
cd $HADOOP_HOME/etc/hadoop ls在Hadoop-env.sh中添加JAVA_HOME
gedit hadoop-env.sh在最后添加
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64保存退出
配置core-site.xml
gedit core-site.xml在<configuration>中添加
<property><name>fs.defaultFS</name><value>hdfs://bigdata-master:9000/</value></property>保存退出
配置hdfs-site.xml
gedit hdfs-site.xml在<configuration>中添加
<property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hdfs/namenode</value><description>NameNode directory for namespace and transaction logs storage.</description></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hdfs/datanode</value><description>DataNode directory</description></property><property><name>dfs.replication</name><value>2</value></property>保存退出
配置mapred-site.xml
gedit mapred-site.xml在<configuration>中添加
<property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property>保存退出
配置yarn-site.xml
gedit yarn-site.xml在<configuration>中添加
<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.resourcemanager.hostname</name><value>bigdata-master</value></property>保存退出
調(diào)整log level (optional)
gedit log4j.properties在最后添加
log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR保存退出
免密碼登陸
ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys初始化Namenode
hdfs namenode -format重啟一下ssh
sudo /etc/init.d/ssh restart運(yùn)行hadoop
start-all.sh查看進(jìn)程
jps打開瀏覽器,地址欄輸入localhost:9870
HDFS操作
在圖形界面的Utilities-Browse the file system可以看到可視化的HDFS文件目錄
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-y3LvqMsR-1604631818431)(/Users/yiger/Library/Application Support/typora-user-images/截屏2020-11-05 下午2.54.01.png)]
添加一個(gè)目錄
hadoop fs -mkdir /user/用戶名/wordcount/input上傳一個(gè)文件到該HDFS目錄中(以README.txt為例)
cd $HADOOP_HOME hadoop fs -copyFromLocal README.txt /user/用戶名/wordcount/input # hadoop fs -ls -RMapReduce操作 (optional)
Lab2
Hive配置
給文件夾添加最高權(quán)限
sudo chmod 777 /usr/local/hive給hadoop添加環(huán)境變量
sudo gedit ~/.bashrc在最后添加
export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin保存退出后刷新、驗(yàn)證
source ~/.bashrc hive --version[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-V43bAb7q-1604631818434)(/Users/yiger/Desktop/截屏2020-11-05 下午3.26.41.png)]
進(jìn)入hive的配置文件夾
cd $HIVE_HOME/conf ls重命名模板文件并復(fù)制一個(gè)用戶自定義配置文件hive-site.xml
mv hive-default.xml.template hive-default.xml cp hive-default.xml hive-site.xml編輯hive-site.xml
gedit hive-site.xml在<configuration>中添加
<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value><description>username to use against metastore database</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>密碼</value><description>password to use against metastore database</description></property>密碼設(shè)置盡量復(fù)雜,如:Mysql@123
保存后退出
安裝mysql
sudo apt-get install mysql-server進(jìn)入mysql shell創(chuàng)建用戶并授權(quán)
sudo mysql查看當(dāng)前database、用戶
show databases; select user from mysql.user;如果有Navicat、DataGrip等工具可以建立一個(gè)允許全網(wǎng)訪問的用戶’external_test’@’%'并在本機(jī)上嘗試連接
添加一個(gè)hive用戶并授最高權(quán)限,檢查用戶表
grant all privileges on *.* to 'hive'@'localhost' identified by '密碼'; select user from mysql.user;退出exit;
配置mysql jdbc
在虛擬機(jī)中打開https://dev.mysql.com/downloads/connector/j/選擇對應(yīng)版本下載
解壓到/usr/local/mysql_jdbc目錄
sudo dpkg-deb --extract 文件名 /usr/local/mysql_jdbc進(jìn)入解壓好的文件夾并找到j(luò)ar包
cd /usr/local/mysql_jdbc/usr/share/java ls把這個(gè)jar包拷貝到hive里
cp 文件名 /usr/local/hive/lib重啟mysql并進(jìn)入shell
service mysql stop service mysql start sudo mysql創(chuàng)建數(shù)據(jù)庫
create database hive; show databases;刪除版本沖突的包
cd /usr/local/hive/lib rm -rf guava-19.0.jar利用schematool初始化元數(shù)據(jù)配置 更改到mysql中
schematool -dbType mysql -initSchema啟動(dòng)hive
hiveHive操作
查看數(shù)據(jù)庫
show databases;創(chuàng)建數(shù)據(jù)庫
create database test_hive;在hdfs中查看
創(chuàng)建表
create table if not exists usr( id bigint, name string, age int);查看表
show tables in test_hive;刪庫
drop database test_hive;Lab3
Spark配置
給文件夾添加最高權(quán)限
sudo chmod 777 /usr/local/spark給hadoop添加環(huán)境變量
sudo gedit ~/.bashrc在最后添加
export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin保存退出后刷新
source ~/.bashrc進(jìn)入spark的配置文件夾
cd $SPARK_HOME/conf ls使用三個(gè)模板文件
mv spark-defaults.conf.template spark-defaults.conf mv slaves.template slaves mv spark-env.sh.template spark-env.sh啟動(dòng)spark并檢驗(yàn)
cd /usr/local/spark/sbin ./start-all.sh jpsLab4
SparkSQL配置
進(jìn)入spark的配置文件夾
cd $SPARK_HOME/conf打開spark-defaults.conf
gedit spark-defaults.conf在最后添加
spark.sql.warehouse.dir hdfs://localhost:9000/user/hive/warehouse保存退出
復(fù)制hadoop、hive配置文件到spark中
cp /usr/local/hive/conf/hive-site.xml /usr/local/spark/conf cp /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/spark/conf cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/spark/conf復(fù)制jdbc到spark中
cp /usr/local/hive/lib/mysql-connector-java-x.x.x.jar /usr/local/spark/jars啟動(dòng)spark-sql
spark-sqlSparkSQL操作
查看數(shù)據(jù)庫
show databases;創(chuàng)建數(shù)據(jù)庫
create database test_sparksql;在hdfs中查看
pyspark操作
進(jìn)入pyspark
pyspark統(tǒng)計(jì)詞頻
textFile = spark.read.text("wordcount/input/README.txt") textFile.count()使用spark.sql執(zhí)行sql語句
df = spark.sql("show databases") df.show()建庫
spark.sql("create database test_pyspark_sql")在hdfs中查看
總結(jié)
以上是生活随笔為你收集整理的Hadoop3 Hive Spark完整安装与实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ktv收银管理系统服务器,KTV收银管理
- 下一篇: C语言指针 与字符串的学习