當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hadoop3 Hive Spark完整安装与实践

發(fā)布時(shí)間：2023/12/10 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hadoop3 Hive Spark完整安装与实践小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大數(shù)據(jù)實(shí)踐 Hadoop3 Hive Spark完全安裝

在下載目錄下打開終端，移動(dòng)下載好的文件到/usr/local

sudo mv 文件名 /usr/local

在/usr/local中解壓文件

cd /usr/local sudo tar -zxvf 文件名

改個(gè)名

sudo mv 文件名簡稱

安裝一些工具

sudo apt-get update sudo apt-get install -y openssh-client openssh-server vim ssh unzip

安裝java

sudo apt install openjdk-8-jdk openjdk-8-jre

配置java環(huán)境變量

sudo gedit ~/.bashrc

在最后添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export JRE_HOME=/usr/lib/jvm/java-8-openjdk-amd64/jre

保存退出后刷新、驗(yàn)證

source ~/.bashrc java -version

Lab 1

Hadoop配置

給文件夾添加最高權(quán)限

sudo chmod 777 /usr/local/hadoop

給hadoop添加環(huán)境變量

sudo gedit ~/.bashrc

在最后添加

export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

保存退出后刷新、驗(yàn)證

source ~/.bashrc hadoop version

給HDFS的NameNode和DataNode建立文件夾，建立保存日志的文件夾

mkdir -p $HADOOP_HOME/hdfs/namenode mkdir -p $HADOOP_HOME/hdfs/datanode mkdir $HADOOP_HOME/logs

進(jìn)入hadoop的配置文件夾

cd $HADOOP_HOME/etc/hadoop ls

在Hadoop-env.sh中添加JAVA_HOME

gedit hadoop-env.sh

在最后添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

保存退出

配置core-site.xml

gedit core-site.xml

在<configuration>中添加

<property><name>fs.defaultFS</name><value>hdfs://bigdata-master:9000/</value></property>

保存退出

配置hdfs-site.xml

gedit hdfs-site.xml

在<configuration>中添加

<property><name>dfs.namenode.name.dir</name><value>file:///usr/local/hadoop/hdfs/namenode</value><description>NameNode directory for namespace and transaction logs storage.</description></property><property><name>dfs.datanode.data.dir</name><value>file:///usr/local/hadoop/hdfs/datanode</value><description>DataNode directory</description></property><property><name>dfs.replication</name><value>2</value></property>

保存退出

配置mapred-site.xml

gedit mapred-site.xml

在<configuration>中添加

<property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value></property>

保存退出

配置yarn-site.xml

gedit yarn-site.xml

在<configuration>中添加

<property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name><value>org.apache.hadoop.mapred.ShuffleHandler</value></property><property><name>yarn.resourcemanager.hostname</name><value>bigdata-master</value></property>

保存退出

調(diào)整log level (optional)

gedit log4j.properties

在最后添加

log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

保存退出

免密碼登陸

ssh-keygen -t rsa -P ‘’ -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys

初始化Namenode

hdfs namenode -format

重啟一下ssh

sudo /etc/init.d/ssh restart

運(yùn)行hadoop

start-all.sh

查看進(jìn)程

jps

打開瀏覽器，地址欄輸入localhost:9870

HDFS操作

在圖形界面的Utilities-Browse the file system可以看到可視化的HDFS文件目錄

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-y3LvqMsR-1604631818431)(/Users/yiger/Library/Application Support/typora-user-images/截屏2020-11-05 下午2.54.01.png)]

添加一個(gè)目錄

hadoop fs -mkdir /user/用戶名/wordcount/input

上傳一個(gè)文件到該HDFS目錄中（以README.txt為例）

cd $HADOOP_HOME hadoop fs -copyFromLocal README.txt /user/用戶名/wordcount/input # hadoop fs -ls -R

MapReduce操作（optional）

Lab2

Hive配置

給文件夾添加最高權(quán)限

sudo chmod 777 /usr/local/hive

給hadoop添加環(huán)境變量

sudo gedit ~/.bashrc

在最后添加

export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin

保存退出后刷新、驗(yàn)證

source ~/.bashrc hive --version

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來直接上傳(img-V43bAb7q-1604631818434)(/Users/yiger/Desktop/截屏2020-11-05 下午3.26.41.png)]

進(jìn)入hive的配置文件夾

cd $HIVE_HOME/conf ls

重命名模板文件并復(fù)制一個(gè)用戶自定義配置文件hive-site.xml

mv hive-default.xml.template hive-default.xml cp hive-default.xml hive-site.xml

編輯hive-site.xml

gedit hive-site.xml

在<configuration>中添加

<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.cj.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive</value><description>username to use against metastore database</description></property><property><name>javax.jdo.option.ConnectionPassword</name><value>密碼</value><description>password to use against metastore database</description></property>

密碼設(shè)置盡量復(fù)雜，如：Mysql@123

保存后退出

安裝mysql

sudo apt-get install mysql-server

進(jìn)入mysql shell創(chuàng)建用戶并授權(quán)

sudo mysql

查看當(dāng)前database、用戶

show databases; select user from mysql.user;

如果有Navicat、DataGrip等工具可以建立一個(gè)允許全網(wǎng)訪問的用戶’external_test’@’%'并在本機(jī)上嘗試連接

添加一個(gè)hive用戶并授最高權(quán)限，檢查用戶表

grant all privileges on *.* to 'hive'@'localhost' identified by '密碼'; select user from mysql.user;

退出exit;

配置mysql jdbc

在虛擬機(jī)中打開https://dev.mysql.com/downloads/connector/j/選擇對應(yīng)版本下載

解壓到/usr/local/mysql_jdbc目錄

sudo dpkg-deb --extract 文件名 /usr/local/mysql_jdbc

進(jìn)入解壓好的文件夾并找到j(luò)ar包

cd /usr/local/mysql_jdbc/usr/share/java ls

把這個(gè)jar包拷貝到hive里

cp 文件名 /usr/local/hive/lib

重啟mysql并進(jìn)入shell

service mysql stop service mysql start sudo mysql

創(chuàng)建數(shù)據(jù)庫

create database hive; show databases;

刪除版本沖突的包

cd /usr/local/hive/lib rm -rf guava-19.0.jar

利用schematool初始化元數(shù)據(jù)配置更改到mysql中

schematool -dbType mysql -initSchema

啟動(dòng)hive

hive

Hive操作

查看數(shù)據(jù)庫

show databases;

創(chuàng)建數(shù)據(jù)庫

create database test_hive;

在hdfs中查看

創(chuàng)建表

create table if not exists usr( id bigint, name string, age int);

查看表

show tables in test_hive；

刪庫

drop database test_hive;

Lab3

Spark配置

給文件夾添加最高權(quán)限

sudo chmod 777 /usr/local/spark

給hadoop添加環(huán)境變量

sudo gedit ~/.bashrc

在最后添加

export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin

保存退出后刷新

source ~/.bashrc

進(jìn)入spark的配置文件夾

cd $SPARK_HOME/conf ls

使用三個(gè)模板文件

mv spark-defaults.conf.template spark-defaults.conf mv slaves.template slaves mv spark-env.sh.template spark-env.sh

啟動(dòng)spark并檢驗(yàn)

cd /usr/local/spark/sbin ./start-all.sh jps

Lab4

SparkSQL配置

進(jìn)入spark的配置文件夾

cd $SPARK_HOME/conf

打開spark-defaults.conf

gedit spark-defaults.conf

在最后添加

spark.sql.warehouse.dir hdfs://localhost:9000/user/hive/warehouse

保存退出

復(fù)制hadoop、hive配置文件到spark中

cp /usr/local/hive/conf/hive-site.xml /usr/local/spark/conf cp /usr/local/hadoop/etc/hadoop/core-site.xml /usr/local/spark/conf cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml /usr/local/spark/conf

復(fù)制jdbc到spark中

cp /usr/local/hive/lib/mysql-connector-java-x.x.x.jar /usr/local/spark/jars

啟動(dòng)spark-sql

spark-sql

SparkSQL操作

查看數(shù)據(jù)庫

show databases;

創(chuàng)建數(shù)據(jù)庫

create database test_sparksql;

在hdfs中查看

pyspark操作

進(jìn)入pyspark

pyspark

統(tǒng)計(jì)詞頻

textFile = spark.read.text("wordcount/input/README.txt") textFile.count()

使用spark.sql執(zhí)行sql語句

df = spark.sql("show databases") df.show()

建庫

spark.sql("create database test_pyspark_sql")

在hdfs中查看

總結(jié)

以上是生活随笔為你收集整理的Hadoop3 Hive Spark完整安装与实践的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： ktv收银管理系统服务器,KTV收银管理
下一篇： C语言指针与字符串的学习

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Hadoop3 Hive Spark完整安装与实践

大數(shù)據(jù)實(shí)踐 Hadoop3 Hive Spark完全安裝

Lab 1

Hadoop配置

HDFS操作

MapReduce操作 （optional）

Lab2

Hive配置

Hive操作

Lab3

Spark配置

Lab4

SparkSQL配置

SparkSQL操作

pyspark操作

總結(jié)

MapReduce操作（optional）