在CDH上用外部Spark2.2.1安装和配置 CarbonData
生活随笔
收集整理的這篇文章主要介紹了
在CDH上用外部Spark2.2.1安装和配置 CarbonData
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
在CDH上用外部Spark2.2.1 (hadoop free版本)standalone 模式安裝和配置 CarbonData 一、cdh中外部spark(standalone模式安裝) 1、把安裝包和配置文件拷貝到其他機(jī)器 1.1復(fù)制hdfs、hive等配置文件到spark的conf目錄 spark-env.sh文件最后新增的配置 export SPARK_HOME=/opt/cloudera/parcels/spark2.2.1/lib/spark2 export SPARK_DAEMON_CLASSPATH=$SPARK_HOME/jars/*:$SPARK_HOME/carbonlib/* # - 這里的dsd為spark的master主機(jī) export SPARK_MASTER_HOST=dsd export JAVA_HOME=/usr/java/jdk1.8.0_112 export HADOOP_CONF_DIR=/etc/hadoop/conf export YARN_CONF_DIR=/etc/hadoop/conf.cloudera.yarn/ # Passing a Hadoop configuration directory export SPARK_DIST_CLASSPATH=$(hadoop --config /etc/hadoop/conf classpath) -------------------------------------------------------------------------- spark-defaults.conf文件最后新增的配置 spark.driver.extraJavaOptions="-Dcarbon.properties.filepath = /opt/cloudera/parcels/spark2.2.1/lib/spark2/conf/carbon.properties" spark.executor.extraJavaOptions="-Dcarbon.properties.filepath = /opt/cloudera/parcels/spark2.2.1/lib/spark2/conf/carbon.properties" -------------------------------------------------------------------------- 1.2、slaves文件最后新增的配置(把所有的spark節(jié)點(diǎn)都加入,包括master) dsf dse dsd dsb ddf -------------------------------------------------------------------------- 1.3、分發(fā)安裝包: scp -r /opt/cloudera/parcels/spark2.2.1 root@192.168.101.217:/opt/cloudera/parcels/ 二、編譯需要版本的carbondata 參考: http://www.zhuyongpeng.cn/1557.html 中文文檔 http://carbondata.iteblog.com/installation-guide.html 1、遇到的問題 1.1、編譯carbondata的cdh版本安裝包:直接用官網(wǎng)的apache版本,裝上去啟動(dòng)不了。 到安裝目錄下去看一下spark的版本 #不要看cloudera manager的包管理上面的版本,那個(gè)是錯(cuò)誤的 1.2、直接在centos上編譯、在window上編譯不知道有沒有區(qū)別。2種都試了。都不行,最終發(fā)現(xiàn)不是編譯的carbondata有問題。是cdh集成的spark有問題。怎么試都不行。 最終換成原版的spark2.2.1(hadoop free版本的) 2、解決maven倉庫默認(rèn)不支持cdh 目前maven倉庫中沒有支持cdh的相關(guān)依賴。cloudera自己建立了一個(gè)相關(guān)的倉庫。要想利用maven添加相關(guān)依賴,則必須單獨(dú)添加cloudera倉庫。 2.1、項(xiàng)目的pom.xml文件里面, 添加倉庫配置 <repositories> <repository> <id>cloudera</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url> </repository> </repositories> 2.2、在國(guó)內(nèi)使用maven中央倉庫一般會(huì)有網(wǎng)絡(luò)問題,所以大部分人會(huì)使用aliyun倉庫或者其他開源的倉庫。 所以需要修改setting.xml (以下配置中 *,!cloudera 表示除了aliyun倉庫還使用cloudera倉庫) <mirror> <id>nexus-aliyun</id> <mirrorOf>*,!cloudera</mirrorOf> <name>Nexus aliyun</name> <url> http://maven.aliyun.com/nexus/content/groups/public </url> </mirror> 2.3、若未設(shè)置自動(dòng)更新maven項(xiàng)目,則需更新maven項(xiàng)目,然后等待下載相關(guān)依賴。完成之后便可以使用cdh進(jìn)行開發(fā)啦 3、在centos下編譯 3.1、安裝thrift-0.9.3,此步驟較為繁瑣,需要其他庫的支持。沒有詳細(xì)記錄。 yum install automake bison flex g++ git libboost-all-dev libevent-dev libssl-dev libtool make pkg-config 下載thrift-0.9.3 http://archive.apache.org/dist/thrift/0.9.3/thrift-0.9.3.tar.gz tar -xzvf thrift-0.9.3.tar.gz 3.1、安裝mvn tar?zxvf?apache-maven-3.5.3-bin.tar.gz?-C /root/ssss/ vim /etc/profile #添加mvn的配置信息 export M2_HOME=/root/ssss/apache-maven-3.5.3/ export PATH=$PATH:$M2_HOME/bin source /etc/profile mvn -version mvn -Pwindows -Dmaven.test.skip=true -Pspark-2.2 -Dspark.version=2.2.1 clean package 下載了好幾次才完整的下載了所有依賴jar包。 http://repo1.maven.org/maven2/org/apache/spark/spark-streaming_2.11/2.2.0/ 四、spark集成carbondata 1、編譯 CarbonData?工程,并且從?carbondata-parent-1.4.0\assembly\target\scala-2.11路徑獲取 apache-carbondata-1.4.0-bin-spark2.2.0.cloudera2-hadoop2.7.2.jar。 最后將這個(gè) jar 復(fù)制到?$SPARK_HOME/carbonlib?文件夾。 注意: 如果?$SPARK_HOME?路徑下不存在 carbonlib 文件夾,請(qǐng)事先創(chuàng)建它。 壓縮 carbonlib 文件夾的內(nèi)容到tar.gz?文件中,并將這個(gè)壓縮文件移到 carbonlib 文件夾下面。 cd /opt/cloudera/parcels/spark2.2.1/lib/spark2/ tar -zcvf carbonlib.tar.gz carbonlib/ mv carbonlib.tar.gz carbonlib/ 2、到carbondata的源碼當(dāng)中找到carbon.properties配置文件,并拷貝到spark的配置文件目錄 3、將下面的配置添加到?$SPARK_HOME/conf/carbon.properties?文件中: carbon.storelocation=hdfs://nameservice1/ddhome/carbondata carbon.badRecords.location=hdfs://nameservice1/ddhome/carbondata/badRecords 4、在hdfs中建立上面配置的hdfs://nameservice1/ddhome/carbondata目錄。 hadoop fs -mkdir -p /ddhome/carbondata hadoop fs -mkdir -p /ddhome/carbondata_badRecords hadoop fs -mkdir -p /ddhome/carbondata_data 授予訪問目錄的權(quán)限,否則文件寫入不了 hadoop fs -chmod -R 777 /ddhome/carbondata hadoop fs -chmod -R 777 /ddhome/carbondata_badRecords hadoop fs -chmod -R 777 /ddhome/carbondata_data 五、啟動(dòng):驗(yàn)證安裝 1、啟動(dòng):standalone集群:有效 /opt/cloudera/parcels/spark2.2.1/lib/spark2/sbin/start-all.sh 2、關(guān)閉:standalone集群:有效 /opt/cloudera/parcels/spark2.2.1/lib/spark2/sbin/stop-all.sh 3、spark-submit提交普通任務(wù)jar進(jìn)行測(cè)試 成功 --supervise(出現(xiàn)錯(cuò)誤重啟driver)提交作業(yè)的端口是6066(restful接口) /opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.DpiGet2Hiveparquet --master spark://192.168.101.218:6066 --deploy-mode cluster --supervise /home/usr/sparkjob/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300 這種用7077端口也可以提交成功 /opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.DpiGet2Hiveparquet --master spark://192.168.101.218:7077 --deploy-mode client /root/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300 4、目前配置standalone模式的spark是否支持hive(spark任務(wù)提示一些錯(cuò)誤:需要給sparksession添加一些配置 .enableHiveSupport() //開啟hive支持 .config("spark.sql.warehouse.dir", "/user/hive/warehouse")) hadoop fs -chmod -R 777 /user/hive/warehouse #給配置的目錄加入權(quán)限 /opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.MRecKqmj --master spark://192.168.101.217:7077 --deploy-mode client /root/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300 5、測(cè)試普通任務(wù)能否寫入hdfs:新spark(standalone) ##按照后面添加了jar之后,可以正常寫入的 /opt/cloudera/parcels/spark2.2.1/lib/spark2/bin/spark-submit --class com.ziyun.MRecKqmjTest --master spark://192.168.101.217:7077 --deploy-mode client /root/zy-just-spark-1.0.0.jar first --conf spark.network.timeout=300 獨(dú)立模式提示找不到hive的classes。需要拷貝這2個(gè)jar到spark的jars目錄下 6、最后是把cloudera manager上集成的spark2.2.0.cloudera2版本中相關(guān)hive和spark的jar復(fù)制到新裝的spark的jar目錄。 把mysql的驅(qū)動(dòng)jar也拷貝過去。在hive里面也是有的。 后面又提示缺失thriftserver。最終是解壓了一個(gè)spark自帶hadoo2.6(cm版本的hadoop也是基于2.6)版本的jar,把它里面的jar也拷貝到新裝的spark的jars目錄下。 跑普通spark任務(wù)就可以了。
轉(zhuǎn)載于:https://www.cnblogs.com/double-kill/p/9610159.html
總結(jié)
以上是生活随笔為你收集整理的在CDH上用外部Spark2.2.1安装和配置 CarbonData的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 转载:介绍AD另外一种奇葩的多通道复用的
- 下一篇: 牛客网round1