SparkSql常用命令操作
1、進(jìn)入spark-shell模式
? ? ? ? spark-shell --master yarn --executor-memory 4g --num-executors 3 --executor-cores 4
2、spark sql查詢Hive數(shù)據(jù)庫
? ? ? ? import spark.sql
? ? ? ? sql("use database_name”)
? ? ? ? sql("show tables").show
3、讀取hdfs文件數(shù)據(jù)
? ? ? ?val data?= spark.read.format("csv").option("sep", ",").option("header","true").load("file_path + file_name")
4、存儲文件(默認(rèn)hdfs路徑)
? ? ? ?data.write.format("csv").save("/data/....")
5、讀取hive表數(shù)據(jù)
? ? ? ?val res = spark.sql("select * from? table_1 where day='20181230'")
6、注冊成表
? ? ? ? res.registerTempTable(“Res")
7、更換屬性
? ? ? ?val ss?= data.selectExpr("_c0 as like","_c1 as session_id","_c2 as uid1”)
8、刪除某列屬性
? ? ?val s1?= data.drop("_c0”)
9、一列轉(zhuǎn)換成多列
? ? ? val df2 =df1.withColumn("_corrupt_record",split(col("_corrupt_record"),","))
.select(col("_corrupt_record").getItem(0).as("uid"),col("_corrupt_record").getItem(1).as("number"))?
10、過濾數(shù)字(三個橫線)
? ? ? val uid = df2.filter($"number"===1)
11、過濾空值
? ? ? ?val s_1 = res.filter("like is not null").filter("session_id is not null”)
?
總結(jié)
以上是生活随笔為你收集整理的SparkSql常用命令操作的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SparkSql读取外部数据源
- 下一篇: 重温强化学习之OpenAI经典场景