学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作
生活随笔
收集整理的這篇文章主要介紹了
学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
三、Spark DataSet基本操作
3.1、DataSet簡介
- DataSet是分布式的數據集合,DataSet提供了強類型支持,也是在RDD的每行數據加了類型約束。
- DateSet整合了RDD和DataFrame的優點,支持結構化和非結構化數據。
- DataFrame表示為DataSet[Row],即DataSet的子集。
- DataSet是面向對象的編程接口,可以通過JVM的對象進行構建DataSet。
3.1.1、DataFrame的缺點
3.1.2、DateSet的優點
3.2、創建DataSet
- 從集合創建DataSet
- 從rdd創建DataSet
- 從DataFrame創建DataSet
3.2.1、從集合創建DataSet
createDataset[T](data: List[T])3.2.2、從rdd創建DataSet
createDataset[T](data: RDD[T])3.2.3、從DataFrame創建DataSet
dataSet=dataFrame.as[強類型]
任務1:讀取Hive表中的超市商品銷售數據
- 創建Hive表
- 導入用戶購買數據到Hive表
- 讀取Hive表數據創建DataSet
數據 GoodOrder.csv:
步驟:
① 因為是csv,所以我們先上傳到hdfs上
② 打開spark-shell,通過DataFrame方式保存到hive中
hive中查看數據:
③ 讀取Hive表數據創建DataSet
3.3、DataSet API
應用示例:
(這是一個DataSet)
任務2:統計每件商品的銷量
- 根據商品分組統計商品銷量
- 將統計結果保存到Hive
hive查看:
總結
以上是生活随笔為你收集整理的学习笔记Spark(八)—— Spark SQL应用(3)—— Spark DataSet基础操作的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习笔记Spark(七)—— Spark
- 下一篇: 学习笔记Spark(九)—— Spark