spark 实现HDFS小文件合并
生活随笔
收集整理的這篇文章主要介紹了
spark 实现HDFS小文件合并
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一、首先使用sparksql讀取需要合并的數據。當然有兩種情況,
一種是讀取全部數據,即需要合并所有小文件。
第二種是合并部分數據,比如只查詢某一天的數據,只合并某一個天分區下的小文件。
val df: DataFrame = spark.sql("sql")二、將讀取到的數據寫入臨時文件中。此處需注意使用coalesce方法對文件進行合并。
df.coalesce(1).write.mode(SaveMode.Overwrite).parquet(temp_path)三、將臨時文件寫入待合并文件的目錄,并采用Overwrite的方式。
spark.read.parquet(tmp_path).write.mode(SaveMode.Overwrite).save(origin_table_path)參考以下文章,感謝分享:https://www.cnblogs.com/zfwwdz/p/13154995.html
總結
以上是生活随笔為你收集整理的spark 实现HDFS小文件合并的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CAM平台数控编程软件功能实例探究
- 下一篇: Live Home 3D Pro - 用