Spark 配置Kryo序列化机制注意细节
一、Spark 的序列化
序列化
Spark 是一個高性能、分布式的、基于內存計算的計算引擎,Spark 集群中包含多個節點,各節點之間要進行通信(比如數據傳輸,Spark 通過 RPC 進行節點間的通信),因而必定存在序列化(對象轉字節數組)和反序列化(字節數組轉對象)。
二、Java Serialization 和 Kryo Serialization
Spark 目前支持兩種序列化機制:java native serialization 和 kryo serialization,默認使用的是Java native serialization。兩者的區別:
| java native serialization | 兼容性好、和scala更好融合 | 序列化性能較低、占用內存空間大(一般是Kryo Serialization 的10倍) | 默認的serializer |
| Kryo Serialization | 序列化速度快、占用空間小(即更緊湊) | 不支持所有的Serializable類型、且需要用戶注冊要進行序列化的類class | shuffle的數據量較大或者較為頻繁時建議使用 |
三、Spark 中使用 Kryo Serialization
要在Spark 中使用 Kryo 完成序列化和反序列化,需要完成 3.1 和 3.2 兩樣配置:
3.1 將配置項spark.serializer設置為
關于配置項的設置優先級可以參考博客:https://www.jianshu.com/p/15cd9844c5a1
org.apache.spark.serializer.KryoSerializer
可以在配置文件spark-default.conf中添加該配置項(全局生效),比如:
或者在業務代碼中通過SparkConf進行配置(針對當前application生效),比如:
val spark = SparkSession.builder().master("local[*]").appName("test").getOrCreate()val conf = new SparkConfconf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")又或者在spark-shell、spark-submit腳本中啟動,可以在命令中加上:
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer3.2 注冊自定義類(非必須,但是強烈建議做)
...... conf.registerKryoClasses(Array(classOf[Test1], classOf[Test2])) // 其中Test1.java 和 Test2.java 是自定義的類如果是scala類Test1(scala中的trait就相當于java中的接口):
class Test1 extends Serializable {...... }如果是java類Test2:
public class Test2 implements Serializable {...... }注意:雖說該步不是必須要做的(不做Kryo仍然能夠工作),但是如果不注冊的話,Kryo會存儲自定義類中用到的所有對象的類名全路徑,這將會導致耗費大量內存。
3.3 配置 spark.kryoserializer.buffer
如果要被序列化的對象很大,這個時候就最好將配置項spark.kryoserializer.buffer 的值(默認64k)設置的大些,使得其能夠hold要序列化的最大的對象。
參考鏈接:https://www.jianshu.com/p/68970d1674fa
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的Spark 配置Kryo序列化机制注意细节的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【网址收藏】WIN10下docker d
- 下一篇: lombok pom.xml依赖