探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)
生活随笔
收集整理的這篇文章主要介紹了
探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在第1部分中,我們學習了如何使用以下方法測試數據沿襲信息收集
Spark外殼中的花鍵 。 在任何Scala或Java Spark應用程序中都可以這樣做。 需要在您選擇的構建工具(Maven,Gradle或sbt)中注冊與Spark Shell相同的依賴項:
參考Scala和Spark 2.3.x,像這樣的Spark作業:
// Create the Spark session val sparkSession = SparkSession .builder() .appName("Spline Tester") .getOrCreate()// Init Spline System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory") System.setProperty("spline.mongodb.url", args(0)) System.setProperty("spline.mongodb.name", args(1)) import za.co.absa.spline.core.SparkLineageInitializer._ sparkSession.enableLineageTracking()//Do something with DataFrames import sparkSession.sqlContext.implicits._ val df1 = sparkSession.sparkContext.parallelize(1 to 10000, 42).toDF("FirstValue") val df2 = sparkSession.sparkContext.parallelize(1.to(100000, 17), 42).toDF("SecondValue")val output = df1.crossJoin(df2).where('FirstValue % 42 === 'SecondValue % 42)// Write results to file system output.write.format("parquet").save("splinetester.parquet")// Stop the Spark Session sparkSession.stop()可以通過以下方式提交到Spark集群:
$SPARK_HOME/bin/spark-submit --class org.googlielmo.splinetest.SplineExample --master <url> --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5" splinetest-1.0.jar mongodb://<username>:<password>@<hostname>:<port> <dbname>樣條線配置屬性也可以存儲到應用程序類路徑中的屬性文件中。 這是可用的樣條曲線屬性的完整列表:
- spline.mode :3個可能的值, BEST_EFFORT (默認), DISABLED , REQUIRED 。 如果為BEST_EFFORT,則Spline會嘗試初始化自身,但如果失敗,它將切換為DISABLED模式,這樣Spark應用程序可以正常進行而沒有沿襲跟蹤。 如果禁用,則根本不會發生沿襲跟蹤。 如果需要,則Spline是否因任何原因而無法初始化自身,Spark應用程序將中止并顯示錯誤。
- spline.persistence.factory :可以是za.co.absa.spline.persistence.mongo.MongoPersistenceFactory (用于對MongoDB的持久性)或za.co.absa.spline.persistence.hdfs.HdfsPersistenceFactory (用于對HDFS的持久性)。
- spline.mongodb.url :MongoDB連接字符串(僅適用于MongoDB持久性)。
- spline.mongodb.name:MongoDB數據庫名稱(僅適用于MongoDB持久性)。
- spline.persistence.composition.factories :以逗號分隔的要委托的工廠列表(僅對于成分工廠而言)。
第一次從Spark作業啟用Spline時,它將在目標MongoDB數據庫中創建6個集合:
- attributes_v4 :有關所涉及的Spark數據集的屬性的信息。
Spline Web應用程序使用這6個集合中的文檔來生成UI中沿襲的視覺表示。
在本系列的第三部分和最后一部分中,我將分享在Spark預生產環境中采用該項目的最初幾周后的結果。
翻譯自: https://www.javacodegeeks.com/2018/12/spline-tracker-visualization-tool-spark.html
總結
以上是生活随笔為你收集整理的探索适用于Apache Spark的Spline Data Tracker和可视化工具(第2部分)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安卓测试模式指令(安卓测试模式)
- 下一篇: 买房出备案是什么意思(买房出备案)