探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)
最近引起我注意的一個有趣且充滿希望的開源項目是Spline ,它是由Absa維護的Apache Spark的數據沿襲跟蹤和可視化工具。 該項目由兩部分組成:一個在驅動程序上工作的Scala庫,該驅動程序通過分析Spark執行計劃來捕獲數據沿襲,并提供一個Web應用程序以提供一個可視化它們的UI。
Spline支持MongoDB和HDFS作為JSON格式的數據沿襲的存儲系統。 在這篇文章中,我指的是MongoDB。
您可以通過Spark外殼開始使用Spline。 只需將必需的依賴項添加到shell類路徑中,如下所示(參考此項目的最新0.3.5版本):
spark-shell --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5"在Ubuntu和其他Linux發行版上使用上述命令運行Spark shell,是否應該出現有關下載Joda Time庫(Spline組件之一的傳遞依賴項)的問題,請刪除.ivy1和.m2隱藏子目錄執行了spark-shell命令的目錄,然后重新運行它。
假設您已啟動并運行Mongo服務器,并且已經為Spline創建了一個空數據庫,那么在Spark Shell中需要做的第一件事是指定要使用的持久性工廠類,然后指定連接字符串和數據庫名稱:
System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory")
System.setProperty("spline.mongodb.url", "mongodb://<username>:<password>@<server_name_or_ip>:<port>")
System.setProperty("spline.mongodb.name", "<database_name>")
現在,您可以啟用樣條線數據沿襲跟蹤:
import za.co.absa.spline.core.SparkLineageInitializer._
spark.enableLineageTracking()
然后開始做一些涉及數據的事情:
val employeesJson =
spark.read.json("/home/guglielmo/spark-2.3.2-bin-hadoop2.7/examples/src/main/resources/employees.json")
是否應該發生以下異常:
com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:27017. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" } 那么您必須將MongoDB Java驅動程序依賴項更新到任何3.6+版本(可以通過在運行Windows Server 2003時簡單地將其添加到軟件包列表中來完成)
spark-shell命令)。
啟動Spline Web應用程序:
java -jar spline-web-0.3.5-exec-war.jar -Dspline.mongodb.url=mongodb://<username>:<password>@<server_name_or_ip>:<port> -Dspline.mongodb.name=<database_name>?您可以在Web UI中查看捕獲的數據沿襲(默認監聽端口為8080):
這只是一個開始。 在本系列的第2部分中,我們將深入探討Spline。
翻譯自: https://www.javacodegeeks.com/2018/12/spline-data-trackervisualization-spark.html
總結
以上是生活随笔為你收集整理的探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 幽默用英语怎么说 如何用英语说幽默
- 下一篇: 迷你世界电脑版全解锁(迷你世界破解版解锁