line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)
line和spline
最近引起我注意的一個有趣且很有希望的開源項目是Spline ,它是由Absa維護的Apache Spark數據沿襲跟蹤和可視化工具。 該項目由兩部分組成:一個在驅動程序上工作的Scala庫,該庫通過分析Spark執行計劃來捕獲數據沿襲,以及一個Web應用程序,該應用程序提供了一個可視化它們的UI。
Spline支持MongoDB和HDFS作為JSON格式的數據沿襲的存儲系統。 在這篇文章中,我指的是MongoDB。
您可以通過Spark外殼開始使用Spline。 只需將必需的依賴項添加到shell類路徑中,如下所示(參考該項目的最新0.3.5版本):
spark-shell --packages "za.co.absa.spline:spline-core:0.3.5,za.co.absa.spline:spline-persistence-mongo:0.3.5,za.co.absa.spline:spline-core-spark-adapter-2.3:0.3.5"在Ubuntu和其他Linux發行版上使用上述命令運行Spark shell,是否應該出現有關下載Joda Time庫(Spline組件之一的傳遞依賴性)的問題,請刪除.ivy1和.m2隱藏子目錄執行了spark-shell命令的目錄,然后重新運行它。
假設您已啟動并運行Mongo服務器,并且已經為Spline創建了一個空數據庫,那么在Spark Shell中需要做的第一件事是指定要使用的持久性工廠類,然后指定連接字符串和數據庫名稱:
 System.setProperty("spline.persistence.factory", "za.co.absa.spline.persistence.mongo.MongoPersistenceFactory") 
 System.setProperty("spline.mongodb.url", "mongodb://<username>:<password>@<server_name_or_ip>:<port>") 
 System.setProperty("spline.mongodb.name", "<database_name>") 
現在,您可以啟用樣條線數據沿襲跟蹤:
 import za.co.absa.spline.core.SparkLineageInitializer._ 
 spark.enableLineageTracking() 
然后開始做一些涉及數據的事情:
 val employeesJson = 
 spark.read.json("/home/guglielmo/spark-2.3.2-bin-hadoop2.7/examples/src/main/resources/employees.json") 
是否應該發生以下異常:
com.mongodb.MongoCommandException: Command failed with error 9: 'The 'cursor' option is required, except for aggregate with the explain argument' on server localhost:27017. The full response is { "ok" : 0.0, "errmsg" : "The 'cursor' option is required, except for aggregate with the explain argument", "code" : 9, "codeName" : "FailedToParse" } 那么您必須將MongoDB Java驅動程序依賴項更新到任何3.6+版本(可以通過在運行Windows Server 2003時簡單地將其添加到軟件包列表中來完成) 
 spark-shell命令)。 
啟動Spline Web應用程序:
java -jar spline-web-0.3.5-exec-war.jar -Dspline.mongodb.url=mongodb://<username>:<password>@<server_name_or_ip>:<port> -Dspline.mongodb.name=<database_name>?您可以在Web UI中查看捕獲的數據沿襲(默認監聽端口為8080):
這只是一個開始。 在本系列的第2部分中,我們將深入探討Spline。
翻譯自: https://www.javacodegeeks.com/2018/12/spline-data-trackervisualization-spark.html
line和spline
總結
以上是生活随笔為你收集整理的line和spline_探索适用于Apache Spark的Spline Data Tracker和可视化工具(第1部分)的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: DeepMind:大型语言模型可实现“高
- 下一篇: 扎克伯格:与马斯克的笼斗不会发生
