DataHub如何集成spark?
DataHub通過如下方式集成spark:
- 提供了一個輕量級的Java代理,它偵聽Spark應用程式和作業事件,并實時將資料血緣元資料推送到DataHub
- Java代理偵聽應用程式的開始、結束事件、SQLExecution的開始、結束事件,以在Datahub中創建pipelines (即DataFlow)和任務(即DataJob),以及對正在讀寫的資料集間的資料血緣關系,
如下面的代碼(原始碼參見:TestSparkJobsLineage.java
spark = SparkSession.builder()
.appName(APP_NAME)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/437983.html
標籤:其他
上一篇:Docker部署elasticsearch和kibana踩坑
下一篇:車間數字孿生解決方案(二)
