我不斷地將鑲木地板資料集添加到具有如下結構的 S3 檔案夾中:
s3:::my-bucket/public/data/set1
s3:::my-bucket/public/data/set2
s3:::my-bucket/public/data/set3
一開始我只有set1并且我的爬蟲配置為在整個存盤桶上運行s3:::my-bucket。這將導致創建一個名為的磁區表,my-bucket其中的磁區名為public,data和set1。我真正想要的是有一個set1沒有任何磁區的表。我看到了發生這種情況的原因,正如爬蟲如何確定何時創建磁區?. 但是當一個新的資料集被上傳(例如set2)時,我不希望它成為另一個磁區(因為它是完全不同的資料,具有不同的模式)。如何強制 Glue 爬蟲不創建磁區?我知道我可以將爬蟲路徑定義為s3:::my-bucket/public/data/但不幸的是,我不知道新資料集將在哪里創建(例如也可以是s3:::my-bucket/other/folder/set2)。
任何想法如何解決這個問題?
uj5u.com熱心網友回復:
您可以使用TableLevelConfiguration指定搜尋器應在哪個檔案夾級別中查找表。
更多資訊請點擊此處。
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/444480.html
