我想在 Athena 中預覽駐留在 S3 存盤桶中的資料。資料是鑲木地板。此處的此檔案描述了如何使用 AWS Glue 創建預覽的程序。這里的一個強制性步驟是輸入列詳細資訊。這包括輸入列名及其資料型別。這一步我有兩個問題:
1 - 如果我事先不知道 parquet 檔案中存在哪些列(即我之前沒有看過 parquet 的內容)怎么辦?
2 - 如果那里有數百甚至數千列怎么辦。
有沒有辦法在不輸入此列詳細資訊的情況下完成這項作業?
uj5u.com熱心網友回復:
您提供的鏈接回答了您的第一個問題,我認為:
如果我事先不知道鑲木地板檔案中存在哪些列怎么辦
然后你應該使用 Glue 爬蟲來探索檔案并讓它為你創建一個 Glue 表。該表將作為可查詢關系顯示在 AwsDataCatalog 目錄中。
如果那里有數百甚至數千列怎么辦。
如果您擔心某些列配額限制,我花了一些時間查看檔案,看看是否有提到每個表的最大列的服務配額。我找不到任何東西。這并不意味著沒有,但我會驚訝地看到有人生成的鑲木地板檔案的列數超過了 Glue 支持的列數。
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/493715.html
