s3 存盤桶中的資料包含鑲木地板檔案以及其他格式的檔案,如 xml、crc、json 等。我只想查詢鑲木地板資料。
CREATE EXTERNAL TABLE `test`()
ROW FORMAT SERDE
'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'
STORED AS PARQUET
LOCATION
's3:/some location/'
TBLPROPERTIES (
'classification'='parquet',
'created_by'='system',
'has_encrypted_data'='true')
下面提到的查詢給了我錯誤
SELECT * FROM "test" limit 10;
錯誤文本: HIVE_BAD_DATA:無效 Parquet 檔案:s3://some location/control_file.ctl 預期幻數:PAR1 得到:c8
uj5u.com熱心網友回復:
這不可能。
Amazon Athena 將嘗試讀取給定目錄中的每個檔案,包括其子目錄。
uj5u.com熱心網友回復:
如果有任何模式可用于識別鑲木地板檔案,請嘗試將檔案讀取限制為: select * from test where regex_like("$path", '.parquet')
PS:在上面的查詢中,我假設鑲木地板檔案的檔案名中包含 .parquet。我沒有測驗它。
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/347474.html
標籤:亚马逊网络服务 亚马逊-s3 镶木地板 亚马逊-雅典娜
