我正在將資料從 S3 階段加載到我的雪花表,但出現以下錯誤:
當前檔案格式為 csv 型別并以轉義字符分隔
預期決議列 '"ABC"["T_STMP":29]' 時達到記錄結束 如果您想在遇到錯誤時繼續加載,請為 ON_ERROR 選項使用其他值,例如 'SKIP_FILE' 或 'CONTINUE' . 有關加載選項的更多資訊,請在 SQL 客戶端中運行“info loading_data”。
我也檢查了資料,T_STMP 的值正在換行,雪花正在考慮作為檔案的結尾
1234562020-11-18
07:41:12.336COVIDABC.comhttps://www.covide.com/bright-
keno/u-glass/2020/xyz-a-33/chat-pnevery goodcls F-
CLASS12345Very-free REl Men Rare CTR. WATCH
ABCDR. HEYA MOO https://abc.ABCD.com/v2/abc-xyze-
chore/sdfgsjhdfgjdhfkjdh/HIIII/HELLO-ABC_EFG_I-123-
5.jpgCENTCANT
2010-11-15 10:12:30.083663sysadmin0001-01-01 00:00:00.0wwwww33ww-
2a2a-1a1a-7ff6-3434343trtr36352020-15-15 10:44:05.79
錯誤位于最后第三行的時間戳列中,應如下所示:
5.jpgCENTCANT2010-11-15 10:12:30.083663
我知道這很難理解,但是資料質量太差了!
該檔案為 csv 型別并由轉義字符分隔
任何幫助將不勝感激
uj5u.com熱心網友回復:
由于列有 100 多個不同的字符長度導致時間戳和其他列進入新行而導致的錯誤。
解決方案是在 sqoop 匯入作業中將所有這些長列的換行符、回車符、退格符替換為空字串:
REPLACE(REPLACE(REPLACE(length_column,CHAR(8),''),CHAR(10),''),CHAR(13),'') as
length_column
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/343956.html
標籤:sql Hadoop 亚马逊-s3 雪花云数据平台 sqoop
上一篇:如何在HDFS中合并部分檔案?
下一篇:ApacheAirflow:沒有這樣的檔案或目錄:嘗試使用HiveOperator執行DAG時出現“beeline”
