根據檔案,
inferSchema:自動推斷列型別。它需要對資料進行一次額外的傳遞,默認情況下為 false
好吧,我知道 spark 會讀取 CSV 來確定資料型別并進行相應的分配。
我很想知道后臺發生了什么。
- spark會掃描整個csv嗎?
- 如果它只掃描一個樣本資料,那么它將掃描多少行?
- spark如何斷定某某列屬于特定資料型別并將其分配給inferSchema = true?
有人可以幫助我更好地理解它或分享一些鏈接!
謝謝你。
uj5u.com熱心網友回復:
回答你的一些問題
- 默認情況下是,但在新版本中引入了采樣率,您可以在其中定義需要掃描以推斷模式的值的分數(默認為 1)
- 默認情況下,它提到的所有行都需要一次額外的資料傳遞
- 如果決議失敗,它將分別決議為整數、長整數、雙精度、布林值,最后是字串或例外,并給出最終模式,您可以在此處閱讀早期版本的代碼
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/491789.html
標籤:斯卡拉 阿帕奇火花 pyspark apache-spark-sql 大数据
