sparkto_date函式-如何將31-DEC-98轉換為1998-12-31而不是2098-12-31-有解無憂

(Py)Spark to_date 將 31-DEC-98 轉換為 2098-12-31。有沒有辦法讓它成為 1998 年 12 月 31 日？

該檔案沒有選擇 1000 或 2000 的選項。

迄今為止

to_date(date_str[, fmt]) - 將帶有 fmt 運算式的 date_str 運算式決議為日期。使用無效輸入回傳 null。默認情況下，如果 fmt 被省略，它會遵循轉換規則到日期。

grade_type = spark.read\
    .option("header", "true")\
    .option("nullValue", "")\
    .option("inferSchema", "true")\
    .csv("student/GRADE_TYPE_DATA_TABLE.csv")

grade_type.show(3)
-----
 --------------- ----------- ---------- ------------ ----------- ------------- 
|GRADE_TYPE_CODE|DESCRIPTION|CREATED_BY|CREATED_DATE|MODIFIED_BY|MODIFIED_DATE|
 --------------- ----------- ---------- ------------ ----------- ------------- 
|             FI|      Final|  MCAFFREY|   31-DEC-98|   MCAFFREY|    31-DEC-98|
|             HM|   Homework|  MCAFFREY|   31-DEC-98|   MCAFFREY|    31-DEC-98|
|             MT|    Midterm|  MCAFFREY|   31-DEC-98|   MCAFFREY|    31-DEC-98|
 --------------- ----------- ---------- ------------ ----------- -------------

grade_type = spark.read\
    .option("header", "true")\
    .option("nullValue", "")\
    .option("inferSchema", "true")\
    .csv("student/GRADE_TYPE_DATA_TABLE.csv")\
    .withColumn("CREATED_DATE", to_date(col('CREATED_DATE'), "dd-MMM-yy"))\
    .withColumn("MODIFIED_DATE", to_date(col('MODIFIED_DATE'), "dd-MMM-yy"))

grade_type.show(3)
-----
 --------------- ----------- ---------- ------------ ----------- ------------- 
|GRADE_TYPE_CODE|DESCRIPTION|CREATED_BY|CREATED_DATE|MODIFIED_BY|MODIFIED_DATE|
 --------------- ----------- ---------- ------------ ----------- ------------- 
|             FI|      Final|  MCAFFREY|  2098-12-31|   MCAFFREY|   2098-12-31|
|             HM|   Homework|  MCAFFREY|  2098-12-31|   MCAFFREY|   2098-12-31|
|             MT|    Midterm|  MCAFFREY|  2098-12-31|   MCAFFREY|   2098-12-31|
 --------------- ----------- ---------- ------------ ----------- -------------

uj5u.com熱心網友回復：

在 Spark 3.0 上，引入了一個新的日期決議器，改變了處理 2 位數年份的行為。您可以在從 Spark SQL 2.4 升級到 3.0
下找到更改的參考

spark.conf.set('spark.sql.legacy.timeParserPolicy', 'LEGACY')將為您提供具有所需結果的原始行為

from pyspark.sql import functions as F

spark.conf.set('spark.sql.legacy.timeParserPolicy', 'LEGACY')

(spark.createDataFrame([('31-DEC-98',)], 'my_date string')
 .select(F.to_date('my_date','dd-MMM-yy')
 .alias('my_new_date')).show()
)

 ----------- 
|my_new_date|
 ----------- 
| 1998-12-31|
 -----------

uj5u.com熱心網友回復：

是的，但我認為你必須做一些丑陋的字串操作：

 df.withColumn("MODIFIED_DATE", 
               to_date(concat(col("MODIFIED_DATE").substr(0, 7), 
                              lit("19"),
                              col("MODIFIED_DATE").substr(8, 2)
                             ), "dd-MMM-yyyy"))

我明白了（注意：使用 Scala，但 API 應該與 PySpark 相同）：

scala> val df = Seq(("31-DEC-98")).toDF("MODIFIED_DATE")
scala> df.withColumn("new_date", to_date(concat(col("MODIFIED_DATE").substr(0, 7), lit("19"), col("MODIFIED_DATE").substr(8, 2)), "dd-MMM-yyyy")).show
 ------------- ---------- 
|MODIFIED_DATE|  new_date|
 ------------- ---------- 
|    31-DEC-98|1998-12-31|
 ------------- ----------

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/429918.html

標籤：阿帕奇火花最新的

上一篇：獲取1000行csv、RDDSparkJava的最后5行

下一篇：用于spark-submit的kubernetes初始化容器