我有這個代碼,它通過 a 生成一個串列for,我尋找 的輸出println將它傳遞給一個資料幀,以便能夠在 Scala 中操縱由此產生的損壞。
for (l <- ListArchive){
val LastModified: (String, String) =(l,getLastModifiedLCO(l))
println(LastModified)
}
輸出println (LCO_2014-12-09_3.XML.gz,Tue Dec 09 07:48:30 UTC 2014)
(LCO_2014-12-09_1.XML.gz,Tue Dec 09 07:48:30 UTC 2014)
uj5u.com熱心網友回復:
重寫它生成一個串列/序列,然后變成一個DataFrame。像這樣的東西:
import spark.implicits._
val df = ListArchive.map(l => (l, getLastModifiedLCO(l)))
.toDF("col1Name", "col2Name")
如果串列很大,那么可以嘗試通過 把它變成RDD parallelize,然后類似的應用map,但是它會以分布式的方式運行。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/378884.html
上一篇:了解pyspark中的jars
