賞金將在 4 天后到期。此問題的答案有資格獲得 50聲望賞金。 大川趙想引起更多的關注這個問題。
在 pythonpandas中,當我有這樣的dataframedf
| c1 | c2 | c3 |
|---|---|---|
| 0.1 | 0.3 | 0.5 |
| 0.2 | 0.4 | 0.6 |
我可以df.corr()用來計算相關矩陣。
我如何用 scala 在 spark 中做到這一點?
我已經閱讀了官方檔案,資料結構與上面不同。我不知道如何轉移它。
uj5u.com熱心網友回復:
您可以使用以下代碼解決您的問題。它將應用 Pearson 相關性,這也是 Pandas 函式的標準。
import org.apache.spark.ml.feature.VectorAssembler
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.ml.stat.Correlation
val df = Seq(
(0.1, 0.3, 0.5),
(0.2, 0.4, 0.6),
).toDF("c1", "c2", "c3")
val assembler = new VectorAssembler()
.setInputCols(Array("c1", "c2", "c3"))
.setOutputCol("vectors")
val transformed = assembler.transform(df)
val corr = Correlation.corr(transformed, "vectors").head
println(s"Pearson correlation matrix:\n $corr")
轉載請註明出處,本文鏈接:https://www.uj5u.com/yidong/443032.html
上一篇:將分頁器指示器影片化為按鈕
