我在 Python 中有以下代碼,但我需要將其轉換為 pyspark,
qm1['c1'] = [x[0] in x[1] for x in zip(qm1['id'], qm1['question'])]
qm1['c1'] = qm1['c1'].astype(str)
qm1a = qm1[(qm1.c1 == 'True')]
這個python代碼的輸出是
| 題 | 鑰匙 | ID | c1 |
|---|---|---|---|
| 女性 | 0 | 預兆 | 真的 |
| 機器 | 0 | 蘋果電腦 | 真的 |
有人可以幫助我,因為我是 Python 初學者嗎?
uj5u.com熱心網友回復:
這是我的測驗測驗(因為您的問題不包含任何內容)
df.show()
-------- --- ----
|question|key| id|
-------- --- ----
| Women| 0|omen|
| machine| 2| mac|
| foo| 1| bar|
-------- --- ----
和我的代碼來創建預期的輸出:
from pyspark.sql import functions as F
df = df.withColumn("c1", F.col("question").contains(F.col("id")))
df.show()
-------- --- ---- -----
|question|key| id| c1|
-------- --- ---- -----
| Women| 0|omen| true|
| machine| 2| mac| true|
| foo| 1| bar|false|
-------- --- ---- -----
那么你可以簡單地filter在c1上:
df.where("c1").show()
-------- --- ---- ----
|question|key| id| c1|
-------- --- ---- ----
| Women| 0|omen|true|
| machine| 2| mac|true|
-------- --- ---- ----
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/367495.html
上一篇:我無法訪問串列中的模型欄位
