Pyspark：根據另一個陣列列更改陣列列中的值-有解無憂

我有以下 pyspark 資料框：

root
 |-- tokens: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- posTags: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- dependencies: array (nullable = true)
 |    |-- element: string (containsNull = true)
 |-- labelledDependencies: array (nullable = true)
 |    |-- element: string (containsNull = true)

以以下資料為例

 ------------------------------ --------------------------- ----------------------------------- -------------------------------------------- 
|tokens                        |posTags                    |dependencies                       |labelledDependencies                        |
 ------------------------------ --------------------------- ----------------------------------- -------------------------------------------- 
|[i, try, to, get, my, balance]|[NNP, VB, TO, VB, PRP$, NN]|[try, ROOT, get, try, balance, get]|[nsubj, root, mark, parataxis, appos, nsubj]|
 ------------------------------ --------------------------- ----------------------------------- --------------------------------------------

我想將令牌余額的標記依賴性從 nsubj 更改為 dobj。

我的邏輯如下：如果您找到一個標記的依賴項nsubj并且該標記具有POSTagNN并且該標記依賴于具有POS標記VB(get)的標記，則更nsubj改為dobj.

我可以使用以下功能來做到這一點：

def change_things(tokens,posTags,dependencies,labelledDependencies):
    for i in range(0,len(labelledDependencies)):
        if labelledDependencies[i] == 'nsubj':
            if posTags[i] == 'NN':
                if posTags[tokens.index(dependencies[i])] == 'VB':
                    labelledDependencies[i] = 'dobj'
    return tokens,posTags,dependencies,labelledDependencies

甚至可能將其注冊為 udf。

但是，我的問題是如何在不使用 udf 而只使用 pyspark 內置方法的情況下做到這一點。

uj5u.com熱心網友回復：

您可以使用 Spark 內置transform函式：

import pyspark.sql.functions as F

df2 = df.withColumn(
    "labelledDependencies",
    F.expr("""transform(
            labelledDependencies, 
            (x, i) -> CASE WHEN x = 'nsubj' 
                                AND posTags[i] = 'NN' 
                                AND posTags[array_position(tokens, dependencies[i]) - 1] = 'VB' 
                           THEN 'dobj'
                           ELSE x
                      END
        )
    """)
)



df2.show(1, False)
# ------------------------------ --------------------------- ----------------------------------- ------------------------------------------- 
#|tokens                        |posTags                    |dependencies                       |labelledDependencies                       |
# ------------------------------ --------------------------- ----------------------------------- ------------------------------------------- 
#|[i, try, to, get, my, balance]|[NNP, VB, TO, VB, PRP$, NN]|[try, ROOT, get, try, balance, get]|[nsubj, root, mark, parataxis, appos, dobj]|
# ------------------------------ --------------------------- ----------------------------------- -------------------------------------------

轉載請註明出處，本文鏈接：https://www.uj5u.com/qiye/347525.html

標籤：Python 阿帕奇火花火花 apache-spark-sql

上一篇：SparkSQL資料存盤生命周期

下一篇：基于另一列pyspark舍入到精度值