我可以在 numpy 中計算 L_df 中有多少而不是 A_df(在它們的“id”列中):
missing_data = np.isin(L_df['id'], A_df['id'], invert=True).sum()
PySpark 中計算缺失資料數量的等效代碼是什么?
uj5u.com熱心網友回復:
您可以使用anti連接。從這里參考檔案
反聯接:反聯接從左關系回傳與右關系不匹配的值。它也被稱為左反連接。
假設您加載資料幀L_df并A_df作為火花資料幀,您可以將DataFrame.join與antijoin一起使用,如下所示:
L_df.join(A_df, on='id', how='anti').count()
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/355116.html
