我有 python pandas 資料框問題。我有兩個內容不同的資料框。我想輸出不在資料幀 2 中的單詞并將它們存盤在新的資料幀中。有人可以幫助我使用 python pandas 資料框解決這個問題嗎?謝謝你...
其中資料幀 1 包含:
Tweet
Bismillah for明天 Amin
共享位置
回復 shahrilPng
是時候完成懸而未決的
并行了
當你追逐
夢想時
并且資料幀 2 包含:
Words
明天
共享
位置
時間
完成
等待
夢想
后
并行
運行
我想要的輸出
結果
比斯米拉赫
對
阿明
在回答
到
shahrilPng
等
uj5u.com熱心網友回復:
拆分并分解您的tweets資料框并檢查每個單詞是否存在于您的words資料框中:
# check function
not_in_list = lambda x: ~x.str.casefold().isin(df2['Words'].str.casefold())
out = df1['Tweet'].str.split().explode().loc[not_in_list] \
.drop_duplicates().reset_index(drop=True).to_frame('Results')
print(out)
# Output
Results
0 Bismillah
1 for
2 Amin
3 Replying
4 to
5 shahrilPng
6 It's
7 what's
8 been
9 up
10 and
11 When
12 you
13 your
uj5u.com熱心網友回復:
一種方法是將資料幀轉換為展平集,找到差異并將它們放入 dtaframe
import pandas as pd
import numpy as np
df1_set = set(np.ravel(df1.values))
df2_set = set(np.ravel(df2.values))
pd.DataFrame(df1_set - df2_set).dropna()
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/402290.html
標籤:
上一篇:嘗試從熊貓資料框中洗掉重復項
