用檔案標記分析情緒-有解無憂

我有一個資料叫做：

after_tokenize.xlsx
正.xlsx
negative.xlsx 記號化后的正負值

我想要的是為來自 after_tokenize.xlsx 的資料標記正面和負面情緒。如果標記化后的資料有很多來自資料 positive.xlsx 的正面詞，它將是正面的，如果資料有很多來自負面的負面詞，它將是負面的。結果將輸入到名為 label 的標簽中。樣本：

資料	標簽
[我，喜歡，愛，恨，你]	積極的
[我，最壞的，討厭，喜歡，你]	消極的

import pandas as pd
import nltk

df = pd.DataFrame({'data': ['i like love hate you', 'i dont hate like you']})
pos = pd.DataFrame(data=['like', 'love'], columns=['positive'])
neg = pd.DataFrame(data=['dont', 'hate'], columns=['negative'])
df['data'] = df.apply(lambda row: nltk.word_tokenize(row['data']), axis=1)

uj5u.com熱心網友回復：

您可以使用set()和操作set(...) & set(...)來獲取兩個串列中的單詞。

然后你可以使用 len()

len( set([i, like, love, hate, you]) & set(['like', 'love']) )

import pandas as pd
import nltk

df = pd.DataFrame({'data': ['i like love hate you', 'i dont hate like you']})

pos = ['like', 'love']
neg = ['dont', 'hate']

#print(df)

df['data'] = df['data'].apply(nltk.word_tokenize)

# --- get common words ---

df['pos words'] = df['data'].apply(lambda item: list(set(item) & set(pos)))
df['neg words'] = df['data'].apply(lambda item: list(set(item) & set(neg)))

# --- count common words ---

df['pos'] = df['data'].apply(lambda item: len(set(item) & set(pos)))
df['neg'] = df['data'].apply(lambda item: len(set(item) & set(neg)))

# or

df['pos'] = df['pos words'].apply(len)
df['neg'] = df['neg words'].apply(len)

# --- assing labels ---

df['label'] = '???'  # default value 

#df.['label'][ df['pos'] > df['neg'] ] = 'positive'
df.loc[ (df['pos'] > df['neg']), 'label' ] = 'positive'

#df.['label'][ df['pos'] < df['neg'] ] = 'negative'
df.loc[ (df['pos'] < df['neg']), 'label' ] = 'negative'

# ---

print(df)

結果：

                         data     pos words     neg words  pos  neg     label
0  [i, like, love, hate, you]  [love, like]        [hate]    2    1  positive
1  [i, dont, hate, like, you]        [like]  [hate, dont]    1    2  negative

轉載請註明出處，本文鏈接：https://www.uj5u.com/qiye/362561.html

標籤：Python 熊猫无印良品

上一篇：如何在python中使用pandas將多項選擇題轉換為可讀資料？

下一篇：如何一次測驗多列熊貓的條件并更新它們