我正試圖確定 "McDonald "這個詞是否在單元格中。然而,我希望忽略 "McDonald "之前的單詞的第一個字母是 "Kevin McDonald "這樣的情況。有什么建議可以通過pandas資料框架中的regex來實作嗎?
data = {'text':["Kevin McDonald has bought a burger." ,
"麥當勞最好的漢堡是cheeze buger。"]}。
df = pd.DataFrame(data)
long_list = ['McDonald'/span>, 'Five Guys'/span>]
# 匹配任何一個詞。
pattern = r'{}'.format('|'.join(long_list) )
df['count'] = df.text.str.count(pattern)
text
0 Kevin McDonald買了一個漢堡。
1最好的漢堡在麥當勞是cheeze buger。
預期輸出:
text count
0 Kevin McDonald買了一個漢堡。 0
1最好的漢堡在麥當勞是Cheeze buger。 1。
uj5u.com熱心網友回復:
你可以試試這個模式:
pattern = r' [a-z].*? {}'.format('|'.join(long_list))
df['count'] = df.text.str.count(pattern)
uj5u.com熱心網友回復:
IIUC,目標不是在前面有一個大寫的單詞時進行匹配。檢查前面是否有一個非大寫字母的詞將會洗掉許多合法的可能性。
下面是一個對更多的可能性(句子的開始,前面的非字)起作用的重構詞:
regex = '|'/span>.join(fr'(? :[^A-Z]S*s |[^ws]?|^){i}' for i in long_list)
df['count'] = df['text'].str.count(regex))
舉例:
text count
0 Kevin McDonald買了一個漢堡。 0
1最好的漢堡在麥當勞是Cheeze buger。 1
2 麥當勞的餐廳。 1
3 叭。麥當勞s餐廳。 1
你可以測驗和了解這個詞條這里
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/306623.html
標籤:
上一篇:<p>當我在media-slider-wrap內移動游標時,slider-paging跟隨游標移動,這是我想要的。但是當滑鼠離開media-slider-wrap時,滑塊分頁應該直接消失,
