我從一個包含字串的單列組成的 PDF 資料表中提取了一個粗略的 df。該列中的每個條目均采用以下形式:
Mayor ............... Paul Jones
Senator ................. Billy Twister
Congress Rep. .......... Chris Rock
Chief of Staff ....... Tony Allen
我想string.split(pat=".")用來將這些字串分成兩列Title并Name使用句點字串。但是,對于句點字串分隔符,列中的每個條目都有不同的長度。正如預期的那樣,例如,如果我使用pat="."或pat=".......",我最終會得到不一致的拆分。
我的目標是實作一種方法,使分隔符能夠處理給定最小和最大長度的一系列周期字串長度。我已經用谷歌搜索了這個問題,但沒有找到直接的答案。這可以實施嗎?
uj5u.com熱心網友回復:
Series.str.split與 regex 一起使用\s \. \s ,它被 1 個空格、1 個句點、1 個空格分割:
df = pd.DataFrame({'A': ['Mayor ............... Paul Jones', 'Senator ................. Billy Twister', 'Congress Rep. .......... Chris Rock', 'Chief of Staff ....... Tony Allen']})
df[['Title', 'Name']] = df['A'].str.split('\s \. \s ', expand=True)
# A Title Name
# 0 Mayor ............... Paul Jones Mayor Paul Jones
# 1 Senator ................. Billy Twister Senator Billy Twister
# 2 Congress Rep. .......... Chris Rock Congress Rep. Chris Rock
# 3 Chief of Staff ....... Tony Allen Chief of Staff Tony Allen
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/369034.html
