我有一個資料集,其中有一列“已發布”,格式為“2001 年 5 月 11 日(加拿大)”。我想把它分成 3 列released_date, released_year, released_month。我已按如下方式完成,但我想知道是否以及如何將其撰寫為 lambda 函式。
released_date = []
released_country = []
released_year = []
for x in movies['released']:
date = x.split("(")[0]
country = x.split("(")[1].replace(')','')
released_date.append(date)
released_country.append(country)
movies['released_country'] = released_country
movies['released_date'] = released_date
movies['released_date'] = pd.to_datetime(movies['released_date'])
movies['released_year'] = movies['released_date'].dt.year
movies['released_month'] = movies['released_date'].dt.month
uj5u.com熱心網友回復:
用 -
df['date'] = df['a'].str.split('(').str[0].str.strip()
df['released_country'] = df['a'].str.split('(').str[1].str.replace(')','')
df['date_p'] = pd.to_datetime(df['date'], format='%b %d, %Y')
df['released_date'] = df['date_p'].dt.date
df['released_month'] = df['date_p'].dt.month
df['released_year'] = df['date_p'].dt.year
假設原始列在 a
uj5u.com熱心網友回復:
你可以創建一個像下面這樣的輔助函式并用 lambda 呼叫它們可能是:
>>> import re
>>> data = "May 11, 2001 (Canada)"
>>> def my_func(data):
... data = re.sub("[(),]", "", data).split(' ')
... return data[0], data[1], data[2]
...
>>>
>>>
>>> my_func(data)
('May', '11', '2001')
uj5u.com熱心網友回復:
清除您的想法,lambda即它本身就是任何型別的特殊工具,或者lambda當您看到其他人的代碼使用 Pandas 等第三方庫做很酷的事情時,這就是在做的作業。
All lambda is, 是一種撰寫簡短、簡單的函式的便捷方式,無需為其命名,也無需將其與其他代碼行內。
作為交換,您非常有限:您無需撰寫普通函式體,而是撰寫單個運算式(回傳其結果)。這在你的情況下是不切實際的。
Pandas 所做的巧妙的事情通常是在單個單元格、整行、整列或整個 DataFrame 上重復代碼。能夠做那種事情就是你使用 Pandas 的原因。
大熊貓的工具,我們這里要的是apply方法中的movies['released']系列(即,資料幀的列)。這讓我們可以使用一個函式來處理該系列中的單個條目,并將其應用于整個事物。
首先,我們撰寫一個處理單個發布日期條目的普通函式,并為我們提供一系列我們想要的值:
def parse_release_date(x):
date = pd.to_datetime(x.split("(")[0])
country = x.split("(")[1].replace(')','')
return pd.Series((country, date), ('released_country', 'released_date'))
(可以將其寫為 a lambda,但它使事情看起來比他們需要的要混亂得多。在這里為函式命名也可以使代碼更容易理解。)
正如我鏈接的檔案中所解釋的那樣,現在我們可以將apply其添加到我們的系列中,并且我們得到一個 DataFrame:對該函式的每次呼叫都會生成一行值。
release_dates = movies['released'].apply(parse_release_date)
從那里,我們可以簡單地movies以正常方式將列插入回:
movies['released_country'] = release_dates['released_country']
movies['released_date'] = release_dates['released_date']
movies['released_year'] = release_dates['released_date'].dt.year
movies['released_month'] = release_dates['released_date'].dt.month
或者,您可以純粹使用 Pandas 提供的基本操作,如@Vivek Kalyanarangan 的回答所示 - 與您使用.dt.yearand做的事情相同.dt.month,但可以解決整個問題。.str作業方式類似.dt(但您得到的是字串而不是 Datetime 物件),并且它提供replace,split和strip方法,其作業方式類似于相應的字串方法(只是將其應用于系列中的每個字串)。這仍然是一個系列,所以[0]給你一個條目,而不是給你每個字串的第一個字符 - 為此,你需要.str[0]如圖所示。
uj5u.com熱心網友回復:
發布 -> 發布日期、發布年份、發布月份、(發布國家/地區)
import re
pattern=r"\s*([a-z|A-Z] )\s*([0-9]{1,2})\s*,\s*([0-9]{4})\s*\((\s*[a-z|A-Z] \s*)\)\s*"
released_month, released_date, released_year, released_country = re.search(pattern, released).groups()
我想我知道你為什么想要 Lambda,但我又找不到它的需要。
Lambda 經常在以下情況下使用。
當一個函式時,method 將一個函式作為引數,但您不必費心定義該函式只是為了將其用作引數。例子是
a.sort(key=lambda x: x[3])
當一個函式只使用一次并且你不會費心去定義它。例子是
new_list = list(map(lambda x: x**2, old_list))
所以無論如何我的代碼代碼會將“May 11, 2001 (Canada)”格式決議為 4 個字串。
- 可能
- 11
- 2001年
- 加拿大
然后將每個分配給released_date/year/month/country 變數。
您可以進一步應用 Pandas 函式來使這些字串代表一些日期時間概念
要查看正則運算式的作業原理,請訪問https://regexr.com/
并復制粘貼我的“模式”
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/349178.html
上一篇:如何將資料框列更新到特定串列,如果這些列不存在,則它們可以為null或NA或0
下一篇:在熊貓中取條件均值
