是否可以為此撰寫一個lambda函式？-有解無憂

我有一個資料集，其中有一列“已發布”，格式為“2001 年 5 月 11 日（加拿大）”。我想把它分成 3 列released_date, released_year, released_month。我已按如下方式完成，但我想知道是否以及如何將其撰寫為 lambda 函式。

released_date = []

released_country = []

released_year = []

for x in movies['released']:

    date = x.split("(")[0]

    country = x.split("(")[1].replace(')','')

    released_date.append(date)

    released_country.append(country)
    
movies['released_country'] = released_country

movies['released_date'] = released_date

movies['released_date'] = pd.to_datetime(movies['released_date'])

movies['released_year'] = movies['released_date'].dt.year

movies['released_month'] = movies['released_date'].dt.month

uj5u.com熱心網友回復：

用 -

df['date'] = df['a'].str.split('(').str[0].str.strip()
df['released_country'] = df['a'].str.split('(').str[1].str.replace(')','')
df['date_p'] = pd.to_datetime(df['date'], format='%b %d, %Y')
df['released_date'] = df['date_p'].dt.date
df['released_month'] = df['date_p'].dt.month
df['released_year'] = df['date_p'].dt.year

假設原始列在 a

uj5u.com熱心網友回復：

你可以創建一個像下面這樣的輔助函式并用 lambda 呼叫它們可能是：

>>> import re
>>> data = "May 11, 2001 (Canada)"
>>> def my_func(data):
...     data = re.sub("[(),]", "", data).split(' ')
...     return data[0], data[1], data[2]
...
>>>
>>>
>>> my_func(data)
('May', '11', '2001')

uj5u.com熱心網友回復：

清除您的想法，lambda即它本身就是任何型別的特殊工具，或者lambda當您看到其他人的代碼使用 Pandas 等第三方庫做很酷的事情時，這就是在做的作業。

All lambda is, 是一種撰寫簡短、簡單的函式的便捷方式，無需為其命名，也無需將其與其他代碼行內。

作為交換，您非常有限：您無需撰寫普通函式體，而是撰寫單個運算式（回傳其結果）。這在你的情況下是不切實際的。

Pandas 所做的巧妙的事情通常是在單個單元格、整行、整列或整個 DataFrame 上重復代碼。能夠做那種事情就是你使用 Pandas 的原因。

大熊貓的工具，我們這里要的是apply方法中的movies['released']系列（即，資料幀的列）。這讓我們可以使用一個函式來處理該系列中的單個條目，并將其應用于整個事物。

首先，我們撰寫一個處理單個發布日期條目的普通函式，并為我們提供一系列我們想要的值：

def parse_release_date(x):
    date = pd.to_datetime(x.split("(")[0])
    country = x.split("(")[1].replace(')','')
    return pd.Series((country, date), ('released_country', 'released_date'))

（可以將其寫為 a lambda，但它使事情看起來比他們需要的要混亂得多。在這里為函式命名也可以使代碼更容易理解。）

正如我鏈接的檔案中所解釋的那樣，現在我們可以將apply其添加到我們的系列中，并且我們得到一個 DataFrame：對該函式的每次呼叫都會生成一行值。

release_dates = movies['released'].apply(parse_release_date)

從那里，我們可以簡單地movies以正常方式將列插入回：

movies['released_country'] = release_dates['released_country']
movies['released_date'] = release_dates['released_date']
movies['released_year'] = release_dates['released_date'].dt.year
movies['released_month'] = release_dates['released_date'].dt.month

或者，您可以純粹使用 Pandas 提供的基本操作，如@Vivek Kalyanarangan 的回答所示 - 與您使用.dt.yearand做的事情相同.dt.month，但可以解決整個問題。.str作業方式類似.dt（但您得到的是字串而不是 Datetime 物件），并且它提供replace,split和strip方法，其作業方式類似于相應的字串方法（只是將其應用于系列中的每個字串）。這仍然是一個系列，所以[0]給你一個條目，而不是給你每個字串的第一個字符 - 為此，你需要.str[0]如圖所示。

uj5u.com熱心網友回復：

發布 -> 發布日期、發布年份、發布月份、（發布國家/地區）

import re
pattern=r"\s*([a-z|A-Z] )\s*([0-9]{1,2})\s*,\s*([0-9]{4})\s*\((\s*[a-z|A-Z] \s*)\)\s*"
released_month, released_date, released_year, released_country = re.search(pattern, released).groups()

我想我知道你為什么想要 Lambda，但我又找不到它的需要。

Lambda 經常在以下情況下使用。

當一個函式時，method 將一個函式作為引數，但您不必費心定義該函式只是為了將其用作引數。例子是

a.sort(key=lambda x: x[3])
當一個函式只使用一次并且你不會費心去定義它。例子是

new_list = list(map(lambda x: x**2, old_list))

所以無論如何我的代碼代碼會將“May 11, 2001 (Canada)”格式決議為 4 個字串。

可能
11
2001年
加拿大

然后將每個分配給released_date/year/month/country 變數。

您可以進一步應用 Pandas 函式來使這些字串代表一些日期時間概念

要查看正則運算式的作業原理，請訪問https://regexr.com/

并復制粘貼我的“模式”

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/349178.html

標籤：Python 熊猫数据框

上一篇：如何將資料框列更新到特定串列，如果這些列不存在，則它們可以為null或NA或0

下一篇：在熊貓中取條件均值