
01 引言
大家好!蠟筆小曦有個朋友是做能源相關作業的,她想要有一個工具以天為單位持續地采集百度資訊中能源相關的文章進行留存和使用,
其中有個需求點是說能夠自定義采集的開始日期和結束日期,這樣更加靈活,保證在后續增量文章的采集上時間可控(因為關鍵詞有200個左右)
大家也都知道,百度資訊文章串列頁顯示的發布時間不都是標準格式,其中包含x分鐘前、x小時前、今天、昨天、x天前等格式(見下圖),所以我們優先要實作基于給定的的開始日期和結束日期構建一個有效發布標識串列,

02 實作程序
通過分析梳理,百度資訊串列頁展示的發布時間規則如下:
?
接下來就是把上表的規則用Python代碼實作,定義一個函式 available_date_list,輸入開始日期start_date和結束日期end_date2個引數,最后回傳一個有效發布標識串列 available_date_list,
- 匯入相關庫
from datetime import datetime
import pandas as pd
- 將傳入的2個字符引數轉化為日期格式
start_date = datetime.strptime(start_date, '%Y-%m-%d')
end_date = datetime.strptime(end_date, '%Y-%m-%d')
- 生成當前日期時間并計算當前年份
today_date = datetime.now()
current_year = str(today_date.year) + '年'
- 利用Pandas生成2個日期之間每天的日期串列,并使用Python的串列推導式按照百度資訊頁面展示的格式對日期進行處理
date_list = pd.date_range(start=start_date, end=today_date, freq='D').strftime('%Y年%m月%d日').tolist()
date_list = [each_date.replace('年0', '年').replace('月0', '月').replace(current_year, '') for each_date in date_list]
- 基于百度資訊串列頁展示的發布時間規則構造正序串列
nearly_10_days_list = ['10天前', '9天前', '8天前', '7天前', '6天前', '5天前', '4天前', '3天前', '前天', '昨天', '今天']
- 以上2個日期串列進行合并,nearly_10_days_list 替換 date_list 中后11個元素
available_date_list = date_list[:-11] + nearly_10_days_list
- 計算開始日期和結束日期之間的天數間隔并回傳所需的有效發布標識串列
start_vs_end_dif = (end_date - start_date).days
return available_date_list[:start_vs_end_dif + 1
大功告成!
03 知識點總結
以上程序中,核心有2個知識點:
利用Pandas快速構建日期串列
通過串列推導式對日期進行處理
完整源代碼請關注公眾號蠟筆小曦愛學習,在訊息框回復關鍵詞20230313獲取
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/546789.html
標籤:Python
