時間序列（time series）資料是一種重要的結構化資料形式，，在多個時間點觀察或測量到的任何時間都可以形成一段時間序列，很多時間，時間序列是固定頻率的，也就是說，資料點是根據某種規律定期出現的（比如每15秒，，，，），時間序列也可以是不定期的，時間序列資料的意義取決于具體的應用場景，主要由以下幾種：

時間戳（timestamp），特定的時刻，
固定時期（period），如2007年1月或2010年全年，
時間間隔（interval），由起始和結束時間戳表示，時期（period）可以被看做間隔（interval）的特例，

1. 時間和日期資料型別及其工具：

Python標準庫包含用于日期（date）和時間（time）資料的資料型別，而且還有日歷方面的功能，我們主要會用到datetime、time以及calendar模塊，datetime.datetime（也可以簡寫為datetime）是用得最多的資料型別：

In [10]: from datetime import datetime

In [11]: now = datetime.now()

In [12]: now
Out[12]: datetime.datetime(2017, 9, 25, 14, 5, 52, 72973)

In [13]: now.year, now.month, now.day
Out[13]: (2017, 9, 25)

datetime以毫秒形式存盤日期和時間，timedelta表示兩個datetime物件之間的時間差：

In [14]: delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)

In [15]: delta
Out[15]: datetime.timedelta(926, 56700)

In [16]: delta.days
Out[16]: 926

In [17]: delta.seconds
Out[17]: 56700

可以給datetime物件加上（或減去）一個或多個timedelta，這樣會產生一個新物件：

In [18]: from datetime import timedelta

In [19]: start = datetime(2011, 1, 7)

In [20]: start + timedelta(12)
Out[20]: datetime.datetime(2011, 1, 19, 0, 0)

In [21]: start - 2 * timedelta(12)
Out[21]: datetime.datetime(2010, 12, 14, 0, 0)

字串和datetime的相互轉換

利用str或strftime方法（傳入一個格式化字串），datetime物件和pandas的Timestamp物件（稍后就會介紹）可以被格式化為字串：

In [22]: stamp = datetime(2011, 1, 3)

In [23]: str(stamp)
Out[23]: '2011-01-03 00:00:00'

In [24]: stamp.strftime('%Y-%m-%d')
Out[24]: '2011-01-03'

datetime.strptime可以用這些格式化編碼將字串轉換為日期：

In [26]: datetime.strptime(value, '%Y-%m-%d')
Out[26]: datetime.datetime(2011, 1, 3, 0, 0)

In [27]: datestrs = ['7/6/2011', '8/6/2011']

In [28]: [datetime.strptime(x, '%m/%d/%Y') for x in datestrs]
Out[28]: 
[datetime.datetime(2011, 7, 6, 0, 0),
 datetime.datetime(2011, 8, 6, 0, 0)]

datetime.strptime是通過已知格式進行日期決議的最佳方式，但是每次都要撰寫格式定義是很麻煩的事情，尤其是對于一些常見的日期格式，這種情況下，你可以用dateutil這個第三方包中的parser.parse方法（pandas中已經自動安裝好了）：

In [29]: from dateutil.parser import parse

In [30]: parse('2011-01-03')
Out[30]: datetime.datetime(2011, 1, 3, 0, 0)

dateutil可以決議幾乎所有人類能夠理解的日期表示形式：

In [31]: parse('Jan 31, 1997 10:45 PM')
Out[31]: datetime.datetime(1997, 1, 31, 22, 45)

在國際通用的格式中，日出現在月的前面很普遍，傳入dayfirst=True即可解決這個問題：

In [32]: parse('6/12/2011', dayfirst=True)
Out[32]: datetime.datetime(2011, 12, 6, 0, 0)

pandas通常是用于處理成組日期的，不管這些日期是DataFrame的軸索引還是列，to_datetime方法可以決議多種不同的日期表示形式，對標準日期格式（如ISO8601）的決議非常快：

In [33]: datestrs = ['2011-07-06 12:00:00', '2011-08-06 00:00:00']

In [34]: pd.to_datetime(datestrs)
Out[34]: DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00'], dtype='dat
etime64[ns]', freq=None)

它還可以處理缺失值（None、空字串等）：

In [35]: idx = pd.to_datetime(datestrs + [None])

In [36]: idx
Out[36]: DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00', 'NaT'], dty
pe='datetime64[ns]', freq=None)

In [37]: idx[2]
Out[37]: NaT

In [38]: pd.isnull(idx)
Out[38]: array([False, False,  True], dtype=bool)

NaT（Not a Time）是pandas中時間戳資料的null值，

2. 時間序列基礎

pandas最基本的時間序列型別就是以時間戳（通常以Python字串或datatime物件表示）為索引的Series：

In [39]: from datetime import datetime

In [40]: dates = [datetime(2011, 1, 2), datetime(2011, 1, 5),
   ....:          datetime(2011, 1, 7), datetime(2011, 1, 8),
   ....:          datetime(2011, 1, 10), datetime(2011, 1, 12)]

In [41]: ts = pd.Series(np.random.randn(6), index=dates)

In [42]: ts
Out[42]: 
2011-01-02   -0.204708
2011-01-05    0.478943
2011-01-07   -0.519439
2011-01-08   -0.555730
2011-01-10    1.965781
2011-01-12    1.393406
dtype: float64

這些datetime物件實際上是被放在一個DatetimeIndex中的：

In [43]: ts.index
Out[43]: 
DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

跟其他Series一樣，不同索引的時間序列之間的算術運算會自動按日期對齊：

In [44]: ts + ts[::2]
Out[44]: 
2011-01-02   -0.409415
2011-01-05         NaN
2011-01-07   -1.038877
2011-01-08         NaN
2011-01-10    3.931561
2011-01-12         NaN
dtype: float64

ts[::2] 是每隔兩個取一個，

索引、選取、子集構造

當你根據標簽索引選取資料時，時間序列和其它的pandas.Series很像：

In [48]: stamp = ts.index[2]

In [49]: ts[stamp]
Out[49]: -0.51943871505673811

還有一種更為方便的用法：傳入一個可以被解釋為日期的字串：

In [50]: ts['1/10/2011']
Out[50]: 1.9657805725027142

In [51]: ts['20110110']
Out[51]: 1.9657805725027142

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/274356.html

標籤：其他

上一篇：Python資料分析入門（十二）：資料聚合與分組

下一篇：RabbitMQ 入門 (Go) - 6. 資料持久化（上）

Python資料分析入門（十三）：時間序列

1. 時間和日期資料型別及其工具：

字串和datetime的相互轉換

2. 時間序列基礎

索引、選取、子集構造