在R中將日期更改為yyyy-mm-有解無憂

我有一個將用于時間序列的資料集。日期欄目前的結構如下：

> head(cam_shiller)
    div stock  dates
1 0.495  7.09 1933m1
2 0.490  6.25 1933m2
3 0.485  6.23 1933m3
4 0.480  6.89 1933m4
5 0.475  8.87 1933m5
6 0.470 10.39 1933m6

如果我沒記錯的話，時間序列的月度資料應該是這樣的：yyyy-mm。所以我試圖讓我的日期列看起來像這樣：

    div stock  dates
1 0.495  7.09 1933-01
2 0.490  6.25 1933-02
3 0.485  6.23 1933-03
4 0.480  6.89 1933-04
5 0.475  8.87 1933-05
6 0.470 10.39 1933-06

但是，使用該as.yearmo函式會產生一個充滿 NA 的列。我嘗試洗掉“m”并用破折號替換它，然后as.yearmo再次運行。現在結果如下所示：

    div stock    dates
1 0.495  7.09 Jan 1933
2 0.490  6.25 Feb 1933
3 0.485  6.23 Mar 1933
4 0.480  6.89 Apr 1933
5 0.475  8.87 May 1933
6 0.470 10.39 Jun 1933

如何將日期更改為 yyyy-mm 格式？

library(zoo)

cam_shiller = read.csv('https://raw.githubusercontent.com/bandcar/Examples/main/cam_shiller.csv')

cam_shiller$dates = gsub('m', '-', cam_shiller$dates)
cam_shiller$dates = as.yearmon(cam_shiller$dates)

uj5u.com熱心網友回復：

實際上，ts您只需要指定start=and frequency。

res <- ts(cam_shiller[, -3], start=1933, frequency=12)
res
#             div stock
# Jan 1933 0.4950  7.09
# Feb 1933 0.4900  6.25
# Mar 1933 0.4850  6.23
# Apr 1933 0.4800  6.89
# May 1933 0.4750  8.87
# Jun 1933 0.4700 10.39
# Jul 1933 0.4650 11.23
# Aug 1933 0.4600 10.67
# Sep 1933 0.4550 10.58
# Oct 1933 0.4500  9.55
# Nov 1933 0.4450  9.78
# Dec 1933 0.4400  9.97
# Jan 1934 0.4408 10.54
# Feb 1934 0.4417 11.32
# Mar 1934 0.4425 10.74
# Apr 1934 0.4433 10.92
# May 1934 0.4442  9.81
# Jun 1934 0.4450  9.94
# Jul 1934 0.4458  9.47
# Aug 1934 0.4467  9.10
# Sep 1934 0.4475  8.88
# Oct 1934 0.4483  8.95
# Nov 1934 0.4492  9.20
# Dec 1934 0.4500  9.26
# ...

或者

ts(cam_shiller$stock, start=c(1933, 1), frequency=12)
#  Jan    Feb    Mar    Apr    May    Jun    Jul    Aug    Sep    Oct    Nov    Dec
# 1933   7.09   6.25   6.23   6.89   8.87  10.39  11.23  10.67  10.58   9.55   9.78   9.97
# 1934  10.54  11.32  10.74  10.92   9.81   9.94   9.47   9.10   8.88   8.95   9.20   9.26
# 1935   9.26   8.98   8.41   9.04   9.75  10.12  10.65  11.37  11.61  11.92  13.04  13.04
# ...

通過評估年份和月份矩陣的列和行方差，預先檢查資料中是否沒有間隙可能是明智之舉：

test <- do.call(rbind, strsplit(cam_shiller$dates, 'm')) |>
  type.convert(as.is=TRUE) 
matrixStats::colVars(matrix(test[, 1], 12))
#  [1] 0 0 ...
matrixStats::rowVars(matrix(test[, 2], 12))
# [1] 0 0 0 0 0 0 0 0 0 0 0 0

如果您使用xts::xts，它會比較挑剔，因為它需要一個基于時間的類，例如"Date"or "POSIXct"。所以你需要完整的日期，即paste一個01偽日期。

res <- transform(cam_shiller, dates=strptime(paste(dates, '01'), format='%Ym%m %d')) |>
  {\(.) xts::as.xts(.[1:2], .$dates)}()
head(res)
#              div stock
# 1933-01-01 0.495  7.09
# 1933-02-01 0.490  6.25
# 1933-03-01 0.485  6.23
# 1933-04-01 0.480  6.89
# 1933-05-01 0.475  8.87
# 1933-06-01 0.470 10.39

class(res)
# [1] "xts" "zoo"

資料：

cam_shiller <- structure(list(div = c(0.495, 0.49, 0.485, 0.48, 0.475, 0.47, 
0.465, 0.46, 0.455, 0.45, 0.445, 0.44, 0.4408, 0.4417, 0.4425, 
0.4433, 0.4442, 0.445, 0.4458, 0.4467, 0.4475, 0.4483, 0.4492, 
0.45), stock = c(7.09, 6.25, 6.23, 6.89, 8.87, 10.39, 11.23, 
10.67, 10.58, 9.55, 9.78, 9.97, 10.54, 11.32, 10.74, 10.92, 9.81, 
9.94, 9.47, 9.1, 8.88, 8.95, 9.2, 9.26), dates = c("1933m1", 
"1933m2", "1933m3", "1933m4", "1933m5", "1933m6", "1933m7", "1933m8", 
"1933m9", "1933m10", "1933m11", "1933m12", "1934m1", "1934m2", 
"1934m3", "1934m4", "1934m5", "1934m6", "1934m7", "1934m8", "1934m9", 
"1934m10", "1934m11", "1934m12")), row.names = c(NA, 24L), class = "data.frame")

uj5u.com熱心網友回復：

嘗試lubridate::ym將日期更改為yyyy-mm格式

library(tidyverse)

cam_shiller = read.csv('https://raw.githubusercontent.com/bandcar/Examples/main/cam_shiller.csv')

cam_shiller %>% 
  mutate(
    date = lubridate::ym(dates),
    date = strftime(date, "%Y-%m")
  ) %>% 
  head()

#>     div stock  dates    date
#> 1 0.495  7.09 1933m1 1933-01
#> 2 0.490  6.25 1933m2 1933-02
#> 3 0.485  6.23 1933m3 1933-03
#> 4 0.480  6.89 1933m4 1933-04
#> 5 0.475  8.87 1933m5 1933-05
#> 6 0.470 10.39 1933m6 1933-06

^{使用reprex v2.0.2創建于 2022-10-01}

uj5u.com熱心網友回復：

問題中的形式已經正確。您需要更改它是不正確的。它呈現為Jan 1933等，但在內部它表示為 year (month-1)/12 （其中月份是數字 1、2、...、12），這正是您分析所需要的。您不希望使用 yyyy-mm 形式的字串進行分析。

如果“時間序列”是指動物園系列，那么u在最后的注釋中使用定義，z下面給出了 yearmon 索引。index引數read.csv.zoo給出索引的列號或名稱，引數FUN告訴它如何轉換它，format引數告訴它日期的精確形式。

如果您所說的時間序列是您想要一個 ts 系列，那么tt下面給出了它。

如果您的意思是帶有 yearmon 列的資料框，那么DF下面給出了它。

使用 zoo 系列或 ts 系列，可以執行各種分析。例如，acf(z)或acf(tt)將給出自相關函式。

有關詳細資訊，請參閱?read.csv.zoo。read.zoo 及其變體上還有一個完整的小插圖。這些小插曲鏈接到Zoo 的 CRAN 主頁上。另請參閱?strptime百分比代碼。

library(zoo)

# zoo series with yearmon column
z <- read.csv.zoo(u, index = 3, FUN = as.yearmon, format = "%Ym%m")

# ts series
tt <- as.ts(z)

# data frame with yearmon column
DF <- u |>
  read.csv() |>
  transform(dates = as.yearmon(dates, "%Ym%m"))

yyyy-mm 形式的字串不適用于大多數分析，但如果你真的想要那樣的話

 # zoo series with yyyy-mm character string index
 z2 <- aggregate(z, format(index(z), "%Y-%m"), c)

 # data.frame with yyyy-mm character string column
 DF2 <- transform(DF, dates = format(dates, "%Y-%m"))

筆記

u <- "https://raw.githubusercontent.com/bandcar/Examples/main/cam_shiller.csv"

轉載請註明出處，本文鏈接：https://www.uj5u.com/qukuanlian/513109.html

標籤：r日期时间序列

上一篇：從自定義物件串列中洗掉重復元素

下一篇：Python-將同一天（日期）拆分為多列