我有一個包含 75 個級別的變數,我想對其進行格式化。但是,我發現如果不錯誤地格式化級別就很難做到這一點。
如您所知,使用其水平創建一個因子是這樣完成的:
df$f <- factor(df$f, levels=c('a','b','c'),
labels=c('Treatment A','Treatment B','Treatment C'))
有沒有辦法對這個進行不同的編碼,以便標簽寫在關卡旁邊。我正在尋找這種結構中的代碼:
'a' = 'Treatment A'
'b' = 'Treatment B'
'c' = 'Treatment C'
謝謝轉發
uj5u.com熱心網友回復:
您可以為您的級別標簽對使用命名向量并轉換為如下因子:
foo <- c("a", "c", "b")
rec <- c(
"a" = "Treatment A",
"b" = "Treatment B",
"c" = "Treatment C"
)
factor(foo, levels = names(rec), labels = rec)
#> [1] Treatment A Treatment C Treatment B
#> Levels: Treatment A Treatment B Treatment C
uj5u.com熱心網友回復:
如果您有很長的等價串列,通常將其作為單獨的檔案包含在內是一個很好的作業流程,例如icdcodes.csv包含
code,descr
C00.0,Upper lip cancer
C00.1,Lower lip cancer
然后你可以這樣做:
codeinfo <- read.csv("icdcodes.csv")
factor(foo, levels = codeinfo$code, labels = codeinfo$descr
理想情況下,您甚至可以直接從 CDC 獲得 ICD10 描述(盡管實際上這可能行不通,因為描述比您的要長,例如 C000 是“外上唇惡性腫瘤”,而不是“上唇癌”。 ..) [另請注意,CDC 檔案沒有點分隔符]
icd_url <- "https://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/ICD10CM/2022/icd10cm_codes_2022.txt"
codeinfo <- read.fwf(icd_url, widths = c(8,100))
names(codeinfo) <- c("code", "descr")
codeinfo$code <- trimws(codeinfo$code)
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/414675.html
標籤:
