R中的data_GAN邏輯回歸-有解無憂

我一直在閱讀 R 中的邏輯回歸。當列/變數實際上意味著某些東西時，這是有道理的。我的列是 A、B 和 C。列 C 只有 1 和 0。我該如何對如此有限的資料集進行回歸？任何指導或閱讀資源將不勝感激。

> library(Amelia)
> library(mlbench)
> library(dplyr)
> my_data<-read.csv("/Users/morenikeirving/GAN/data_GAN.csv")
> names(my_data)
[1] "A" "B" "C"
> head(my_data)
        A      B  C
1  4.4189 69.580 NA
2 13.2019 61.250 NA
3 25.6290 56.740  1
4 22.2943 68.860  1
5  0.2163 57.690 NA
6  0.2875 72.914 NA
> summary(my_data)
       A                B               C       
 Min.   : 0.000   Min.   :33.00   Min.   :1     
 1st Qu.: 1.226   1st Qu.:59.69   1st Qu.:1     
 Median : 5.897   Median :61.87   Median :1     
 Mean   : 7.450   Mean   :65.40   Mean   :1     
 3rd Qu.:12.600   3rd Qu.:69.58   3rd Qu.:1     
 Max.   :25.800   Max.   :95.00   Max.   :1     
                                  NA's   :2923  
> missmap(my_data, col=c("blue", "red"), legend=FALSE)
> my_data<-my_data %>% mutate(C = ifelse(is.na(C),0,C))
> missmap(my_data, col=c("blue", "red"), legend=FALSE)
> model <-glm(x~., data=my_data, family= binomial)
Error in eval(predvars, data, env) : object 'x' not found
> #Library to read in xls file 
> library(Amelia)
> library(mlbench)
> library(dplyr)
> 
> #Read in csv file 
> my_data<-read.csv("/Users/GAN/data_GAN.csv")
> 
> #Exploring Data 
> #see what's on the data frame 
> names(my_data)
[1] "A" "B" "C"
> 
> #Look at first few rows of the data 
> head(my_data)
        A      B  C
1  4.4189 69.580 NA
2 13.2019 61.250 NA
3 25.6290 56.740  1
4 22.2943 68.860  1
5  0.2163 57.690 NA
6  0.2875 72.914 NA
> 
> #Overall picture of data; looking at first few rows revealed missing data
> summary(my_data)
       A                B               C       
 Min.   : 0.000   Min.   :33.00   Min.   :1     
 1st Qu.: 1.226   1st Qu.:59.69   1st Qu.:1     
 Median : 5.897   Median :61.87   Median :1     
 Mean   : 7.450   Mean   :65.40   Mean   :1     
 3rd Qu.:12.600   3rd Qu.:69.58   3rd Qu.:1     
 Max.   :25.800   Max.   :95.00   Max.   :1     
                                  NA's   :2923  
> #lots of NAs
> 
> #Examine missing data 
> 
> missmap(my_data, col=c("blue", "red"), legend=FALSE)
> 
> #Replace N/A 
> 
> my_data<-my_data %>% mutate(C = ifelse(is.na(C),0,C))
> 
> #Check to make sure missing values are resolved
> missmap(my_data, col=c("blue", "red"), legend=FALSE)

uj5u.com熱心網友回復：

(1) 你是問邏輯回歸代碼怎么寫？或者（2）您是否在詢問如何提高資料集的質量？

(1) https://stats.idre.ucla.edu/r/dae/logit-regression/

模型 <- glm(C ~ A B, data = my_data, family = "binomial")

在真實環境中，您的資料應該具有某種意義。但是在訓練實踐資料集中，變數/列的名稱無關緊要。重要的是您的資料適合用于您的模型（例如，線性回歸要求您的結果是連續變數；邏輯回歸傾向于使用二元結果，例如您的 C 列）

(2) 如果您有一個包含低質量資料的小資料集，除了獲取新資料集或收集更多資料之外，您無能為力。

您可以考慮重新采樣，但這并不總是適用，并且在使用時有其自身的一系列問題

轉載請註明出處，本文鏈接：https://www.uj5u.com/net/372997.html

標籤：r dplyr 逻辑回归

上一篇：R：Lubridate無法將字符轉換為數字

下一篇：如果至少有一個非缺失，則sumvars