如何處理ifelse函式julia中的缺失值-有解無憂

我正在使用 Julia，我得到了一個包含 42 個值的資料框，其中 2 個值丟失了。

此值是從 0.23 到 0.3 的價格

我正在嘗試獲取一個新列，通過ifelse宣告來說明它是便宜還是昂貴。

ifelse 應該去：

df.x_category=ifelse.(df.x .< mean(df.x),"cheap", "expensive")

但我收到以下錯誤：

ERROR: TypeError: non-boolean (Missing) used in boolean context

有沒有辦法跳過這些缺失值？

我試過：

df.x_category=ifelse.(skipmissing(df.x) .< mean(skipmissing(df.x)),"cheap", "expensive")

但得到這個錯誤：

ERROR: ArgumentError: New columns must have the same length as old columns

我不能只是洗掉丟失的觀察。

我怎樣才能做到這一點？

提前致謝！

uj5u.com熱心網友回復：

ifelse 只能處理 2 個值，您需要處理 3。假設您有

df = DataFrame(x=rand([0.23,0.3,missing], 10))

比mean(df.x)產生 amissing因為一些值是missings。你需要這樣做 mean(skipmissing(df.x)))。

因此代碼可能是：

julia> map(x -> ismissing(x) ? missing : ifelse(x,"cheap", "expensive"), df.x .< mean(skipmissing(df.x)))
10-element Vector{Union{Missing, String}}:
 missing
 missing
 "cheap"
 missing
 "expensive"
 missing
 missing
 missing
 "cheap"
 "cheap"

在這里，我將 ifelse 與map處理缺失值相結合，還有其他方法，但每種方法都需要嵌套一些條件函式。

uj5u.com熱心網友回復：

我會用一個回傳的函式來做cheap，expensive或者missing：

using Statistics
data = ifelse.(rand(Bool,100),missing,100*rand(100)) #generator for the data
meandata = mean(skipmissing(data)) #mean of the data

function category_select(x)
  ismissing(x) && return missing  #short-circuit operator
  return ifelse(x<meandata,"cheap","expensive") #parentheses are optional
end

category_select2(x) = ismissing(x) ? missing : (x < meandata ? "cheap" : "expensive)

#broadcast values
x_category = category_selector.(data)
x_category = category_selector2.(data)

現在，發生了什么？該ifelse函式有兩件事：

它同時評估兩個分支，所以如果一個分支可能出錯，它就會出錯。拿這個例子：

maybelog(x) = ifelse(x<0,zero(x),log(x)) #ifelse
maybelog2(x) = begin if x<0; zero(x);else;log(x);end #full if expression
maybelog3(x) = x<0 ? zero(x) : log(x) #ternary operator

maybelogx = -1 失敗，而maybelog2和maybelog3沒有。

第一個引數總是一個布林值。在您的初始運算式中，結果df.x .< mean(df.x)可以是true,false或missing，因此ifelse在那里也失敗。

在您修改后的運算式中，長度與長度skipmissing(df.x)不同，x因為第一個不計算 x 中存在的缺失值，導致向量小于資料幀的大小。

uj5u.com熱心網友回復：

如果您正在使用 DataFrames.jl（看起來像您這樣做），那么我建議您學習簡化此類場景語法的元包。以下是使用 DataFrameMacros.jl 撰寫查詢的方法：

@transform!(df,
            @subset(!ismissing(:x)),
            :x_category = @c ifelse.(:x .< mean(:x), "cheap", "expensive"))

這是我認為最簡單的方法。

uj5u.com熱心網友回復：

你可以嘗試這樣的事情。使用玩具資料。

首先將您的字串值從ifelse向量中獲取。
然后通過將字串向量轉換為字串聯合并缺失來保存缺失值來準備字串向量。
最后將缺失值放入向量中。

julia> using DataFrames, Random 

julia> vec = ifelse.(df.d[ismissing.(df.d) .== false] .> 0.5,"higher","lower")
40-element Vector{String}:
 "higher"
 "lower"
 "lower"
etc...

julia> vec = convert(Vector{Union{Missing,String}}, vec)
40-element Vector{Union{Missing, String}}

julia> for i in findall(ismissing.(df.d)) insert!(vec, i, missing) end

julia> df.x = vec

julia> df
42×2 DataFrame
 Row │ d                x
     │ Float64?         String?
─────┼──────────────────────────
   1 │       0.533183   higher
   2 │       0.454029   lower
   3 │       0.0176868  lower
   4 │       0.172933   lower
   5 │       0.958926   higher
   6 │       0.973566   higher
   7 │       0.30387    lower
   8 │       0.176909   lower
   9 │       0.956916   higher
  10 │       0.584284   higher
  11 │       0.937466   higher
  12 │ missing          missing
  13 │       0.422956   lower
etc...

資料

julia> Random.seed!(42)
MersenneTwister(42)

julia> data = Random.rand(42)
42-element Vector{Float64}:
 0.5331830160438613
 0.4540291355871424
etc...

julia> data = convert(Vector{Union{Missing,Float64}}, data)
42-element Vector{Union{Missing, Float64}}

julia> data[[12,34]] .= missing
2-element view(::Vector{Union{Missing, Float64}}, [12, 34]) with eltype Union{Missing, Float64}:
 missing
 missing

julia> df = DataFrame(d=data)

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/397564.html

標籤：数据框 if 语句朱莉娅

上一篇：我的朋友告訴我在Fault_in_Calculator上做一個程式來計算用戶輸入的數字但在錯誤輸出時關閉

下一篇：JS中如何判斷一個字串是否同時包含小寫和大寫字母？