原話是這樣子滴:對于包含m個樣本的原始資料集,對該原始資料集進行可放回抽樣m次,每次被采集到的概率是1/m,不被采集到的概率是(1-1/m)。m次采樣不被抽到的概率是(1-1/m)^m。因此在bagging的每輪抽樣中,訓練集大約有36.8%的資料沒有被采樣,這份資料稱之為袋外資料(Out Of Bag,簡稱OOB)。"
首先,“每次被采集到的概率是1/m”嗎?每次采集的資料是k個(k<m),不是每次只從m個樣本中只采集一個吧?
以此類推,我發現,樣本中所有資料在經過m次可放回抽樣之后,幾乎所有資料都至少被采集過一次,那“訓練集大約有36.8%的資料沒有被采樣”,這36.8%的袋外資料在哪里,我找不到啊????!!!!!!!
實踐中我也的的確確遇到了這樣的情況,產生400棵樹,每棵樹用樣本總數隨機的80%生成,當然,每棵樹肯定有20%的資料沒有選中,但是,這400次采樣之后,整個樣本中沒有被采樣過的資料,是零!!!!!是零!!!!!我哪里犯錯了???
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/65335.html
