主頁 >  其他 > 資料分析利器:XGBoost演算法最佳決議

資料分析利器:XGBoost演算法最佳決議

2021-01-01 11:21:10 其他

作者:symonxiong,騰訊 CDG 應用研究員

XGBoost是一種經典的集成式提升演算法框架,具有訓練效率高、預測效果好、可控引數多、使用方便等特性,是大資料分析領域的一柄利器,在實際業務中,XGBoost經常被運用于用戶行為預判、用戶標簽預測、用戶信用評分等專案中,XGBoost演算法框架涉及到比較多數學公式和優化技巧,比較難懂,容易出現一知半解的情況,由于XGBoost在資料分析領域實在是太經典、太常用,最近帶著敬畏之心,對陳天奇博士的Paper和XGBoost官網重新學習了一下,基于此,本文對XGBoost演算法的來龍去脈進行小結,

本文重點決議XGBoost演算法框架的原理,希望通過本文能夠洞悉XGBoost核心演算法的來龍去脈,對于XGBoost演算法,最先想到的是Boosting演算法,Boosting提升演算法是一種有效且被廣泛使用的模型訓練演算法,XGBoost也是基于Boosting來實作,Boosting演算法思想是對弱分類器基礎上不斷改進提升,并將這些分類器集成在一起,形成一個強分類器,簡而言之,XGBoost演算法可以說是一種集成式提升演算法,是將許多基礎模型集成在一起,形成一個很強的模型,這里的基礎模型可以是分類與回歸決策樹CART(Classification and Regression Trees),也可以是線性模型,如果基礎模型是CART樹(如圖1所示),比如第1顆決策樹tree1預測左下角男孩的值為+2,對于第1顆決策樹遺留下來的剩余部分,使用第2顆決策樹預測值為+0.9,則對男孩的總預測值為2+0.9=2.9,

圖1.基于二叉樹的XGBoost模型

XGBoost演算法框架可以分為四個階段來理解(如圖2所示),第一個階段,如何構造目標函式? 在進行優化求解時,首先需要構造目標函式,有了目標函式才能進行優化求解,這種思路和LR模型(Logistic Regression)是一致,在LR模型中,首先,對于回歸問題構造平方項損失,對于分類問題構造最大似然損失作為目標函式,然后基于構造好的目標函式,才會考慮采用梯度下降演算法進行優化求解,比如隨機梯度下降、Mini-Batch批量梯度下降、梯度下降等,在這個階段,我們可以得到XGBoost的基本目標函式結構,

第二個階段,目標函式優化求解困難,如何對目標函式近似轉換? 在第一個階段得到的基本目標函式較為復雜,不是凸函式,沒法使用連續性變數對目標函式直接優化求極值,因此,使用泰勒級數對目標函式進行展開,對目標函式規整、重組后,將目標函式轉換為關于預測殘差的多項式函式

第三個階段,如何將樹的結構引入到目標函式中? 第二個階段得到的多項式目標函式是一個復合函式,被預測的殘差和模型復雜度還是未知的函式,需要對這兩個函式進行引數化表示,即將決策樹的結構資訊通過數學符號表示出來,在第三個階段,在樹的形狀確定情況下,可以優化求解出區域最優解,

第四個階段,如何確定樹的形狀,要不要使用貪心演算法? 如何在模型空間里面尋找最優的決策樹形狀,這是一個NP-Hard問題,我們很難對可能存在的樹結構全部羅列出來,尤其在特征個數很多情況下,因此,在這里需要使用貪心演算法來求得區域最優解,

圖2.XGBoost演算法構建邏輯

1.如何構造目標函式?

當使用多棵樹來預測時,假設已經訓練了 棵樹,則對于第 個樣本的(最終)預測值為:

在公式1中, 表示對 個樣本的預測值, 屬于 集合范圍內, 表示通過第 棵樹對第 個樣本進行預測,比如第1棵樹預測值為 ,第2棵樹預測值為 ,依次類推,將這些樹的預測值累加到一起,則得到樣本的最終預測值 ,因此,如果要得到樣本的最終預測值,需要訓練得到 棵樹,

如果要訓練得到 棵樹,首先需要構造訓練的目標函式(如公式2所示),在構建模型時,不僅需要考慮到模型的預測準確性,還需要考慮到模型的復雜程度,既準確又簡單的模型在實際應用中的效果才是最好的,因此,目標函式由兩部分構成,第一部分表示損失函式,比如平方損失、交叉熵損失、折頁損失函式等,第一部分表示 個樣本總的損失函式值,因為在這里通過樣本預測值 和樣本真實值 的比較,可以計算出針對樣本 的模型預測損失值 ,這里可以暫時先不用考慮損失函式的具體形式,因為這里的損失函式,可以統一表示回歸與分類問題的損失函式形式,

公式2的第二部分表示正則項,是用來控制模型的復雜度,模型越復雜,懲罰力度越大,從而提升模型的泛化能力,因為越復雜的模型越容易過擬合,XGBoost的正則化思路跟 模型中加 / 正則化思路一致,不同的地方在于正則化項具體物理含義不同,在這里 表示第 棵樹的復雜度,接下來的問題是如何對樹的復雜度進行引數化表示,這樣后面才能進行引數優化,

在損失函式中 ,是有很多個模型(決策樹)共同參與,通過疊加式的訓練得到,如圖2所示,訓練完第一顆樹 后,對于第一棵樹沒有訓練好的地方,使用第二顆樹 訓練,依次類推,訓練第 個棵樹,最后訓練第 顆樹 ,當在訓練第 棵樹時,前面的第1棵樹到第 顆樹是已知的,未知的是第 棵樹,即基于前面構建的決策樹已知情況下,構建第 棵樹

圖3.XGBoost疊加式訓練

對于樣本 ,首先初始化假定第0棵樹為 ,預測值為 ,然后在第0棵樹基礎上訓練第1棵樹,得到預測值 ,在第1棵樹基礎上訓練第2顆樹,又可以得到預測值 ,依次類推,當訓練第 棵樹的時候,前面 棵樹的總預測值為 ,遞推訓練具體程序如下所示:

根據XGBoost的遞推訓練程序,每棵決策樹訓練時會得到樣本對應的預測值,根據樣本預測值和真實值比較,可以計算得到模型預測損失值,又因為訓練所得的每棵決策樹都有對應的結構資訊,因此可以得到每棵決策樹的復雜度 ,根據這些資訊,可以對目標函式公式2進行簡化,得到公式3,

在公式3中, 表示訓練樣本個數, 顆決策樹累加的預測值, 顆決策樹總的復雜度,在訓練第 顆決策樹時,這兩個東西是已知的,即在對目標函式進行求最小值優化時候, 為已知,因此,將常數項 拿掉,得到公式4作為XGBoost的目標函式,

2.目標函式優化困難,如何對函式近似轉換?

在公式4中,已經得到了需要優化的目標函式,這個目標函式已經是簡化后的函式,對于公式4,沒法進行進一步優化,為了解決目標函式無法進行進一步優化,XGBoost原文是使用泰勒級數展開式技術對目標函式進行近似轉換,即使用函式的1階、2階、3階... 階導數和對應的函式值,將目標函式進行多項式展開,多項式階數越多,對目標函式的近似程度越高,這樣做的好處是便于后面優化求解

,帶入到目標函式公式4,得到基于二階泰勒展開式的函式(如公式5所示),其中

在訓練第 顆樹時,目標函式(公式5)中, 是已知的,因此,可以將已知常數項 去掉,得到進一步簡化后的目標函式(公式6), 分別表示第 顆決策樹的損失函式的1階、2階導數,前面 顆決策樹預測后,通過 將前面第 顆決策樹的預測損失資訊傳遞給第 顆決策樹,在公式6中,第 顆樹的預測函式 、樹復雜度函式 對于我們來說,仍然都是未知的,因此需要將其引數化,通過引數形式表示出來,才能進行下一步的優化求解,

3.如何將樹結構引入到目標函式中?

接下來的問題是如何對函式 進行引數化表示,首先,對于葉子權重函式 ,如圖4所示決策樹,有1號、2號、3號葉子節點,這三個葉子節點對應的取值分別為15,12,20,在1號葉子節點上,有{1,3}兩個樣本,在2號葉子節點上,有{4}一個樣本,在3號葉子節點上,有{2,5}兩個樣本,在這里,使用 來表示決策樹的葉子權重值,三個葉子節點對應的葉子權重值為 ,對于樣本 落在決策樹葉子節點的位置資訊,使用 表示, 表示樣本1落在第1個葉子節點上, 表示樣本1落在第3個葉子節點上, 表示樣本4落在第2個葉子節點上,

圖4.XGBoost決策樹結構

對于第 顆樹的葉子權重函式 ,根據葉子權重值和樣本所在葉子的位置資訊,即可確定函式 ,因此,我們引入決策樹葉子權重值 和樣本所在葉子的位置資訊 兩個變數,將其引數化表示成 ,然而, 是一個函式,作為 的下標是不利于優化求解,因此,這里需要將 轉化為 形式, 是根據樣本落在葉子節點的位置資訊直接遍歷計算損失函式, 是從葉子節點的角度,對每個葉子節點中的樣本進行遍歷計算損失函式,其中, 表示樹的葉子節點,假設 ,即 表示有哪些樣本落在第j個葉子節點上,比如 表示樣本{1,3}落在葉子節點1上, 表示樣本{4}落在葉子節點2上, 表示樣本{2,5}落在葉子節點3上(如上文圖4所示),在這里強調一下,將 轉換為 形式,是可以從數學公式推到得到(比如下式),根據樣本所在葉子節點位置,計算所有樣本的一階損失得到第一行等式,其中, 表示樣本 的一階損失, 表示樣本 對應的葉子節點, 表示葉子節點 對應的葉子權重值,

對于模型復雜度 表示第 顆樹的復雜度,在決策樹里面,如果要降低樹的復雜度,在訓練決策樹時,可以通過葉子節點中樣本個數、樹的深度等控制決策樹的復雜度,在XGBoost中,是通過葉子節點個數、樹的深度、葉子節點值來控制模型復雜度,XGBoost中的決策樹是分類與回歸決策樹CART(Classification and Regression Trees),由于CART是二叉樹,控制葉子節點個數等同于控制了樹的深度,因此,可以使用葉子節點個數來評估樹的復雜度,即葉子節點個數越多(樹的深度越深),決策樹結構越復雜,對于葉子節點值,由于葉子節點值越大,相當于樣本預測值分布在較少的幾顆決策樹的葉子節點上,這樣容易出現過擬合,如果葉子節點值越小,相當于預測值分布在較多的決策樹葉子節點上,每顆決策樹參與預測其中的一小部分,過擬合的風險被分散,因此,葉子節點值越大,模型越容易過擬合,等同于決策樹的復雜度越高,綜合起來,如公式7所示,使用葉子節點個數 、葉子節點值 評估第 顆決策樹的復雜度,其中 為超引數,如果希望葉子個數盡量少,則將 值盡量調大,如果希望葉子權重值盡量小,則將 盡量調大,

和公式7帶入目標函式(公式6)中,可以得到引數化的目標函式(公式8),在公式8中,在訓練第 顆決策樹時, 這兩部分是已知, 為超引數,令 ,對公式8進行調整,此時得到目標函式是關于 的一元二次拋物線,是目標函式最終的引數化表示形式,拋物線是有極值,對拋物線求極值可以直接套用拋物線極值公式,求解很方便,

基于公式8,對目標函式關于 求導,可以求得樹的葉子節點 最優的權重值,如公式9所示,

將等式9帶入到公式8中,計算得到樹的目標損失值(如等式10),該等式表示決策樹損失分數 ,分數越小,說明樹的預測準確度越高、復雜度越低,

4.如何確定樹的形狀?

這里需要注意到一點,樹的葉子節點最優解 和損失函式極小值 是在樹的形狀給定后的優化求解,因此,如果要求得葉子節點最優解和損失函式極小值,首先需要確定樹的形狀,如何尋找樹的形狀?最直接的方式是列舉所有可能的形狀,然后計算每種形狀的損失函式 ,從中選擇損失函式最小的形狀作為模型訓練使用,這樣在樹的形狀確定后,就可以對葉子節點值和損失函式值進行優化求解,這種方式在實際應用中一般不會采用,因為當樣本的特征集很大時,樹的形狀個數是呈指數級增加,計算這些形狀樹對應損失函式 需要消耗大量的計算資源,

為了尋找樹的形狀,我們一般使用貪心演算法來簡化計算,降低計算的復雜度,貪心演算法是在區域尋找最優解,在每一步迭代時,選擇能使當前區域最優的方向,XGBoost尋找樹的形狀的思路和傳統決策樹模型建立樹的思路一致,比如傳統決策樹在進行節點分割時,基于資訊熵,選擇資訊熵下降最大的特征進行分割;對于XGBoost樹模型,基于損失函式,選擇能讓損失函式下降最多的特征進行分割,如圖5所示,虛線框是已經構造好的樹形狀,如果需要在藍色節點做進一步分裂,此時需要按照某種標準,選擇最好的特征進行分割,在這里,XGBoost使用損失函式下降最大的特征作為節點分裂,

圖5.XGBoost樹節點最佳分割點

根據公式10,可以計算到藍色節點在分裂前和分裂后的的損失函式值: ,兩式相減,則得到特征如果作為分裂節點時,所能帶來的損失函式下降值大小,因此,依據如下等式,選擇能使 最大的特征作為分裂節點,

5.其它常見問題

關于XGBoost的常見經典問題,這類問題對于深入理解XGBoost模型很重要,因此,本文對此也進行了梳理小結,

(1) XGBoost為什么需要對目標函式進行泰勒展開?

根據XGBoost官網(如圖6所示),目標損失函式之間存在較大的差別,比如平方損失函式、邏輯損失函式等,對目標函式進行泰勒展開,就是為了統一目標函式的形式,針對回歸和分類問題,使得平方損失或邏輯損失函式優化求解,可以共用同一套演算法框架及工程代碼,另外,對目標函式進行泰勒展開,可以使得XGBoost支持自定義損失函式,只需要新的損失函式二階可導即可,從而提升演算法框架的擴展性

圖6.XGBoost目標函式泰勒展開式官方解釋

相對于GBDT的一階泰勒展開,XGBoost采用二階泰勒展開,可以更精準的逼近真實的損失函式,提升演算法框架的精準性,另外,一階導數描述梯度的變化方向,二階導數可以描述梯度變化方向是如何變化的,利用二階導數資訊更容易找到極值點,因此,基于二階導數資訊能夠讓梯度收斂的更快,類似于牛頓法比SGD收斂更快,

(2) XGBoost如何進行采樣?

XGBoost演算法框架,參考隨機森林的Bagging方法,支持樣本采樣和特征采樣,由于XGBoost里沒有交代是有放回采樣,認為這里的樣本采樣和特征采樣都是無放回采樣,每次訓練時,對資料集采樣,可以增加樹的多樣性,降低模型過擬合的風險,另外,對資料集采樣還能減少計算,加快模型的訓練速度,在降低過擬合風險中,對特征采樣比對樣本采樣的效果更顯著,

樣本采樣(如圖7所示),默認是 不進行樣本采樣,樣本的采樣的方式有兩種,一種是認為每個樣本平等水平,對樣本集進行相同概率采樣;另外一種認為每個樣本是不平等,每個樣本對應的一階、二階導數資訊表示優先級,導數資訊越大的樣本越有可能被采到,

圖7.XGBoost樣本采樣

特征采樣(如圖8所示),默認 對特征不進行采樣,對特征的采樣方式有三種,第一種是在建立每棵樹時進行特征采樣;第二種特征采樣范圍是在第一種的基礎上,對于樹的每一層級(樹的深度)進行特征采樣;第三種特征采樣范圍是在第二種的基礎上,對于每個樹節點進行特征采樣,這三種特征采樣方式有串行效果,比如,當第一、二、三種的特征采樣比例均是0.5時,如果特征總量為64個,經過這三種采樣的綜合效果,最終采樣得到的特征個數為8個,

圖7.XGBoost樣本采樣

(3)XGBoost為什么訓練會比較快?

XGBoost訓練速度快,這個主要是工程實作優化的結果,具體的優化措施如下幾點:第一、支持并行化訓練,XGBoost的并行,并不是說每棵樹可以并行訓練,XGBoost本質上仍然采用Boosting思想,每棵樹訓練前需要等前面的樹訓練完成后才能開始訓練,XGBoost的并行,指的是特征維度的并行,在訓練之前,每個特征按特征值大小對樣本進行預排序,并存盤為Block結構(如圖8所示),在后面查找特征分割點時可以重復使用,而且特征已經被存盤為一個個Block結構,那么在尋找每個特征的最佳分割點時,可以利用多執行緒對每個Block并行計算,

圖8.樣本排序

第二、采用近似演算法技術,得到候選分位點,在構造決策樹分裂節點時,當采用精確貪心演算法窮舉計算每個特征下的所有特征值增益,如果特征個數多、特征取值大,會造成較大的計算量,當樣本資料量大時,特征值無法完全加載到記憶體中,計算效率低,對于分布式資料集,同樣會面臨無法將特征值全部加載到本地記憶體的問題,因此,基于這兩個現實問題,采用近似直方圖演算法,將每個特征取值劃分為常數個分位點,作為候選分割點,從中選擇相對最優的分割點作為決策樹分裂節點,

第三、快取感知訪問技術,對于有大量資料或者說分布式系統來說,不可能將所有的資料都放進記憶體里面,因此,需要將其放在外存上或者將資料分布式存盤,但是會有一個問題,這樣做每次都要從外存上讀取資料到記憶體,這將會是十分耗時的操作,在XGBoost中,采用預讀取的方式,將下一塊將要讀取的資料預先放進記憶體里面,這個程序是多開了一個執行緒,該執行緒與訓練的執行緒獨立并負責資料讀取,此外,還要考慮Block的大小問題,如果設定最大的Block來存盤所有樣本在 特征上的值和梯度,Cache未必能一次性處理如此多的梯度做統計,如果設定過小的Block-size,這樣不能充分利用多執行緒的優勢,這樣會出現訓練執行緒已經訓練完資料,但是預讀取執行緒還沒把資料放入記憶體或者cache中,經過測驗,Block-size設定為2^16個特征值是效果最好,

第四、Blocks核外計算優化技術,為了高效使用系統資源,對于機器資源,除了CPU和記憶體外,磁盤空間也可以利用起來處理資料,為了實作這個功能,XGBoost在模型訓練時,會將資料分成多個塊并將每個塊存盤在磁盤上,在計算程序中,使用獨立的執行緒將Block預提取到主記憶體緩沖區,這樣資料計算和磁盤讀取可以同步進行,但由于IO非常耗時,所以還采用了兩種技術來改進這種核外計算,

  • Block Compression:塊壓縮,并且加載到主記憶體時由獨立的執行緒進行解壓縮,

  • Block Sharding:塊分片,即將資料分片到多個磁盤,為每個磁盤分配一個執行緒,將資料提取到記憶體緩沖區,然后每次訓練執行緒的時候交替地從每個緩沖區讀取資料,有助于在多個磁盤可用時,增加讀取的吞吐量,

除了這些技術,XGBoost的特征采樣技術也可以提升計算效率,如果設定特征采樣比例colsample_by* < 1.0,則在選擇最佳特征分割點作為分裂節點時,特征候選集變小,挑選最佳特征分割點時計算量降低,

(4)XGBoost如何處理缺失值問題?

XGBoost的一個優點是允許特征存在缺失值,對缺失值的處理方式如圖9所示: 在特征 上尋找最佳分割點時,不會對該列特征missing的樣本進行遍歷,而只對該特征值為non-missing的樣本上對應的特征值進行遍歷,對于稀疏離散特征,通過這個技巧可以大大減少尋找特征最佳分割點的時間開銷,

在邏輯實作上,為了保證完備性,會將該特征值missing的樣本分別分配到左葉子節點和右葉子節點,兩種情形都計算一遍后,選擇分裂后增益最大的那個方向(左分支或是右分支),作為預測時特征值缺失樣本的默認分支方向, 如果在訓練中沒有缺失值而在預測中出現缺失,那么會自動將缺失值的劃分方向放到右子節點,

圖9.XGBoost缺失值處

(5)XGBoost和GBDT的區別是什么?

XGBoost和GBDT都是基于Boosting思想實作,XGBoost可以認為是在GBDT基礎上的擴展,兩者的主要不同如下:基分類器:GBDT是以分類與回歸決策樹CART作為基分類器,XGBoost的基分類器不僅支持CART決策樹,還支持線性分類器,此時XGBoost相當于帶L1和L2正則化項的Logistic回歸(分類問題)或者線性回歸(回歸問題),導數資訊:GBDT在優化求解時,只是用到一階導數資訊,XGBoost對代價函式做了二階泰勒展開,同時用到一階和二階導數資訊,另外,XGBoost工具支持自定義代價函式,只要函式可以一階和二階求導即可,正則項:XGBoost在代價函式里加入正則項,用于控制模型的復雜度,正則項里包含了樹的葉子節點個數、每個葉子節點上輸出的預測值的 模的平方和,正則項有利于降低模型的方差variance,使學習出來的模型更加簡單,防止過擬合,GBDT的代價函式中是沒有正則項,缺失值處理:對于特征的取值有缺失的樣本,XGBoost可以自動學習出它的分裂方向, 另外,XGBoost還做了其它工程優化,包括特征值Block化、并行化計算特征增益、近似直方圖演算法、特征采樣技術

(6)如何使用XGBoost進行模型訓練?

在使用XGBoost前,可以根據官網說明檔案進行安裝(下面有鏈接,這里不贅述),本文采用的資料集是Kaggle平臺房價預測開源資料集(地址如參考文章8所示),值得說明的一點,在進行模型訓練前,一般需要做資料清洗、特征工程、樣本劃分、模型引數調優這些程序,針對這些程序,本文在這里不展開細講,在進行模型訓練前,本文已經完成資料清洗、特征工程、模型引數調優程序,并得到最終用于模型訓練的樣本集和最優模型引數,如下代碼,是使用XGBoost進行模型訓練程序,

#### 匯入資料分析基礎包 #####
import pandas as pd 
import matplotlib 
import numpy as np 
import scipy as sp 
import IPython
from IPython import display 
import sklearn 
import random
import time

#### 匯入訓練樣本 #####
# 樣本集特征
X_train=pd.read_csv('./final_train.csv',sep='\t',index=None)
# 樣本集標簽
y_train=pd.read_csv('./final_y_train.csv',sep='\t',index=None)

### 匯入演算法模型和評分標準 ####
from sklearn import svm, tree, linear_model, neighbors, naive_bayes, ensemble, discriminant_analysis, gaussian_process
from xgboost import XGBClassifier
#Common Model Helpers
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn import feature_selection
from sklearn import model_selection
from sklearn import metrics
#Visualization
import matplotlib as mpl
import matplotlib.pyplot as plt
import matplotlib.pylab as pylab
import seaborn as sns
from pandas.plotting import scatter_matrix
#Configure Visualization Defaults
#%matplotlib inline = show plots in Jupyter Notebook browser
%matplotlib inline
mpl.style.use('ggplot')
sns.set_style('white')
pylab.rcParams['figure.figsize'] = 12,8

from sklearn.tree import DecisionTreeRegressor
from sklearn.linear_model import LinearRegression, ElasticNet
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import fbeta_score, make_scorer, r2_score ,mean_squared_error
from sklearn.linear_model import Lasso
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.model_selection import KFold, cross_val_score, train_test_split
# 計算平方誤差
def rmsle(y, y_pred):
    return np.sqrt(mean_squared_error(y, y_pred))

# 模型:Xgboost
from sklearn.model_selection import GridSearchCV
best_reg_xgb = XGBRegressor(learning_rate= 0.01, n_estimators = 5000,                  
                max_depth= 4, min_child_weight = 1.5, gamma = 0, 
                subsample = 0.7, colsample_bytree = 0.6, 
                seed = 27)
best_reg_xgb.fit(X_train, y_train)
pred_y_XGB = best_reg_xgb.predict(X_train)

# 
print (rmsle(pred_y_XGB, y_train))

6.小結

本文從目標函式構建、目標函式優化、樹結構資訊表示、樹形狀確定等四部分,對XGBoost演算法框架進行決議,最后,針對XGBoost的常見問題進行小結,通過本文,洞悉XGBoost框架的底層演算法原理,在用戶行為預判、用戶標簽預測、用戶信用評分等資料分析業務中,經常會使用到XGBoost演算法框架,如果對XGBoost演算法原理理解透徹,在實際業務中的模型訓練程序中,有利于較好地理解模型引數,對模型調參程序幫助較大,

對于文章中表述不妥的地方,歡迎私信于我,

參考文章

(1).陳天奇XGBoost演算法原著:https://dl.acm.org/doi/pdf/10.1145/2939672.2939785

(2).20道XGBoost面試題:https://cloud.tencent.com/developer/article/1500914

(3).XGBoost框架Parameters含義:https://xgboost.readthedocs.io/en/latest/parameter.html

(4).XGBoost提升樹官方介紹:https://xgboost.readthedocs.io/en/latest/tutorials/model.html

(5).XGBoost官方論壇:https://discuss.xgboost.ai/

(6).GBDT提升樹官方介紹:https://scikit-learn.org/stable/modules/ensemble.html#gradient-tree-boosting

(7).XGBoost安裝官網說明:https://xgboost.readthedocs.io/en/latest/build.html

(8).Kaggle開源資料:https://www.kaggle.com/c/house-prices-advanced-regression-techniques

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/243257.html

標籤:AI

上一篇:漫畫:一場大會,秀出了中國人自己的作業系統!

下一篇:HTTP面試題

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more