作者|ANKIT GUPTA
編譯|Flin
來源|analyticsvidhya
介紹
機器學習是近來最受歡迎的技能之一,我們組織了各種技能測驗,以便資料科學家可以檢查自己的這些關鍵技能,這些測驗包括機器學習,深度學習,時間序列問題和概率,本文將為機器學習技能測驗提供解決方案,如果你錯過了上述任何一項技能測驗,仍然可以通過下面的鏈接查看問題和答案,
-
機器學習
- https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2
-
深度學習
- https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-deep-learning
-
時間序列問題
- https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-time-series-solution-skillpower-time-series-datafest-2017/
-
概率
- https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-probability-for-all-aspiring-data-scientists
在機器學習技能測驗中,有1350多人報名參加了該測驗,該測驗旨在測驗你是否掌握了機器學習中的概念知識,如果你錯過了實時測驗,仍然可以閱讀本文,并了解如何正確回答這些問題,
這是所有參與者的排行榜排名,
- https://datahack.analyticsvidhya.com/contest/skillpower-machine-learning/#LeaderBoard
這些問題,以及其他數百個問題,都是我們“Ace資料科學訪談”課程(https://courses.analyticsvidhya.com/courses/ace-data-science-interviews) 的一部分,這是一個綜合指南,有大量的資源,如果你剛剛開始你的資料科學之旅,那么看看我們最受歡迎的課程——“資料科學導論”!(https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2)
總分
以下是分布得分,它們將幫助你評估自己的成績,

你可以在此處(https://datahack.analyticsvidhya.com/contest/skillpower-machine-learning/#LeaderBoard) 訪問最終成績,超過210人參加了技能測驗,獲得的最高分是36,以下是有關分數的一些統計資料,
平均得分:19.36
中位數得分:21
模式得分:27
有用的資源
- https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics
- https://courses.analyticsvidhya.com/courses/ace-data-science-interviews
- https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2
- https://www.analyticsvidhya.com/blog/2017/04/comparison-between-deep-learning-machine-learning/
- https://www.analyticsvidhya.com/blog/2015/08/common-machine-learning-algorithms
問題與解決方案
問題背景
特征F1代表大學學生的等級,可以取特定值:A,B,C,D,E和F,
1)在以下情況下,以下哪一項是正確的?
A)特征F1是定類變數的示例,
B)特征F1是定序變數的示例,
C)它不屬于上述任何類別,
D)這兩個都是
解決方案:(B)
定序變數是在其類別中具有某些順序的變數,例如,應將A級視為比B級更高的等級,
2)以下哪個是確定性演算法的示例?
A)PCA
B)K-Means
C)以上都不是
解決方案:(A)
確定性演算法是在不同的運行中,其輸出不會改變的演算法,如果我們再次運行,PCA會給出相同的結果,但K-Means不會,
3) [對或錯]兩個變數之間的皮爾遜相關性為零,但它們的值仍然可以彼此相關,
A)對
B)錯
解決方案:(A)
Y = X2,請注意,它們不僅相關,而且一個變數是另一個變數的函式,并且它們之間的皮爾遜相關性為零,
4)對于梯度下降(GD)和隨機梯度下降(SGD),以下哪個陳述是正確的?
- 在GD和SGD中,你以迭代方式更新一組引數以最小化誤差函式,
- 在SGD中,你必須遍歷訓練集中的所有樣本,才能在每次迭代中一次更新引數,
- 在GD中,你可以使用整個資料或訓練資料的子集在每次迭代中更新引數,
A)僅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1,2和3
解決方案:(A)
在每次迭代的SGD中,通常選擇包含隨機資料樣本的批次,但對于GD,每次迭代均包含所有訓練觀測值,
5)下列哪個超引數增加時,可能會導致隨機森林過度擬合資料?
- 樹數
- 樹深
- 學習率
A)僅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1, 2和3
解決方案:(B)
通常,如果我們增加樹的深度,將導致過度擬合,學習率不是隨機森林中的超引數,樹的數量增加將導致擬合不足,
6)想象一下,你正在使用“ Analytics Vidhya”,并且你想開發一種機器學習演算法,該演算法可以預測文章的觀看次數,
你的分析基于諸如作者姓名,同一位作者過去在Analytics Vidhya上撰寫的文章數之類的特征以及其他一些特征,在這種情況下,你會選擇以下哪個評估指標?
- 均方誤差
- 準確性
- F1分數
A)僅1
B)只有2
C)只有3
D)1和3
E)2和3
F)1和2
解決方案:(A)
可以認為文章的觀看次數是屬于回歸問題的連續目標變數,因此,均方誤差將被用作評估指標,
7)下面給出了三個影像(1,2,3),以下哪個選項對這些影像正確?
A)

B)

C)

A)1是tanh,2是ReLU,3是SIGMOID激活函式,
B)1是SIGMOID,2是ReLU,3是tanh激活函式,
C)1是ReLU,2是tanh,3是SIGMOID激活函式,
D)1是tanh,2是SIGMOID,3是ReLU激活函式,
解決方案:(D)
SIGMOID函式的范圍是[0,1],
tanh函式的范圍是[-1,1],
RELU函式的范圍是[0,infinity],
因此,選項D是正確的答案,
8)以下是訓練檔案中目標變數的8個實際值,
[0,0,0,1,1,1,1,1]
目標變數的熵是多少?
A) -(5/8 log(5/8) + 3/8 log(3/8))
B) 5/8 log(5/8) + 3/8 log(3/8)
C) 3/8 log(5/8) + 5/8 log(3/8)
D) 5/8 log(3/8) – 3/8 log(5/8)
解決方案:(A)
熵的公式是 
所以答案是A,
9)假設你正在使用分類特征,但尚未查看測驗資料中分類變數的分布,你要在分類特征上應用獨熱編碼(OHE),如果將OHE應用于訓練資料集的分類變數,可能會面臨哪些挑戰?
A)分類變數的所有類別都不在測驗資料集中,
B)與測驗資料集相比,類別中的頻率分布在訓練集中有所不同,
C)訓練集和測驗集始終具有相同的分布,
D)A和B
E)這些都不是
解決方案:(D)
兩者都是正確的,OHE將無法對測驗集中存在但不在訓練集中的類別進行編碼,因此這可能是應用OHE時的主要挑戰之一,如果在訓練和測驗中的頻率分布不相同,則選項B中的挑戰也確實存在,你在應用OHE時需要更加小心,
10)Skip gram模型是Word2vec演算法中用于詞嵌入的最佳模型之一,下列哪個模型描述了Skip gram模型?

A)A
B)B
C)A和B
D)這些都不是
解決方案:(B)
Word2vec演算法中使用了兩個模型(model1和model2),model1代表CBOW模型,而Model2代表Skip gram模型,
11)假設你正在神經網路的隱藏層中使用激活函式X,對于任何給定的輸入,在特定的神經元處,你得到的輸出為“ -0.0001”,X可以代表以下哪個激活函式?
A) ReLU
B) tanh
C) SIGMOID
D)這些都不是
解決方案:(B)
該函式為tanh,因為此函式的輸出范圍在(-1,-1)之間,
12) 對數損失評估指標可以具有負值,
A)真
B)假
解決方案:(B)
對數損失不能為負值,
13)關于“Type1”和“Type2”錯誤,以下哪個陳述是正確的?
- Type1被稱為誤報,Type2被稱為漏報,
- Type1被稱為漏報,Type2被稱為誤報,
- 當我們拒絕原假設為空的假設時,就會發生Type1錯誤,
A)僅1
B)只有2
C)只有3
D)1和2
E)1和3
F)2和3
解決方案:(E)
在統計假設檢驗中,I型錯誤是對真實無效假設(“誤報”)的錯誤拒絕,而II型錯誤則是錯誤地保留了虛假假設(“漏報”),
14)以下哪項是對基于NLP的專案中的文本進行預處理的重要步驟之一?
- 詞干提取
- 洗掉停頓詞
- 物件標準化
A)1和2
B)1和3
C)2和3
D)1,2和3
解決方案:(D)
詞干提取是從單詞中去除后綴(“ ing”,“ ly”,“ es”,“ s”等)的基于規則的基本程序,
停頓詞是那些與資料背景關系無關的詞,例如is / am / are,
物件標準化也是預處理文本的好方法之一,
15)假設你要將高維資料投影到低維,此處使用的兩種最著名的降維演算法是PCA和t-SNE,假設你分別對資料“ X”應用了這兩種演算法,并且獲得了資料集“ X_projected_PCA”,“ X_projected_tSNE”,
對于“ X_projected_PCA”和“ X_projected_tSNE”,以下哪種說法正確?
A)X_projected_PCA將在最近鄰空間中進行解釋,
B)X_projected_tSNE將在最近鄰空間中進行解釋,
C)兩者都將在最近鄰空間中進行解釋,
D)他們都不會在最近鄰空間進行解釋,
解決方案:(B)
t-SNE演算法考慮最近鄰點以減少資料的維數,因此,在使用t-SNE之后,我們可以認為縮小的維數也將在最近鄰空間中得到解釋,但是對于PCA則不是這樣,
問題:16-17
下面給出的是兩個特征的三個散點圖,

16)在上圖中,以下哪個是多重共線特征的示例?
A)圖片1中的函式
B)圖片2中的函式
C)圖片3中的函式
D)圖片1和2中的函式
E)圖片2和3中的函式
F)圖片3和1中的函式
解決方案:(D)
在影像1中,特征具有高正相關性,而在影像2中,特征之間具有高負相關性,因此在兩個影像中,特征對都是多重共線特征的示例,
17)在上一個問題中,假設你已確定多重共線特征,你接下來要執行以下哪個操作?
- 洗掉兩個共線變數,
- 洗掉兩個共線變數中的一個變數,
- 洗掉相關變數可能會導致資訊丟失,為了保留這些變數,我們可以使用懲罰回歸模型,例如嶺回歸或套索回歸,
A)僅1
B)僅2
C)僅3
D)1或3
E)2或3
解決方案:(E)
你不能同時洗掉這兩個特征,因為在洗掉這兩個特征之后,你將丟失所有資訊,因此你應該洗掉僅一個特征,或者可以使用L1和L2等正則化演算法,
18)將不重要的特征添加到線性回歸模型中可能會導致___,
- R平方增加
- R平方減少
A)只有1正確
B)只有2正確
C)1或2
D)這些都不是
解決方案:(A)
在特征空間中添加特征后,無論該特征是重要特征還是不重要特征,R平方始侄訓增加,
19)假設給定三個變數X,Y和Z,(X,Y),(Y,Z)和(X,Z)的皮爾遜相關系數分別為C1,C2和C3,
現在,你在X的所有值中加了2(即新值變為X + 2),從Y的所有值中減去了2(即新值是Y-2),Z保持不變,(X,Y),(Y,Z)和(X,Z)的新系數分別由D1,D2和D3給出,D1,D2和D3的值與C1,C2和C3有什么關系?
A)D1 = C1,D2 < C2,D3 > C3
B)D1 = C1,D2 > C2,D3 > C3
C)D1 = C1,D2 > C2,D3 < C3
D)D1 = C1,D2 < C2,D3 < C3
E)D1 = C1,D2 = C2,D3 = C3
F)無法確定
解決方案:(E)
如果你在特征中添加或減去一個值,則特征之間的相關性不會改變,
20)想象一下,你正在解決類別高度不平衡的分類問題,在訓練資料中,大多數類別有99%的時間被觀察到,
對測驗資料進行預測后,你的模型具有99%的準確性,在這種情況下,以下哪一項是正確的?
- 對于類別不平衡問題,準確性度量不是一個好主意,
- 精度度量是解決類別不平衡問題的一個好主意,
- 準確性和召回率指標對于解決類別不平衡問題很有用,
- 精度和召回率指標不適用于類別不平衡問題,
A)1和3
B)1和4
C)2和3
D)2和4
解決方案:(A)
參考本文中的問題4,
- https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/
21)在集成學習中,你匯總了弱學習模型的預測,因此與單個模型的預測相比,這些模型的集成將提供更好的預測,
對于集成模型中使用的弱學習模型,以下哪個陳述是正確的?
- 他們通常不會過擬合,
- 他們有很高的偏差,所以不能解決復雜的學習問題
- 他們通常過擬合,
A)1和2
B)1和3
C)2和3
D)僅1
E)只有2
F)以上都不是
解決方案:(A)
弱學習模型會確定問題的特定部分,因此,他們通常不會過擬合,這意味著學習能力弱的學習模型具有較低的方差和較高的偏差,
22)對于 K-fold 交叉驗證,以下哪個選項是正確的?
- K的增加將導致交叉驗證結果所需的時間更長,
- 與較低的K值相比,較高的K值將導致交叉驗證結果的置信度較高,
- 如果K = N,則稱為“留一法(交叉驗證法)”,其中N是觀察數,
A)1和2
B)2和3
C)1和3
D)1,2和3
解決方案:(D)
k值越大,意味著對高估真實預期誤差的偏差就越小(因為訓練倍數將更接近于總資料集),而運行時間則更長(隨著你越來越接近極限情況:留一法交叉驗證),選擇k時,我們還需要考慮k倍精度之間的方差,
問題背景關系23-24
交叉驗證是機器學習中超引數調整的重要步驟,假設你正在通過使用5折交叉驗證從基于樹的模型的10個不同深度值(值大于2)中選擇GBM來調整GBM的超引數“max_depth”,
一個演算法(在最大深度為2的模型上)4折的訓練時間是10秒,剩下1折的預測時間是2秒,
注意:公式中忽略硬體依賴性,
23)對于具有10個不同“max_depth”值的5折交叉驗證的總體執行時間,以下哪個選項是正確的?
A)少于100秒
B)100 – 300秒
C)300 – 600秒
D)大于或等于600秒
E)以上都不是
F)無法估算
解決方案:(D)
5折交叉驗證中深度“2”的每次迭代將花費10秒進行訓練,而測驗則需要2秒,
因此,5折將花費12 * 5 = 60秒,由于我們正在搜索10個深度值,因此該演算法將花費60 * 10 = 600秒,
但是,在深度大于2的情況下訓練和測驗模型所花費的時間將比深度為“2”花費更多的時間,因此總體計時將大于600秒,
24)在上一個問題中,如果你訓練相同的演算法來調整2個超引數,比如“最大深度”和“學習率”,
你想針對最大深度(從給定的10個深度值)和學習率(從給定的5個不同的學習率)中選擇正確的值,在這種情況下,以下哪項將代表總時間?
A)1000-1500秒
B)1500-3000秒
C)大于或等于3000秒
D)這些都不是
解決方案:(D)
與問題23相同,
25)下面給出了針對機器學習演算法M1的訓練誤差TE和驗證誤差VE的方案,你要基于TE和VE選擇一個超引數(H),
| H | TE | VE |
|---|---|---|
| 1個 | 105 | 90 |
| 2 | 200 | 85 |
| 3 | 250 | 96 |
| 4 | 105 | 85 |
| 5 | 300 | 100 |
你將根據上表選擇哪個H值?
解決方案:(D)
根據表格,選擇D是最好的
26)你將在PCA中做什么以得到與SVD相同的預測?
A)將資料轉換為均值零
B)將資料轉換為中位數零
C)不可能
D)這些都不是
解決方案:(A)
當資料的平均值為零時,向量PCA的預測將與SVD相同,否則,在獲取SVD之前必須先將資料居中,
問題27-28
假設有一個黑盒演算法,該演算法使用具有多個觀測值(t1,t2,t3,……..tn)和一個新觀測值(q1)的訓練資料,黑盒輸出q1的最近鄰(例如ti)及其對應的類別標簽ci,
你還可以認為該黑盒演算法與1-NN(1-最近鄰)相同,
27)可以僅基于此黑盒演算法來構造k-NN分類演算法,
注意:與k相比,n(訓練觀測值的數量)非常大,
A)真
B)假
解決方案:(A)
第一步,你在黑盒演算法中傳遞了一個觀察值(q1),因此該演算法將回傳最近鄰的觀察值及其類標簽,
在第二步中,你將其從訓練資料中選出最接近的觀測值,然后再次輸入觀測值(q1),黑盒演算法將再次回傳最近鄰觀測值及其類標簽,
你需要重復此程序k次
28)我們不想使用1-NN黑盒,而是要使用j-NN(j> 1)演算法作為黑盒,對于使用j-NN查找k-NN,以下哪個選項是正確的?
- J必須是k的適當因子
- J > k
- 不可能
A)1
B)2
C)3
解決方案:(A)
與問題27相同
29)假設你得到7個散點圖1-7(從左到右),并且你想比較每個散點圖變數之間的皮爾遜相關系數,
以下哪項是正確的順序?

- 1 < 2 < 3 <4
- 1 > 2 > 3 > 4
- 7 < 6 < 5 <4
- 7 > 6 > 5 > 4
A)1和3
B)2和3
C)1和4
D)2和4
解決方案:(B)
從影像1到4的相關性正在降低(絕對值),但是從影像4到7,相關性在增加,但其相關性值是負數(例如0,-0.3,-0.7,-0.99),
30)你可以使用不同的指標(例如準確性,對數損失,F分數)來評估二進制分類問題的性能,假設你正在使用對數損失函式作為評估指標,對于將對數損失解釋為評估指標,以下哪個選項是正確的?

如果分類器對錯誤分類有信心,那么對數損失會對其進行嚴厲懲罰,- 對于特定的觀察結果,分類器為正確的類別分配了很小的概率,那么對數損失的相應貢獻將非常大,
- 對數損失越低,模型越好,
A)1和3
B)2和3
C)1和2
D)1,2和3
解決方案:(D)
問題31-32
以下是資料集中給出的五個樣本,

注意:影像中各點之間的視覺距離代表實際距離,
31)以下哪項是3-NN(3個最近鄰)的留一法交叉驗證準確性?
A)0
D)0.4
C)0.8
D)1
解決方案:(C)
在“留一法”交叉驗證中,我們將選擇(n-1)個用于訓練的觀察值和1個驗證觀察值,將每個點視為交叉驗證點,然后找到該點最近的3個點,
因此,如果你對所有的點重復這個程序,你將得到正確的分類,所有正類在上圖中給出,但負類將被錯誤分類,因此你將得到80%的準確率,
32)以下K值中,哪一個具有最小的留一法交叉驗證精度?
A)1NN
B)3NN
C)4NN
D)都有相同的留一法錯誤
解決方案:(A)
每個點在1-NN中將始終被錯誤分類,這意味著你將獲得0%的精度,
33)假設你獲得了以下資料,并且你想應用邏輯回歸模型將其分類為兩個給定的類,

你正在使用具有L1正則化的邏輯回歸,

其中C是正則化引數,w1和w2是x1和x2的系數,
當你將C的值從零增加到非常大的值時,以下哪個選項是正確的?
A)首先w2變為零,然后w1變為零
B)首先w1變為零,然后w2變為零
C)兩者同時變為零
D)即使C值很大,兩者也不能為零
解決方案:(B)
通過查看影像,我們發現即使僅使用x2,我們也可以有效地執行分類,因此,首先,w1將變為0,隨著正則化引數的增加,w2將越來越接近于0,
34)假設我們有一個資料集,該資料集可以在深度為6的決策樹的幫助下以100%的精度進行訓練,現在考慮下面這些點,并根據這些點選擇選項,
注意:所有其他超級引數相同,其他因素不受影響,
1. 深度4將具有高偏差和低方差
2. 深度4將具有低偏差和低方差
A)僅1
B)只有2
C)1和2
D)以上都不是
解決方案:(A)
如果此類資料適合深度為4的決策樹,則可能會導致資料擬合不足,因此,在擬合不足的情況下,將具有較高的偏差和較低的方差,
35)以下哪些選項可用于獲取k-Means演算法的全域最小值?
1. 嘗試運行用于不同質心初始化的演算法
2. 調整迭代次數
3. 找出最佳集群數
A)2和3
B)1和3
C)1和2
D)以上
解決方案:(D)
可以調整所有選項以找到全域最小值,
36)假設你正在開發一個專案,該專案是二進制分類問題,你在訓練資料集上訓練了模型,并在驗證資料集上獲得了以下混淆矩陣,

根據上述混淆矩陣,選擇以下哪個選項可以為你提供正確的預測?
1. 準確度約為0.91
2. 錯誤分類率約為0.91
3. 誤報率約為0.95
4. 真陽率為?0.95
A)1和3
B)2和4
C)1和4
D)2和3
解決方案:(C)
準確性(正確分類)是(50 + 100)/ 165,幾乎等于0.91,
真陽率是你正確預測陽性分類的次數,因此真陽率將為100/105 = 0.95,也稱為“敏感度”或“召回率”
37)對于以下哪個超引數,決策樹演算法的值越高越好?
1. 用于拆分的樣本數
2. 樹的深度
3. 葉子節點樣本數
A)1和2
B)2和3
C)1和3
D)1、2和3
E)不能判斷
解決方案:(E)
對于所有三個選項A,B和C,沒有必要增加引數的值來提高性能,例如,如果我們具有非常高的樹深度值,則生成的樹可能會使資料過擬合,并且不能很好地泛化使用,另一方面,如果我們的值很低,則樹可能不足以容納資料,因此,我們不能肯定地說“越高越好”,
問題38-39
想象一下,你有一個28 * 28的影像,并且在其上運行了3 * 3的卷積神經網路,輸入深度為3,輸出深度為8,
注意:“步幅”為1,并且你使用的是相同的填充,
38)使用給定引數時,輸出特征圖的尺寸是多少?
A)寬度28,高度28和深度8
B)寬度13,高度13和深度8
C)寬度28,高度13和深度8
D)寬度13,高度28和深度8
解決方案:(A)
計算輸出大小的公式是
輸出尺寸=(N – F)/ S + 1
其中,N是輸入大小,F是過濾器大小,S是跨度,
閱讀本文以獲得更好的理解,
- https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/
39)使用以下引數時,輸出特征圖的尺寸是多少?
A)寬度28,高度28和深度8
B)寬度13,高度13和深度8
C)寬度28,高度13和深度8
D)寬度13,高度28和深度8
解決方案:(B)
同上題,
40)假設,我們正在繪制SVM演算法中不同C值(懲罰引數)的可視化圖,由于某些原因,我們忘記了用可視化標記C值,在這種情況下,對于徑向基函式核,以下哪個選項最能說明以下影像的C值?
(從左到右為1,2,3,所以C值對于image1為C1,對于image2為C2,對于image3為C3),

A)C1 = C2 = C3
B)C1 > C2 > C3
C)C1 < C2 < C3
D)這些都不是
解決方案:(C)
誤差項的懲罰引數C,它還控制平滑決策邊界和正確分類訓練點之間的權衡,對于較大的C值,將選擇邊距較小的超平面進行優化,
在這里閱讀更多:https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/
原文鏈接:https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-machine-learning-solution-skillpower-machine-learning-datafest-2017/
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方檔案:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/131587.html
標籤:其他
