測驗資料科學家進行機器學習的40個問題-有解無憂

作者|ANKIT GUPTA
編譯|Flin
來源|analyticsvidhya

介紹

機器學習是近來最受歡迎的技能之一，我們組織了各種技能測驗，以便資料科學家可以檢查自己的這些關鍵技能，這些測驗包括機器學習，深度學習，時間序列問題和概率，本文將為機器學習技能測驗提供解決方案，如果你錯過了上述任何一項技能測驗，仍然可以通過下面的鏈接查看問題和答案，

機器學習
- https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2
深度學習
- https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-deep-learning
時間序列問題
- https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-time-series-solution-skillpower-time-series-datafest-2017/
概率
- https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-probability-for-all-aspiring-data-scientists

在機器學習技能測驗中，有1350多人報名參加了該測驗，該測驗旨在測驗你是否掌握了機器學習中的概念知識，如果你錯過了實時測驗，仍然可以閱讀本文，并了解如何正確回答這些問題，

這是所有參與者的排行榜排名，

https://datahack.analyticsvidhya.com/contest/skillpower-machine-learning/#LeaderBoard

這些問題，以及其他數百個問題，都是我們“Ace資料科學訪談”課程（https://courses.analyticsvidhya.com/courses/ace-data-science-interviews）的一部分，這是一個綜合指南，有大量的資源，如果你剛剛開始你的資料科學之旅，那么看看我們最受歡迎的課程——“資料科學導論”！（https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2）

總分

以下是分布得分，它們將幫助你評估自己的成績，

你可以在此處（https://datahack.analyticsvidhya.com/contest/skillpower-machine-learning/#LeaderBoard）訪問最終成績，超過210人參加了技能測驗，獲得的最高分是36，以下是有關分數的一些統計資料，

平均得分：19.36

中位數得分：21

模式得分：27

有用的資源

https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics
https://courses.analyticsvidhya.com/courses/ace-data-science-interviews
https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2
https://www.analyticsvidhya.com/blog/2017/04/comparison-between-deep-learning-machine-learning/
https://www.analyticsvidhya.com/blog/2015/08/common-machine-learning-algorithms

問題與解決方案

問題背景

特征F1代表大學學生的等級，可以取特定值：A，B，C，D，E和F，

1）在以下情況下，以下哪一項是正確的？

A）特征F1是定類變數的示例，
B）特征F1是定序變數的示例，
C）它不屬于上述任何類別，
D）這兩個都是

解決方案：（B）

定序變數是在其類別中具有某些順序的變數，例如，應將A級視為比B級更高的等級，

2）以下哪個是確定性演算法的示例？

A）PCA

B）K-Means

C）以上都不是

解決方案：（A）

確定性演算法是在不同的運行中，其輸出不會改變的演算法，如果我們再次運行，PCA會給出相同的結果，但K-Means不會，

3) [對或錯]兩個變數之間的皮爾遜相關性為零，但它們的值仍然可以彼此相關，

A）對

B）錯

解決方案：（A）

Y = X2，請注意，它們不僅相關，而且一個變數是另一個變數的函式，并且它們之間的皮爾遜相關性為零，

4）對于梯度下降（GD）和隨機梯度下降（SGD），以下哪個陳述是正確的？

在GD和SGD中，你以迭代方式更新一組引數以最小化誤差函式，
在SGD中，你必須遍歷訓練集中的所有樣本，才能在每次迭代中一次更新引數，
在GD中，你可以使用整個資料或訓練資料的子集在每次迭代中更新引數，

A）僅1

B）只有2

C）只有3

D）1和2

E）2和3

F）1,2和3

解決方案：（A）

在每次迭代的SGD中，通常選擇包含隨機資料樣本的批次，但對于GD，每次迭代均包含所有訓練觀測值，

5）下列哪個超引數增加時，可能會導致隨機森林過度擬合資料？

樹數
樹深
學習率

A）僅1

B）只有2

C）只有3

D）1和2

E）2和3

F）1, 2和3

解決方案：（B）

通常，如果我們增加樹的深度，將導致過度擬合，學習率不是隨機森林中的超引數，樹的數量增加將導致擬合不足，

6）想象一下，你正在使用“ Analytics Vidhya”，并且你想開發一種機器學習演算法，該演算法可以預測文章的觀看次數，

你的分析基于諸如作者姓名，同一位作者過去在Analytics Vidhya上撰寫的文章數之類的特征以及其他一些特征，在這種情況下，你會選擇以下哪個評估指標？

均方誤差
準確性
F1分數

A）僅1

B）只有2

C）只有3

D）1和3

E）2和3

F）1和2

解決方案：（A）

可以認為文章的觀看次數是屬于回歸問題的連續目標變數，因此，均方誤差將被用作評估指標，

7）下面給出了三個影像（1,2,3），以下哪個選項對這些影像正確？

A）1是tanh，2是ReLU，3是SIGMOID激活函式，

B）1是SIGMOID，2是ReLU，3是tanh激活函式，

C）1是ReLU，2是tanh，3是SIGMOID激活函式，

D）1是tanh，2是SIGMOID，3是ReLU激活函式，

解決方案：（D）

SIGMOID函式的范圍是[0,1]，

tanh函式的范圍是[-1,1]，

RELU函式的范圍是[0，infinity]，

因此，選項D是正確的答案，

8）以下是訓練檔案中目標變數的8個實際值，

[0,0,0,1,1,1,1,1]

目標變數的熵是多少？

A) -(5/8 log(5/8) + 3/8 log(3/8))

B) 5/8 log(5/8) + 3/8 log(3/8)

C) 3/8 log(5/8) + 5/8 log(3/8)

D) 5/8 log(3/8) – 3/8 log(5/8)

解決方案：（A）

熵的公式是

所以答案是A，

9）假設你正在使用分類特征，但尚未查看測驗資料中分類變數的分布，你要在分類特征上應用獨熱編碼（OHE），如果將OHE應用于訓練資料集的分類變數，可能會面臨哪些挑戰？

A）分類變數的所有類別都不在測驗資料集中，

B）與測驗資料集相比，類別中的頻率分布在訓練集中有所不同，

C）訓練集和測驗集始終具有相同的分布，

D）A和B

E）這些都不是

解決方案：（D）

兩者都是正確的，OHE將無法對測驗集中存在但不在訓練集中的類別進行編碼，因此這可能是應用OHE時的主要挑戰之一，如果在訓練和測驗中的頻率分布不相同，則選項B中的挑戰也確實存在，你在應用OHE時需要更加小心，

10）Skip gram模型是Word2vec演算法中用于詞嵌入的最佳模型之一，下列哪個模型描述了Skip gram模型？

A）A

B）B

C）A和B

D）這些都不是

解決方案：（B）

Word2vec演算法中使用了兩個模型（model1和model2），model1代表CBOW模型，而Model2代表Skip gram模型，

11）假設你正在神經網路的隱藏層中使用激活函式X，對于任何給定的輸入，在特定的神經元處，你得到的輸出為“ -0.0001”，X可以代表以下哪個激活函式？

A) ReLU

B) tanh

C) SIGMOID

D）這些都不是

解決方案：（B）

該函式為tanh，因為此函式的輸出范圍在（-1，-1）之間，

12）對數損失評估指標可以具有負值，

A）真
B）假

解決方案：（B）

對數損失不能為負值，

13）關于“Type1”和“Type2”錯誤，以下哪個陳述是正確的？

Type1被稱為誤報，Type2被稱為漏報，
Type1被稱為漏報，Type2被稱為誤報，
當我們拒絕原假設為空的假設時，就會發生Type1錯誤，

A）僅1

B）只有2

C）只有3

D）1和2

E）1和3

F）2和3

解決方案：（E）

在統計假設檢驗中，I型錯誤是對真實無效假設（“誤報”）的錯誤拒絕，而II型錯誤則是錯誤地保留了虛假假設（“漏報”），

14）以下哪項是對基于NLP的專案中的文本進行預處理的重要步驟之一？

詞干提取
洗掉停頓詞
物件標準化

A）1和2

B）1和3

C）2和3

D）1,2和3

解決方案：（D）

詞干提取是從單詞中去除后綴（“ ing”，“ ly”，“ es”，“ s”等）的基于規則的基本程序，

停頓詞是那些與資料背景關系無關的詞，例如is / am / are，

物件標準化也是預處理文本的好方法之一，

15）假設你要將高維資料投影到低維，此處使用的兩種最著名的降維演算法是PCA和t-SNE，假設你分別對資料“ X”應用了這兩種演算法，并且獲得了資料集“ X_projected_PCA”，“ X_projected_tSNE”，

對于“ X_projected_PCA”和“ X_projected_tSNE”，以下哪種說法正確？

A）X_projected_PCA將在最近鄰空間中進行解釋，

B）X_projected_tSNE將在最近鄰空間中進行解釋，

C）兩者都將在最近鄰空間中進行解釋，

D）他們都不會在最近鄰空間進行解釋，

解決方案：（B）

t-SNE演算法考慮最近鄰點以減少資料的維數，因此，在使用t-SNE之后，我們可以認為縮小的維數也將在最近鄰空間中得到解釋，但是對于PCA則不是這樣，

問題：16-17

下面給出的是兩個特征的三個散點圖，

16）在上圖中，以下哪個是多重共線特征的示例？

A）圖片1中的函式

B）圖片2中的函式

C）圖片3中的函式

D）圖片1和2中的函式

E）圖片2和3中的函式

F）圖片3和1中的函式

解決方案：（D）

在影像1中，特征具有高正相關性，而在影像2中，特征之間具有高負相關性，因此在兩個影像中，特征對都是多重共線特征的示例，

17）在上一個問題中，假設你已確定多重共線特征，你接下來要執行以下哪個操作？

洗掉兩個共線變數，
洗掉兩個共線變數中的一個變數，
洗掉相關變數可能會導致資訊丟失，為了保留這些變數，我們可以使用懲罰回歸模型，例如嶺回歸或套索回歸，

A）僅1

B）僅2

C）僅3

D）1或3

E）2或3

解決方案：（E）

你不能同時洗掉這兩個特征，因為在洗掉這兩個特征之后，你將丟失所有資訊，因此你應該洗掉僅一個特征，或者可以使用L1和L2等正則化演算法，

18）將不重要的特征添加到線性回歸模型中可能會導致___，

R平方增加
R平方減少

A）只有1正確

B）只有2正確

C）1或2

D）這些都不是

解決方案：（A）

在特征空間中添加特征后，無論該特征是重要特征還是不重要特征，R平方始侄訓增加，

19）假設給定三個變數X，Y和Z，（X，Y），（Y，Z）和（X，Z）的皮爾遜相關系數分別為C1，C2和C3，

現在，你在X的所有值中加了2（即新值變為X + 2），從Y的所有值中減去了2（即新值是Y-2），Z保持不變，（X，Y），（Y，Z）和（X，Z）的新系數分別由D1，D2和D3給出，D1，D2和D3的值與C1，C2和C3有什么關系？

A）D1 = C1，D2 < C2，D3 > C3

B）D1 = C1，D2 > C2，D3 > C3

C）D1 = C1，D2 > C2，D3 < C3

D）D1 = C1，D2 < C2，D3 < C3

E）D1 = C1，D2 = C2，D3 = C3

F）無法確定

解決方案：（E）

如果你在特征中添加或減去一個值，則特征之間的相關性不會改變，

20）想象一下，你正在解決類別高度不平衡的分類問題，在訓練資料中，大多數類別有99％的時間被觀察到，

對測驗資料進行預測后，你的模型具有99％的準確性，在這種情況下，以下哪一項是正確的？

對于類別不平衡問題，準確性度量不是一個好主意，
精度度量是解決類別不平衡問題的一個好主意，
準確性和召回率指標對于解決類別不平衡問題很有用，
精度和召回率指標不適用于類別不平衡問題，

A）1和3

B）1和4

C）2和3

D）2和4

解決方案：（A）

參考本文中的問題4，

https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/

21）在集成學習中，你匯總了弱學習模型的預測，因此與單個模型的預測相比，這些模型的集成將提供更好的預測，

對于集成模型中使用的弱學習模型，以下哪個陳述是正確的？

他們通常不會過擬合，
他們有很高的偏差，所以不能解決復雜的學習問題
他們通常過擬合，

A）1和2

B）1和3

C）2和3

D）僅1

E）只有2

F）以上都不是

解決方案：（A）

弱學習模型會確定問題的特定部分，因此，他們通常不會過擬合，這意味著學習能力弱的學習模型具有較低的方差和較高的偏差，

22）對于 K-fold 交叉驗證，以下哪個選項是正確的？

K的增加將導致交叉驗證結果所需的時間更長，
與較低的K值相比，較高的K值將導致交叉驗證結果的置信度較高，
如果K = N，則稱為“留一法(交叉驗證法）”，其中N是觀察數，

A）1和2

B）2和3

C）1和3

D）1,2和3

解決方案：（D）

k值越大，意味著對高估真實預期誤差的偏差就越小（因為訓練倍數將更接近于總資料集），而運行時間則更長（隨著你越來越接近極限情況：留一法交叉驗證），選擇k時，我們還需要考慮k倍精度之間的方差，

問題背景關系23-24

交叉驗證是機器學習中超引數調整的重要步驟，假設你正在通過使用5折交叉驗證從基于樹的模型的10個不同深度值（值大于2）中選擇GBM來調整GBM的超引數“max_depth”，
一個演算法（在最大深度為2的模型上）4折的訓練時間是10秒，剩下1折的預測時間是2秒，
注意：公式中忽略硬體依賴性，

23）對于具有10個不同“max_depth”值的5折交叉驗證的總體執行時間，以下哪個選項是正確的？

A）少于100秒

B）100 – 300秒

C）300 – 600秒

D）大于或等于600秒

E）以上都不是

F）無法估算

解決方案：（D）

5折交叉驗證中深度“2”的每次迭代將花費10秒進行訓練，而測驗則需要2秒，

因此，5折將花費12 * 5 = 60秒，由于我們正在搜索10個深度值，因此該演算法將花費60 * 10 = 600秒，

但是，在深度大于2的情況下訓練和測驗模型所花費的時間將比深度為“2”花費更多的時間，因此總體計時將大于600秒，

24）在上一個問題中，如果你訓練相同的演算法來調整2個超引數，比如“最大深度”和“學習率”，

你想針對最大深度（從給定的10個深度值）和學習率（從給定的5個不同的學習率）中選擇正確的值，在這種情況下，以下哪項將代表總時間？

A）1000-1500秒

B）1500-3000秒

C）大于或等于3000秒

D）這些都不是

解決方案：（D）

與問題23相同，

25）下面給出了針對機器學習演算法M1的訓練誤差TE和驗證誤差VE的方案，你要基于TE和VE選擇一個超引數（H），

H	TE	VE
1個	105	90
2	200	85
3	250	96
4	105	85
5	300	100

你將根據上表選擇哪個H值？

解決方案：（D）

根據表格，選擇D是最好的

26）你將在PCA中做什么以得到與SVD相同的預測？

A）將資料轉換為均值零

B）將資料轉換為中位數零

C）不可能

D）這些都不是

解決方案：（A）

當資料的平均值為零時，向量PCA的預測將與SVD相同，否則，在獲取SVD之前必須先將資料居中，

問題27-28

假設有一個黑盒演算法，該演算法使用具有多個觀測值（t1，t2，t3，……..tn）和一個新觀測值（q1）的訓練資料，黑盒輸出q1的最近鄰（例如ti）及其對應的類別標簽ci，

你還可以認為該黑盒演算法與1-NN（1-最近鄰）相同，

27）可以僅基于此黑盒演算法來構造k-NN分類演算法，

注意：與k相比，n（訓練觀測值的數量）非常大，

A）真

B）假

解決方案：（A）

第一步，你在黑盒演算法中傳遞了一個觀察值（q1），因此該演算法將回傳最近鄰的觀察值及其類標簽，

在第二步中，你將其從訓練資料中選出最接近的觀測值，然后再次輸入觀測值（q1），黑盒演算法將再次回傳最近鄰觀測值及其類標簽，

你需要重復此程序k次

28）我們不想使用1-NN黑盒，而是要使用j-NN（j> 1）演算法作為黑盒，對于使用j-NN查找k-NN，以下哪個選項是正確的？

J必須是k的適當因子
J > k
不可能

A）1

B）2

C）3

解決方案：（A）

與問題27相同

29）假設你得到7個散點圖1-7（從左到右），并且你想比較每個散點圖變數之間的皮爾遜相關系數，

以下哪項是正確的順序？

1 < 2 < 3 <4
1 > 2 > 3 > 4
7 < 6 < 5 <4
7 > 6 > 5 > 4

A）1和3

B）2和3

C）1和4

D）2和4

解決方案：（B）

從影像1到4的相關性正在降低（絕對值），但是從影像4到7，相關性在增加，但其相關性值是負數（例如0，-0.3，-0.7，-0.99），

30）你可以使用不同的指標（例如準確性，對數損失，F分數）來評估二進制分類問題的性能，假設你正在使用對數損失函式作為評估指標，對于將對數損失解釋為評估指標，以下哪個選項是正確的？

如果分類器對錯誤分類有信心，那么對數損失會對其進行嚴厲懲罰，
對于特定的觀察結果，分類器為正確的類別分配了很小的概率，那么對數損失的相應貢獻將非常大，
對數損失越低，模型越好，

A）1和3

B）2和3

C）1和2

D）1,2和3

解決方案：（D）

問題31-32

以下是資料集中給出的五個樣本，

注意：影像中各點之間的視覺距離代表實際距離，

31）以下哪項是3-NN（3個最近鄰）的留一法交叉驗證準確性？

A）0

D）0.4

C）0.8

D）1

解決方案：（C）

在“留一法”交叉驗證中，我們將選擇（n-1）個用于訓練的觀察值和1個驗證觀察值，將每個點視為交叉驗證點，然后找到該點最近的3個點，

因此，如果你對所有的點重復這個程序，你將得到正確的分類，所有正類在上圖中給出，但負類將被錯誤分類，因此你將得到80%的準確率，

32）以下K值中，哪一個具有最小的留一法交叉驗證精度？

A）1NN

B）3NN

C）4NN

D）都有相同的留一法錯誤

解決方案：（A）

每個點在1-NN中將始終被錯誤分類，這意味著你將獲得0％的精度，

33）假設你獲得了以下資料，并且你想應用邏輯回歸模型將其分類為兩個給定的類，

你正在使用具有L1正則化的邏輯回歸，

其中C是正則化引數，w1和w2是x1和x2的系數，

當你將C的值從零增加到非常大的值時，以下哪個選項是正確的？

A）首先w2變為零，然后w1變為零

B）首先w1變為零，然后w2變為零

C）兩者同時變為零

D）即使C值很大，兩者也不能為零

解決方案：（B）

通過查看影像，我們發現即使僅使用x2，我們也可以有效地執行分類，因此，首先，w1將變為0，隨著正則化引數的增加，w2將越來越接近于0，

34）假設我們有一個資料集，該資料集可以在深度為6的決策樹的幫助下以100％的精度進行訓練，現在考慮下面這些點，并根據這些點選擇選項，

注意：所有其他超級引數相同，其他因素不受影響，

1. 深度4將具有高偏差和低方差

2. 深度4將具有低偏差和低方差

A）僅1

B）只有2

C）1和2

D）以上都不是

解決方案：（A）

如果此類資料適合深度為4的決策樹，則可能會導致資料擬合不足，因此，在擬合不足的情況下，將具有較高的偏差和較低的方差，

35）以下哪些選項可用于獲取k-Means演算法的全域最小值？

1. 嘗試運行用于不同質心初始化的演算法

2. 調整迭代次數

3. 找出最佳集群數

A）2和3

B）1和3

C）1和2

D）以上

解決方案：（D）

可以調整所有選項以找到全域最小值，

36）假設你正在開發一個專案，該專案是二進制分類問題，你在訓練資料集上訓練了模型，并在驗證資料集上獲得了以下混淆矩陣，

根據上述混淆矩陣，選擇以下哪個選項可以為你提供正確的預測？

1. 準確度約為0.91

2. 錯誤分類率約為0.91

3. 誤報率約為0.95

4. 真陽率為?0.95

A）1和3

B）2和4

C）1和4

D）2和3

解決方案：（C）

準確性（正確分類）是（50 + 100）/ 165，幾乎等于0.91，

真陽率是你正確預測陽性分類的次數，因此真陽率將為100/105 = 0.95，也稱為“敏感度”或“召回率”

37）對于以下哪個超引數，決策樹演算法的值越高越好？

1. 用于拆分的樣本數

2. 樹的深度

3. 葉子節點樣本數

A）1和2

B）2和3

C）1和3

D）1、2和3

E）不能判斷

解決方案：（E）

對于所有三個選項A，B和C，沒有必要增加引數的值來提高性能，例如，如果我們具有非常高的樹深度值，則生成的樹可能會使資料過擬合，并且不能很好地泛化使用，另一方面，如果我們的值很低，則樹可能不足以容納資料，因此，我們不能肯定地說“越高越好”，

問題38-39

想象一下，你有一個28 * 28的影像，并且在其上運行了3 * 3的卷積神經網路，輸入深度為3，輸出深度為8，

注意：“步幅”為1，并且你使用的是相同的填充，

38）使用給定引數時，輸出特征圖的尺寸是多少？

A）寬度28，高度28和深度8

B）寬度13，高度13和深度8

C）寬度28，高度13和深度8

D）寬度13，高度28和深度8

解決方案：（A）

計算輸出大小的公式是

輸出尺寸=（N – F）/ S + 1

其中，N是輸入大小，F是過濾器大小，S是跨度，

閱讀本文以獲得更好的理解，

https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/

39）使用以下引數時，輸出特征圖的尺寸是多少？

A）寬度28，高度28和深度8

B）寬度13，高度13和深度8

C）寬度28，高度13和深度8

D）寬度13，高度28和深度8

解決方案：（B）

同上題，

40）假設，我們正在繪制SVM演算法中不同C值（懲罰引數）的可視化圖，由于某些原因，我們忘記了用可視化標記C值，在這種情況下，對于徑向基函式核，以下哪個選項最能說明以下影像的C值？

（從左到右為1,2,3，所以C值對于image1為C1，對于image2為C2，對于image3為C3），

A）C1 = C2 = C3

B）C1 > C2 > C3

C）C1 < C2 < C3

D）這些都不是

解決方案：（C）

誤差項的懲罰引數C，它還控制平滑決策邊界和正確分類訓練點之間的權衡，對于較大的C值，將選擇邊距較小的超平面進行優化，

在這里閱讀更多：https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/

原文鏈接：https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-machine-learning-solution-skillpower-machine-learning-datafest-2017/

歡迎關注磐創AI博客站：
http://panchuang.net/

sklearn機器學習中文官方檔案：
http://sklearn123.com/

歡迎關注磐創博客資源匯總站：
http://docs.panchuang.net/

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/131587.html

標籤：其他

上一篇：電腦知識：很多網站都支持第三方授權登錄，這究竟是怎么一回事？

下一篇：測驗使用K-最近鄰（kNN）演算法的30個問題

測驗資料科學家進行機器學習的40個問題

介紹

總分

有用的資源

問題與解決方案

問題背景

特征F1代表大學學生的等級，可以取特定值：A，B，C，D，E和F，

1）在以下情況下，以下哪一項是正確的？

2）以下哪個是確定性演算法的示例？

3) [對或錯]兩個變數之間的皮爾遜相關性為零，但它們的值仍然可以彼此相關，

4）對于梯度下降（GD）和隨機梯度下降（SGD），以下哪個陳述是正確的？

5）下列哪個超引數增加時，可能會導致隨機森林過度擬合資料？

6）想象一下，你正在使用“ Analytics Vidhya”，并且你想開發一種機器學習演算法，該演算法可以預測文章的觀看次數，

7）下面給出了三個影像（1,2,3），以下哪個選項對這些影像正確？

8）以下是訓練檔案中目標變數的8個實際值，

[0,0,0,1,1,1,1,1]

目標變數的熵是多少？

9）假設你正在使用分類特征，但尚未查看測驗資料中分類變數的分布，你要在分類特征上應用獨熱編碼（OHE），如果將OHE應用于訓練資料集的分類變數，可能會面臨哪些挑戰？

10）Skip gram模型是Word2vec演算法中用于詞嵌入的最佳模型之一，下列哪個模型描述了Skip gram模型？

11）假設你正在神經網路的隱藏層中使用激活函式X，對于任何給定的輸入，在特定的神經元處，你得到的輸出為“ -0.0001”，X可以代表以下哪個激活函式？

12） 對數損失評估指標可以具有負值，

13）關于“Type1”和“Type2”錯誤，以下哪個陳述是正確的？

14）以下哪項是對基于NLP的專案中的文本進行預處理的重要步驟之一？

15）假設你要將高維資料投影到低維，此處使用的兩種最著名的降維演算法是PCA和t-SNE，假設你分別對資料“ X”應用了這兩種演算法，并且獲得了資料集“ X_projected_PCA”，“ X_projected_tSNE”，

對于“ X_projected_PCA”和“ X_projected_tSNE”，以下哪種說法正確？

問題：16-17

16）在上圖中，以下哪個是多重共線特征的示例？

17）在上一個問題中，假設你已確定多重共線特征，你接下來要執行以下哪個操作？

18）將不重要的特征添加到線性回歸模型中可能會導致___，

19）假設給定三個變數X，Y和Z，（X，Y），（Y，Z）和（X，Z）的皮爾遜相關系數分別為C1，C2和C3，

20）想象一下，你正在解決類別高度不平衡的分類問題，在訓練資料中，大多數類別有99％的時間被觀察到，

21）在集成學習中，你匯總了弱學習模型的預測，因此與單個模型的預測相比，這些模型的集成將提供更好的預測，

22）對于 K-fold 交叉驗證，以下哪個選項是正確的？

問題背景關系23-24

23）對于具有10個不同“max_depth”值的5折交叉驗證的總體執行時間，以下哪個選項是正確的？

24）在上一個問題中，如果你訓練相同的演算法來調整2個超引數，比如“最大深度”和“學習率”，

25）下面給出了針對機器學習演算法M1的訓練誤差TE和驗證誤差VE的方案，你要基于TE和VE選擇一個超引數（H），

26）你將在PCA中做什么以得到與SVD相同的預測？

問題27-28

假設有一個黑盒演算法，該演算法使用具有多個觀測值（t1，t2，t3，……..tn）和一個新觀測值（q1）的訓練資料，黑盒輸出q1的最近鄰（例如ti）及其對應的類別標簽ci，

你還可以認為該黑盒演算法與1-NN（1-最近鄰）相同，

27）可以僅基于此黑盒演算法來構造k-NN分類演算法，

28）我們不想使用1-NN黑盒，而是要使用j-NN（j> 1）演算法作為黑盒，對于使用j-NN查找k-NN，以下哪個選項是正確的？

29）假設你得到7個散點圖1-7（從左到右），并且你想比較每個散點圖變數之間的皮爾遜相關系數，

30）你可以使用不同的指標（例如準確性，對數損失，F分數）來評估二進制分類問題的性能，假設你正在使用對數損失函式作為評估指標，對于將對數損失解釋為評估指標，以下哪個選項是正確的？

問題31-32

31）以下哪項是3-NN（3個最近鄰）的留一法交叉驗證準確性？

32）以下K值中，哪一個具有最小的留一法交叉驗證精度？

33）假設你獲得了以下資料，并且你想應用邏輯回歸模型將其分類為兩個給定的類，

34）假設我們有一個資料集，該資料集可以在深度為6的決策樹的幫助下以100％的精度進行訓練，現在考慮下面這些點，并根據這些點選擇選項，

注意：所有其他超級引數相同，其他因素不受影響，

1. 深度4將具有高偏差和低方差

2. 深度4將具有低偏差和低方差

35）以下哪些選項可用于獲取k-Means演算法的全域最小值？

1. 嘗試運行用于不同質心初始化的演算法

2. 調整迭代次數

3. 找出最佳集群數

36）假設你正在開發一個專案，該專案是二進制分類問題，你在訓練資料集上訓練了模型，并在驗證資料集上獲得了以下混淆矩陣，

根據上述混淆矩陣，選擇以下哪個選項可以為你提供正確的預測？

1. 準確度約為0.91

2. 錯誤分類率約為0.91

3. 誤報率約為0.95

4. 真陽率為?0.95

37）對于以下哪個超引數，決策樹演算法的值越高越好？

1. 用于拆分的樣本數

2. 樹的深度

3. 葉子節點樣本數

問題38-39

38）使用給定引數時，輸出特征圖的尺寸是多少？

39）使用以下引數時，輸出特征圖的尺寸是多少？

40）假設，我們正在繪制SVM演算法中不同C值（懲罰引數）的可視化圖，由于某些原因，我們忘記了用可視化標記C值，在這種情況下，對于徑向基函式核，以下哪個選項最能說明以下影像的C值？

12）對數損失評估指標可以具有負值，