機器學習筆記
- 機器學習主要術語
- labels
- Features
- Examples
- Models
- Regression vs. classification
- Q&A
機器學習主要術語
什么是(監督)機器學習?簡而言之,它是以下內容:
- 機器學習系統學習如何組合輸入以對從未見過的資料產生有用的預測,
接下來看一些基本的機器學習術語,
labels
標簽(labels):
- 標簽是我們預測的東西——簡單線性回歸中的y變數,
- 標簽可能是小麥的未來價格,圖片中顯示的動物種類,音頻剪輯的含義或幾乎任何東西,
Features
特征(Features):
- 一個特征是一個輸入變數——簡單線性回歸中的x變數,
- 一個簡單的機器學習專案可能只使用一個特性,而一個更復雜的機器學習專案可能使用數百萬個特性,具體如下:

在垃圾郵件檢測器的例子中,功能可能包括以下內容: - 電子郵件文字中的單詞
- 寄件人地址
- 電子郵件的發送時間
Examples
一個示例是資料x的特定實體,(我們將 x設為粗體表示x是向量,)我們將示例分為兩類:
- 帶標簽的實體
帶標簽的示例同時包含特征和標簽,
labeled examples: {features, label}: (x, y)
使用標記的示例來訓練模型,在我們的垃圾郵件檢測器示例中,標記的示例將是用戶已明確標記為“垃圾郵件”或“非垃圾郵件”的單個電子郵件,
例如,下表顯示了來自資料集中的5個帶有標簽的示例, 其中包含有關加利福尼亞州住房價格的資訊:

- 未帶標簽的實體
unlabeled examples: {features, ?}: (x, ?)
這是來自同一房屋資料集的3個未標記的示例,其中不包括medianHouseValue:

一旦我們使用帶標簽的示例訓練了模型,就可以使用該模型來預測未帶標簽的示例的標簽,在垃圾郵件檢測器中,未標記的示例是尚未標記的新電子郵件,
Models
- 模組定義了特征與標簽之間的關系,
例如,垃圾郵件檢測模型可能會將某些功能與“垃圾郵件”緊密關聯,讓我們重點介紹模型生命的兩個階段:
- Training(訓練):創建并且學習模型,你應該給模型提供一些帶有標簽的模型,然后你的模型就會漸漸的學習并找出特征與標簽之間的聯系,
- Inference(推斷):意味著將訓練后的模型應用于未標記的示例,也就是說,您可以使用經過訓練的模型做出有用的預測(y’),例如,可以預測medianHouseValue新的未標記示例,
Regression vs. classification
一個回歸模型(Regression)預測連續值,例如,回歸模型做出的預測可以回答如下問題:
- 北京的房價是多少
- 用戶點擊我這篇文章的可能性是多少
一個分類模型(classification)預測離散值,例如,分類模型做出的預測可以回答如下問題:
- 這個郵件是否為垃圾郵件
- 這張圖片是肖戰還是王一博還是蔡徐坤
Q&A
1.假設您想開發一種監督式機器學習模型來預測指定的電子郵件是“垃圾郵件”還是“非垃圾郵件”,以下哪些表述正確?(2個正確答案)
- 我們將使用無標簽樣本來訓練模型,
- 主題標頭中的文字適合做標簽,
- 未標記為“垃圾郵件”或“非垃圾郵件”的電子郵件是無標簽樣本,
- 有些標簽可能不可靠,
2.假設一家在線鞋店希望創建一種監督式機器學習模型,以便為用戶提供合乎個人需求的鞋子推薦,也就是說,該模型會向小明推薦某些鞋子,而向小美推薦另外一些鞋子,以下哪些表述正確?
- 鞋碼是一項實用特征,
- “用戶點擊鞋子描述”是一項實用標簽,
- 鞋的美觀程度是一項實用特征,
- 用戶喜歡的鞋子是一種實用標簽,
決議:
1-3,4
- 我們將使用有標簽樣本來訓練模型,然后,我們可以對無標簽樣本運行訓練后的模型,以推理無標簽的電子郵件是垃圾郵件還是非垃圾郵件,
- 有可能,但是沒必要,
- 由于我們的標簽由“垃圾郵件”和“非垃圾郵件”這兩個值組成,因此任何尚未標記為垃圾郵件或非垃圾郵件的電子郵件都是無標簽樣本,
- 那必然,由于很少的用戶會將每一封可疑的電子郵件都標記為垃圾郵件,因此我們可能很難知道某封電子郵件是否是垃圾郵件,此外,有些垃圾內容發布者可能會故意提供錯誤標簽來誤導我們的模型,
2-1,2
- 鞋碼是一種可量化的標志,可能對用戶是否喜歡推薦的鞋子有很大影響,例如,如果小明穿 43 碼的鞋,則該模型不應該推薦 35碼的鞋,
- 用戶可能只是想要詳細了解他們喜歡的鞋子,因此,用戶點擊次數是可觀察且可量化的指標,可用來訓練合適的標簽,
- 合適的特征應該是具體且可量化的,美觀程度是一種過于模糊的概念,不能作為實用特征,美觀程度可能是某些具體特征(例如樣式和顏色)的綜合表現,樣式和顏色都比美觀程度更適合用作特征,
- 喜好不是可觀察且可量化的指標,
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/267172.html
標籤:其他
上一篇:插入排序-希爾排序-選擇排序-冒泡排序-快速排序-基數排序-外部排序-歸并排序[資料結構與演算法]
下一篇:【三】版本之間穿梭切換
