- 本文為《深度學習推薦系統》(王喆) 的讀書筆記 (邊讀邊記,希望能和大家共同進步!)
目錄
- 推薦系統的邏輯框架
- 推薦系統的技術架構
- 推薦系統的資料部分
- 推薦系統的模型部分
- 參考文獻
推薦系統的邏輯框架
- 推薦系統要處理的是 “人” 和 “資訊” 的關系,這里的 “資訊” ,在商品推薦中指的是 “商品資訊”,在視頻推薦中指的是 “視頻資訊 ”, 在新聞推薦中指的是 “新聞資訊”,簡而言之, 可統稱為 “物品資訊” , 而從 “人” 的角度出發, 為了更可靠地推測出 “人” 的興趣點, 推薦系統希望利用大量與 “人” 相關的資訊, 包括歷史行為、人口屬性、關系網路等, 這些可統稱為 “用戶資訊”,此外, 在具體的推薦場景中, 用戶的最終選擇一般會受時間、地點、用戶的狀態等一系列環境資訊的影響, 可稱為 “場景資訊” 或 “背景關系資訊”
- 在獲知 “用戶資訊” “物品資訊” “場景資訊” 的基礎上, 推薦系統要處理的問題可以較形式化地定義為:對于用戶
U
U
U (user), 在特定場景
C
C
C (context) 下, 針對海量的 “物品“ 資訊,構建一個函式
f
(
U
,
I
,
C
)
f(U,I,C)
f(U,I,C), 預測用戶對特定候選物品
I
I
I (item) 的喜好程度, 再根據喜好程度對所有候選物品進行排序,生成推薦串列的問題

不同業務模式的公司定義的具體推薦系統優化目標不同, 例如,視頻類公司更注重用戶觀看時長 (Deep Neural Networks for YouTube Recommendations),電商類公司更注重用戶的購買轉化率 (Conversion Rate, CVR), 新聞類公司更注重用戶的點擊率, 等等,需要注意的是,設計推薦系統的最終目標是達成公司的商業目標、增加公司收益,這應是推薦工程師站在公司角度考慮問題的出發點
推薦系統的技術架構
- 在實際的推薦系統中,工程師需要將抽象的概念和模塊具體化 、工程化,在 圖 1-3 的基礎上,工程師需要著重解決的問題有兩類:
- (1) 資料和資訊相關的問題,即 “用戶資訊” “物品資訊” “場景資訊” 分別是什么?如何存盤 、 更新和處理?
- “資料和資訊” 部分逐漸發展為推薦系統中融合了資料離線批處理、 實時流處理的資料流框架
- (2) 推薦系統演算法和模型相關的問題, 即推薦模型如何訓練 、 如何預測 、 如何達成更好的推薦效果?
- “演算法和模型” 部分則進一步細化為推薦系統中集訓練 (training)、評估 (evaluation) 、 部署 (deployment)、 線上推斷 (online inference) 為一體的模型框架
- (1) 資料和資訊相關的問題,即 “用戶資訊” “物品資訊” “場景資訊” 分別是什么?如何存盤 、 更新和處理?

推薦系統的資料部分
- 推薦系統的資料部分 (如圖 1-4 中米黃色部分所示) 主要負責 “用戶” “物品” “場景” 的資訊收集與處理, 在得到原始的資料資訊后,推薦系統的資料處理系統會將原始資料進一步加工, 加工后的資料出口主要有三個:
- (1) 生成推薦模型所需的樣本資料, 用于演算法模型的訓練和評估
- (2) 生成推薦模型服務 (model serving) 所需的 “特征”, 用于推薦系統的線上推斷
- (3) 生成系統監控 、商業智能 (Business Intelligence, BI) 系統所需的統計型資料
負責資料收集與處理的三種平臺
- “客戶端及服務器端實時資料處理” “流處理平臺準實時資料處理” “大資料平臺離線資料處理”
- 在實時性由強到弱遞減的同時, 三種平臺的海量資料處理能力則由弱到強, 因此, 一個成熟的推薦系統的資料流系統會將三者取長補短, 配合使用
推薦系統的模型部分
- 模型的結構一般由 “召回層” “排序層” “補充策略與演算法層” 組成
- “召回層” 一般利用高效的召回規則、 演算法或簡單的模型, 快速從海量的候選集中召回用戶可能感興趣的物品
- “排序層“ 利用排序模型對初篩的候選集進行精排序 (推薦系統產生效果的重點,也是業界和學界研究的重心)
- “補充策略與演算法層”,也被稱為 “再排序層”,可以在將推薦串列回傳用戶之前, 為兼顧結果的 “多樣性” “流行度” “新鮮度” 等指標, 結合一些補充的策略和演算法對推薦串列進行一定的調整, 最終形成用戶可見的推薦串列
從推薦模型接收到所有候選物品集,到最后產生推薦串列, 這一程序一般稱為模型服務程序
模型訓練
- (1) 離線訓練:利用全量樣本和特征,使模型逼近全域最優點
- (2) 在線更新:準實時地 “消化” 新的資料樣本,更快地反映新的資料變化趨勢,滿足模型實時性的需求
模型評估
- 為了評估推薦模型的效果,方便模型的迭代優化,推薦系統的模型部分提供了 “離線評估” 和 “線上 A/B 測驗” 等多種評估模塊,用得出的線下和線上評估指標, 指導下一步的模型迭代優化
參考文獻
- 《深度學習推薦系統》(王喆)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/330082.html
標籤:AI
上一篇:擊敗GANs的新生成式模型:score-based model(diffusion model)原理、網路結構、應用、代碼、實驗、展望
