Leveraging Post-click Feedback for Content Recommendations

Authors: Hongyi Wen, Longqi Yang, Deborah Estrin

Recsys'19 Cornell University

論文鏈接：https://dl.acm.org/doi/pdf/10.1145/3298689.3347037

本文鏈接：https://www.cnblogs.com/zihaojun/p/15708632.html

Leveraging Post-click Feedback for Content Recommendations
- 0. 總結
- 1.研究目標
- 2.問題背景
- 3.分析點擊之后的反饋資訊
  - 3.1 反饋資訊的特點
  - 3.2 點擊和反饋資訊
- 4.方法
  - 4.1 Pointwise Loss
  - 4.2 Pairwise Loss
- 5.實驗結果
- 可以借鑒的地方
- Weakness
- 進一步閱讀

0. 總結

這篇文章證明了在推薦系統中，將用戶點擊之后沒有看完的物品作為負樣本的一部分參與訓練是有效的，

1.研究目標

利用用戶在點擊之后的反饋資料，來解決點擊資料中的噪聲問題，提高推薦系統的性能，

例如，用戶觀看視頻或聽音樂的時長，可以反映用戶看到物品之后是否真正喜歡，

2.問題背景

在構建推薦系統時，通常會選用隱式反饋資料作為訓練資料，但隱式反饋資料的正樣本不一定都是用戶喜歡的物品，例如，用戶點擊了一個物品，這只能反映用戶對這個物品的第一印象比較好，用戶在瀏覽之后可能并不喜歡這個物品，

3.分析點擊之后的反饋資訊

資料集：

Spotify：在線音樂資料集，包含上億的聽歌會話，每個會話包含最多二十首歌，記錄了用戶跳過還是聽完了每首歌，跳過與否是根據挑戰賽組委會設定的播放閾值，隨機選擇了九百萬會話進行分析，
ByteDance：用戶與短視頻（10秒）的互動記錄，包含是否完播，選取了13 million的資料，

3.1 反饋資訊的特點

點擊之后的用戶反饋在很多場景中都存在，這種反饋可能是顯式的（評分），也可能是隱式的（觀看時長），在上述兩個資料集中，音樂和短視頻場景下，分別有51%和56%的互動是點擊之后被跳過的，也就是說，超過半數的互動是點擊之后用戶并不滿意的，

具體到每個物品和每個用戶的完播比例，如Figure 1所示，兩個資料集上面，左邊一列（用戶跳過比例）的分布不同，可能是因為音樂和視頻的使用場景不同，音樂被跳過會更加隨機，

作者還觀察到，越冷門的物品，被跳過的比例越高，這可能是物品質量導致的，

3.2 點擊和反饋資訊

用點擊資料作為訓練集，分別在常規測驗集和興趣測驗集上進行性能測驗，研究模型對點擊行為和對完播行為的推薦精度差別，

常規測驗集是指，將所有物品作為候選集，將測驗階段點擊物品作為正樣本，
興趣測驗集是指，將測驗階段的點擊樣本作為候選串列，將完播資料作為正樣本（看能不能把完播排在跳過前面），

最后得出結論，模型對點擊行為的預測能力遠高于對完播行為的預測能力，

這一段實驗設計有問題，詳見Weakness部分

\[\begin{array}{cccccc} \hline \text { Dataset } & \text { # of users } & \text { # of items } & \text { # of records } & \text { Density } & \text { Percentage of skips % } \\ \hline \text { Spotify } & 229,792 & 100,586 & 4,090,895 & 0.018 \% & 51.05 \% \\ \text { ByteDance } & 37,043 & 271,259 & 9,391,103 & 0.093 \% & 55.13 \% \\ \hline \end{array} \]

4.方法

方法是比較簡單的，雖然寫的很復雜，

總體思路就是把用戶跳過的樣本（skip）也當做負樣本，

4.1 Pointwise Loss

\(O_P\)表示用戶未跳過的互動，\(O_N\)表示用戶跳過的互動，\(O_M\)表示用戶未互動的物品，

\[\arg \min _{x^{*} y^{*}} \alpha \sum_{(u, i) \in O_{P}}\left(1-\hat{p}_{u i}\right)^{2}+\beta \sum_{(u, i) \in O_{N}} \hat{p}_{u i}^{2}+\gamma \sum_{(u, i) \in O_{M}} \hat{p}_{u i}^{2} \]

其實就是把跳過的物品當做負樣本，并且加個權重，

4.2 Pairwise Loss

\(O_P\)中，i表示沒跳過的物品，j表示跳過的物品，

\(O_N\)中，i表示沒跳過的物品，j沒互動過的物品，

\[\arg \max _{\theta} \alpha \sum_{(u, i, j) \in O_{P}} \ln \sigma\left(\hat{p}_{u i j}\right)+\beta \sum_{(u, i, j) \in O_{N}} \ln \sigma\left(\hat{p}_{u i j}\right) \]

注意論文中把第二項的ij反了過來（增加一點復雜度），其實沒有必要，

當\(\beta = 0\)時，模型只利用沒有跳過的互動作為正樣本，而沒有利用跳過的樣本，稱為BL，

當\(\beta \not = 0\)時，模型稱為-NR，

5.實驗結果

實驗結果表明，將跳過的樣本作為負樣本（NR）是有效的，且直接將這些樣本從正樣本集中去除（BL）也是有效的

可以借鑒的地方

3.1的分析方法
資料集 Spotify[1]

Weakness

3.2的分析不合理
- 兩種測驗任務的難度是不同的，常規測驗任務的負樣本很簡單，但是興趣測驗任務是很難的，因此直接比較兩種設定下的AUC絕對值是不合理的，
- 比較合理的實驗設定應該是保持測驗方法一致，修改訓練集資料，用（跳過+完播）和（完播）兩種訓練方式，看測驗效果有什么不同，（看到后面才發現，這已經是論文主實驗了）
有錯詞，例如5.2部分第三個單詞purposed，應為proposed，
符號不一致，5.1部分使用的符號\(\lambda_p\)和\(\lambda_n\)在前文并沒有提到，
[29]和[30]兩篇參考是同一篇

進一步閱讀

[15] Hongyu Lu, Min Zhang, and Shaoping Ma. 2018. Between Clicks and Satisfaction: Study on Multi-Phase User Preferences and Satisfaction for Online News Reading. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. ACM, 435–444.

[34] Qian Zhao, F Maxwell Harper, Gediminas Adomavicius, and Joseph A Konstan. 2018. Explicit or implicit feedback? engagement or satisfaction?: a feld experiment on machine-learning-based recommender systems. In Proceedings of the 33rd Annual ACM Symposium on Applied Computing. ACM, 1331–1340.

[5] Yifan Hu, Yehuda Koren, and Chris Volinsky. 2008. Collaborative fltering for implicit feedback datasets. In Eighth IEEE International Conference on Data Mining (ICDM’08). IEEE, 263–272.

[8] Youngho Kim, Ahmed Hassan, Ryen W White, and Imed Zitouni. 2014. Modeling dwell time to predict click-level satisfaction. In Proceedings of the 7th ACM international conference on Web search and data mining. ACM, 193–202.

[11] Mounia Lalmas, Janette Lehmann, Guy Shaked, Fabrizio Silvestri, and Gabriele Tolomei. 2015. Promoting positive post-click experience for in-stream yahoo gemini users. In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 1929–1938.

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/386478.html

標籤：其他

上一篇：顯卡不是你學習 Deep Learning 的借口

下一篇：Hive運行select job,count(*) from users group by job；沒有結果并發出警告

【論文筆記】Leveraging Post-click Feedback for Content Recommendations