主頁 >  其他 > 詳解深度學習中推薦系統的經典模型

詳解深度學習中推薦系統的經典模型

2023-06-22 07:49:11 其他

摘要:DSSM 用字向量作為輸入既可以減少切詞的依賴,又可以提高模型的泛化能力,因為每個漢字所能表達的語意是可以復用的,

本文分享自華為云社區《深度學習應用篇-推薦系統[12]:經典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型對比》,作者:汀丶,

1.DeepFM模型

1.1模型簡介

CTR預估是目前推薦系統的核心技術,其目標是預估用戶點擊推薦內容的概率,DeepFM模型包含FM和DNN兩部分,FM模型可以抽取low-order(低階)特征,DNN可以抽取high-order(高階)特征,低階特征可以理解為線性的特征組合,高階特征,可以理解為經過多次線性-非線性組合操作之后形成的特征,為高度抽象特征,無需Wide&Deep模型人工特征工程,由于輸入僅為原始特征,而且FM和DNN共享輸入向量特征,DeepFM模型訓練速度很快,

注解:Wide&Deep是一種融合淺層(wide)模型和深層(deep)模型進行聯合訓練的框架,綜合利用淺層模型的記憶能力和深層模型的泛化能力,實作單模型對推薦系統準確性和擴展性的兼顧,

該模型的Paddle實作請參考鏈接:PaddleRec版本

1.2DeepFM模型結構

為了同時利用low-order和high-order特征,DeepFM包含FM和DNN兩部分,兩部分共享輸入特征,對于特征i,標量wi是其1階特征的權重,該特征和其他特征的互動影響用隱向量Vi來表示,Vi輸入到FM模型獲得特征的2階表示,輸入到DNN模型得到high-order高階特征,

DeepFM模型結構如下圖所示,完成對稀疏特征的嵌入后,由FM層和DNN層共享輸入向量,經前向反饋后輸出,

為什么使用FM和DNN進行結合?

  • 在排序模型剛起步的年代,FM很好地解決了LR需要大規模人工特征交叉的痛點,引入任意特征的二階特征組合,并通過向量內積求特征組合權重的方法大大提高了模型的泛化能力,
  • 標準FM的缺陷也恰恰是只能做二階特征交叉,

所以,將FM與DNN結合可以幫助我們捕捉特征之間更復雜的非線性關系,

為什么不使用FM和RNN進行結合?

  • 如果一個任務需要處理序列資訊,即本次輸入得到的輸出結果,不僅和本次輸入相關,還和之前的輸入相關,那么使用RNN回圈神經網路可以很好地利用到這樣的序列資訊
  • 在預估點擊率時,我們會假設用戶每次是否點擊的事件是獨立的,不需要考慮序列資訊,因此RNN于FM結合來預估點擊率并不合適,還是使用DNN來模擬出特征之間的更復雜的非線性關系更能幫助到FM,

1.3FM

FM(Factorization Machines,因子分解機)最早由Steffen Rendle于2010年在ICDM上提出,它是一種通用的預測方法,在即使資料非常稀疏的情況下,依然能估計出可靠的引數進行預測,與傳統的簡單線性模型不同的是,因子分解機考慮了特征間的交叉,對所有嵌套變數互動進行建模(類似于SVM中的核函式),因此在推薦系統和計算廣告領域關注的點擊率CTR(click-through rate)和轉化率CVR(conversion rate)兩項指標上有著良好的表現,

為什么使用FM?

  • 特征組合是許多機器學習建模程序中遇到的問題,如果對特征直接建模,很有可能忽略掉特征與特征之間的關聯資訊,一次可以通過構建新的交叉特征這一特征組合方式提高模型的效果,FM可以得到特征之間的關聯資訊,
  • 高維的稀疏矩陣是實際工程中常見的問題,并且直接導致計算量過大,特征權值更新緩慢,試想一個10000100的表,每一列都有8中元素,經過one-hot編碼之后,會產生一個10000800的表,

而FM的優勢就在于對這兩方面問題的處理,首先是特征組合,通過兩兩特征組合,引入交叉項特征(二階特征),提高模型得分;其次是高維災難,通過引入隱向量(對引數矩陣進行分解),完成特征引數的估計,

FM模型不單可以建模1階特征,還可以通過隱向量點積的方法高效的獲得2階特征表示,即使交叉特征在資料集中非常稀疏甚至是從來沒出現過,這也是FM的優勢所在,

單獨的FM層結構如下圖所示:

1.4DNN

該部分和Wide&Deep模型類似,是簡單的前饋網路,在輸入特征部分,由于原始特征向量多是高緯度,高度稀疏,連續和類別混合的分域特征,因此將原始的稀疏表示特征映射為稠密的特征向量,

假設子網路的輸出層為:

DNN網路第l層表示為:

再假設有H個隱藏層,DNN部分的預測輸出可表示為:

DNN深度神經網路層結構如下圖所示:

1.5Loss及Auc計算

DeepFM模型的損失函式選擇Binary_Cross_Entropy(二值交叉熵)函式

對于公式的理解,y是樣本點,p(y)是該樣本為正樣本的概率,log(p(y))可理解為對數概率,

Auc是Area Under Curve的首字母縮寫,這里的Curve指的就是ROC曲線,AUC就是ROC曲線下面的面積,作為模型評價指標,他可以用來評價二分類模型,其中,ROC曲線全稱為受試者作業特征曲線 (receiver operating characteristic curve),它是根據一系列不同的二分類方式(分界值或決定閾),以真陽性率(敏感性)為縱坐標,假陽性率(1-特異性)為橫坐標繪制的曲線,

可使用paddle.metric.Auc()進行呼叫,

可參考已有的資料:機器學習常用評估指標

1.6與其他模型的對比

如表1所示,關于是否需要預訓練,高階特征,低階特征和是否需要特征工程的比較上,列出了DeepFM和其他幾種模型的對比,DeepFM表現更優,

如表2所示,不同模型在Company*資料集和Criteo資料集上對點擊率CTR進行預估的性能表現,DeepFM在各個指標上表現均強于其他模型,

參考文獻

[IJCAI 2017]Guo, Huifeng,Tang, Ruiming,Ye, Yunming,Li, Zhenguo,He, Xiuqiang. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

2.DSSM

以搜索引擎和搜索廣告為例,最重要的也最難解決的問題是語意相似度,這里主要體現在兩個方面:召回和排序,
在召回時,傳統的文本相似性如 BM25,無法有效發現語意類 query-Doc 結果對,如"從北京到上海的機票"與"攜程網"的相似性、“快遞軟體"與"菜鳥裹裹"的相似性,

在排序時,一些細微的語言變化往往帶來巨大的語意變化,如"小寶寶生病怎么辦"和"狗寶寶生病怎么辦”、“深度學習"和"學習深度”,

DSSM(Deep Structured Semantic Models)為計算語意相似度提供了一種思路,

該模型的Paddle實作請參考鏈接:PaddleRec版本

2.1DSSM模型結構

DSSM(Deep Structured Semantic Models)的原理很簡單,通過搜索引擎里 Query 和 Title 的海量的點擊曝光日志,用 DNN 把 Query 和 Title 表達為低緯語意向量,并通過 cosine 距離來計算兩個語意向量的距離,最終訓練出語意相似度模型,該模型既可以用來預測兩個句子的語意相似度,又可以獲得某句子的低緯語意向量表達,

DSSM 從下往上可以分為三層結構:輸入層、表示層、匹配層

2.1.1 輸入層

輸入層做的事情是把句子映射到一個向量空間里并輸入到 DNN 中,這里英文和中文的處理方式有很大的不同,

英文

英文的輸入層處理方式是通過word hashing,舉個例子,假設用 letter-trigams 來切分單詞(3 個字母為一組,#表示開始和結束符),boy 這個單詞會被切為 #-b-o, b-o-y, o-y-#

這樣做的好處有兩個:首先是壓縮空間,50 萬個詞的 one-hot 向量空間可以通過 letter-trigram 壓縮為一個 3 萬維的向量空間,其次是增強范化能力,三個字母的表達往往能代表英文中的前綴和后綴,而前綴后綴往往具有通用的語意,

這里之所以用 3 個字母的切分粒度,是綜合考慮了向量空間和單詞沖突:

如上表,以 50 萬個單詞的詞庫為例,2 個字母的切分粒度的單詞沖突為 1192(沖突的定義:至少有兩個單詞的 letter-bigram 向量完全相同),而 3 個字母的單詞沖突降為 22 效果很好,且轉化后的向量空間 3 萬維不是很大,綜合考慮選擇 3 個字母的切分粒度,

中文

中文的輸入層處理方式與英文有很大不同,首先中文分詞是個讓所有 NLP 從業者頭疼的事情,即便業界號稱能做到 95%左右的分詞準確性,但分詞結果極為不可控,往往會在分詞階段引入誤差,所以這里我們不分詞,而是仿照英文的處理方式,對應到中文的最小粒度就是單字了,

由于常用的單字為 1.5 萬左右,而常用的雙字大約到百萬級別了,所以這里出于向量空間的考慮,采用字向量(one-hot)作為輸入,向量空間約為 1.5 萬維,

2.1.2表示層

DSSM 的表示層采用 BOW(Bag of words)的方式,相當于把字向量的位置資訊拋棄了,整個句子里的詞都放在一個袋子里了,不分先后順序,

緊接著是一個含有多個隱層的 DNN,如下圖所示:

用WiWi? 表示第 i 層的權值矩陣,bibi?表示第 i 層的偏置項,則第一隱層向量 l2(300 維),第 二個隱層向量 l3(300 維),輸出向量 y(128 維),用數學公式可以分別表示為:

用 tanh 作為隱層和輸出層的激活函式:

最終輸出一個 128 維的低緯語意向量,

2.1.3 匹配層

Query 和 Doc 的語意相似性可以用這兩個語意向量(128 維) 的 cosine 距離來表示:

?通過softmax 函式可以把Query 與正樣本 Doc 的語意相似性轉化為一個后驗概率:

其中 r 為 softmax 的平滑因子,D 為 Query 下的正樣本,D-為 Query 下的負樣本(采取隨機負采樣),D 為 Query 下的整個樣本空間,

在訓練階段,通過極大似然估計,我們最小化損失函式:

殘差會在表示層的 DNN 中反向傳播,最終通過隨機梯度下降(SGD)使模型收斂,得到各網路層的引數{Wi,bi}{Wi?,bi?},

負樣本出現在計算softmax中,loss反向傳播只用正樣本,

2.1.4優缺點

優點:DSSM 用字向量作為輸入既可以減少切詞的依賴,又可以提高模型的泛化能力,因為每個漢字所能表達的語意是可以復用的,另一方面,傳統的輸入層是用 Embedding 的方式(如 Word2Vec 的詞向量)或者主題模型的方式(如 LDA 的主題向量)來直接做詞的映射,再把各個詞的向量累加或者拼接起來,由于 Word2Vec 和 LDA 都是無監督的訓練,這樣會給整個模型引入誤差,DSSM 采用統一的有監督訓練,不需要在中間程序做無監督模型的映射,因此精準度會比較高,

缺點:上文提到 DSSM 采用詞袋模型(BOW),因此喪失了語序資訊和背景關系資訊,另一方面,DSSM 采用弱監督、端到端的模型,預測結果不可控,

參考文獻

[1]. Huang P S, He X, Gao J, et al. Learning deep structured semantic models for web search using clickthrough data[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM, 2013:2333-2338.

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555770.html

標籤:其他

上一篇:自然語言處理 Paddle NLP - 情感分析技術及應用-理論

下一篇:返回列表

標籤雲
其他(161458) Python(38244) JavaScript(25512) Java(18251) C(15238) 區塊鏈(8271) C#(7972) AI(7469) 爪哇(7425) MySQL(7260) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4606) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2436) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) HtmlCss(1970) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 詳解深度學習中推薦系統的經典模型

    摘要:DSSM 用字向量作為輸入既可以減少切詞的依賴,又可以提高模型的泛化能力,因為每個漢字所能表達的語意是可以復用的。 本文分享自華為云社區《深度學習應用篇-推薦系統[12]:經典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型對比》,作者:汀丶。 1.DeepFM模型 1.1模型簡 ......

    uj5u.com 2023-06-22 07:49:11 more
  • 自然語言處理 Paddle NLP - 情感分析技術及應用-理論

    對帶有感情色彩的主觀性文本進行 分析、處理、歸納和推理的程序,輸入文本 => (描述物體/entity,屬性/aspect,情感/opinion ,觀點持有者/holder,時間/time) ......

    uj5u.com 2023-06-22 07:48:18 more
  • Kubernetes Ingress 之 Nginx Ingress

    一. 引言 k8s 提供了一下四種方式來暴露埠,分別是: ClusterIP, 僅供集群內部訪問 NodePort,埠映射,給node隨機分配埠,然后由service進行代理 LoadBalancer, 負載均衡模式,一般由云服務商提供負載均衡策略 Ingress,網關模式,使用自定義的htt ......

    uj5u.com 2023-06-22 07:47:39 more
  • 建設數字工廠:華為云數字工廠平臺接入第三方網關設備資料

    摘要:本期介紹工業自動化產線設備由第三方數采網關(軟體)采集資料后,如何快速接入到華為云數字工廠平臺,實作生產自動化控制層與數字工廠應用層的資料集成和實時互動。 本文分享自華為云社區《數字工廠深入淺出系列(五):接入第三方網關設備資料》,作者: 云起MAE。 華為云數字工廠平臺內置工業IoT資料引擎 ......

    uj5u.com 2023-06-22 07:46:59 more
  • Codeforces Round 881 (Div. 3)

    ## [A - Sasha and Array Coloring (CF1843 A)](https://codeforces.com/contest/1843/problem/A) ### 題目大意 給定一個陣列,給每個元素涂色。求最大的代價。 代價為每個顏色的代價和。 每個顏色的代價為涂了該顏色 ......

    uj5u.com 2023-06-22 07:45:56 more
  • 【技識訓累】資料結構中的基本概念【一】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-06-22 07:45:51 more
  • ZEGO 即構音樂場景降噪技術決議

    隨著線上泛娛樂的興起,語聊房、在線 KTV 以及直播等場景在人們的日常生活中占據越來越重要的地位,用戶對于音質的要求也越來越高,因此超越傳統語音降噪演算法的 AI 降噪演算法應運而生,所以目前各大 RTC 廠商普遍使用 AI 技術進行降噪處理,使用 AI 降噪技術消除除人聲外的一切聲音。 但對于一些特殊 ......

    uj5u.com 2023-06-22 07:45:16 more
  • 即視角|出海正當時:歐美、東南亞、中東、拉美市場觀察

    共享即構新洞察,共建行業新動能——ZEGO即構科技基于音視頻技術領域的多年深耕,綜合面向各行業的服務經驗,推出【即視角】欄目,發布即構對行業的洞察。歡迎大家探討論道,共驅前行。 ......

    uj5u.com 2023-06-22 07:44:46 more
  • 視頻直播原始碼技術知識分享:連麥功能(一)

    我們開發視頻直播平臺就要去了解視頻直播開發相關功能知識,這對我們開發平臺有著重要的作用,連麥技術就是視頻直播原始碼重要的技術功能之一,每一個功能技術都有自己的用武之地 ......

    uj5u.com 2023-06-22 07:43:25 more
  • 自動化平臺總結(httprunner+djangorestframework+python3+Mysql+

    一、前言 最近從零搭建了一個自動化測驗平臺,雖然不是第一次從零搭建,但是也從來沒有進行過這類搭建的總結,還是記錄一下,搭建程序中的一些問題和方法。方便以后總結和翻閱 二、簡介 搭建的平臺語言使用的是Python3.6,未來有空可能考慮加個java版本。前端用的Vue,主體是httprunner2.X ......

    uj5u.com 2023-06-22 07:43:10 more