文章目錄

太長不看版
Motivation
- 為什么要預測廣告CTR?
- 為什么要預測新廣告的CTR？
廣告搜索框架
作者提出來的新特征
- 1. Estimating Term CTR
- 2. Estimating AD Quality
- 3. Measuring Order Specificity
- 4. External Sources Of Data
資料集
模型
自己的一點思考

太長不看版

Predicting Clicks: Estimating the Click-Through Rate for New Ads

論文主要思想：提出了一種預測新廣告CTR的辦法，

論文使用方法：提出了新的特征，使用邏輯回歸 (logistic regression) 模型訓練，使用模型預測CTR的 KL散度和均方差(MSE)來驗證實驗效果，

上述新的特征包括以下四個方面：

CTR相關特征：
- Term CTR：包含相同關鍵詞的其他廣告的CTR
- Related Term CTR：包含相近關鍵詞的其他廣告的CTR
新廣告本身特征
- Appeareanc：廣告本身是否美觀
- Attention Capture：廣告是否有吸引力
- Reputation：廣告主的知名度
- Landing Page Quality：登陸頁的質量（我理解為廣告引流頁的質量）
- Relevance：廣告和用戶檢索詞 (search query)的相關性
廣告指向的明確性：
- 作者認為指向越明確的廣告CTR越高
外部特征：
- 關鍵詞在網路上的詞頻
- 關鍵詞在搜索引擎上的詞頻

Motivation

為什么要預測廣告CTR?

因為廣告主爸爸給錢，例如谷歌雅虎等廣告主爸爸會按照點擊結算方式(cost-per-click CPC)給錢，即用戶每點一次廣告，爸爸就要給一次錢，

卑微的廣告展示方怎么才能掙到更多錢呢，他們可以用這個公式計算收入的期望值：
E a d [ r e v e n u e ] = p a d ( c l i c k ) ? C P C a d E_{ad}[revenue] = p_{ad}(click)*CPC_{ad} Ead?[revenue]=pad?(click)?CPCad?
其中 C P C a d CPC_{ad} CPCad?是廣告爸爸對一次點擊的出價， p a d ( c l i c k ) p_{ad}(click) pad?(click)是對該條廣告的點擊率預測(CTR)，出價是爸爸定的，但是把CTR高的廣告往前放，卑微的廣告展示方就可以掙到更多錢，

這里論文作者做了一個簡單的解釋，在廣告展示界面上，排在越靠前的廣告被用戶注意到的可能性越大(這也導致CTR越大)，因此，在決定廣告出現順序的時候，需要精確預估每條廣告的CTR，然后把CTR高的排前面，

在預估每條廣告的CTR時，作者先排除了廣告出現位置的影響，否則就會死鎖：廣告CTR越高越往前放，越往前放進而導致CTR越高，就不好計算了，
在這里插入圖片描述

為什么要預測新廣告的CTR？

因為廣告主爸爸每天發來的新廣告特別多，由于缺少歷史點擊資料，無法準確預估其CTR，卑微的廣告展示方需要盡快確定新廣告質量，以決定投放順序，掙更多錢，所以作者針對這個問題，提出了一系列的新特征來擬合新廣告的質量，

廣告搜索框架

廣告的點擊率(CTR)由兩個因素決定：

用戶看到它的可能性：由廣告出現的位置(pos)決定
用戶看到它之后點擊它的可能性：由它本身質量決定

因此，廣告的點擊率可以公式化為：
p ( c l i c k ∣ a d , p o s ) = p ( c l i c k ∣ a d , p o s , s e e n ) ? p ( s e e n ∣ a d , p o s ) p(click|ad, pos) = p(click|ad,pos,seen)*p(seen|ad,pos) p(click∣ad,pos)=p(click∣ad,pos,seen)?p(seen∣ad,pos)
為此，論文作者做了簡化假設，假設廣告被用戶看到的概率只與出現位置有關(與廣告本身質量無關)；用戶看見廣告后，點擊它的概率只與廣告質量有關(與廣告出現位置無關)，這里有點繞口，其實就是假定了上述兩個因素互相獨立，于是，公式可以簡化為：
p ( c l i c k ∣ a d , p o s ) = p ( c l i c k ∣ a d , s e e n ) ? p ( s e e n ∣ p o s ) p(click|ad, pos) = p(click|ad,seen)*p(seen|pos) p(click∣ad,pos)=p(click∣ad,seen)?p(seen∣pos)
本文中作者研究的CTR是 p ( c l i c k ∣ a d , s e e n ) p(click|ad,seen) p(click∣ad,seen)，即用戶看到廣告后點擊它的概率，因為廣告在不同位置被看到的概率可以假定為一條固定的曲線，對任何廣告，給定位置就有對應的“被看見概率”，所以這不是本文討論的范圍，

作者提出來的新特征

1. Estimating Term CTR

預測一條新廣告的CTR時，作者首先使用了和新廣告有相同或相近關鍵詞的其他廣告的CTR來構建特征，輔助預測，

1.1 Term CTR

含義：和當前廣告含有相同關鍵詞的廣告的平均CTR，

該特征的計算公式為：
f 0 ( a d ) = α C T R ￣ + N ( a d t e r m ) ? C T R ( a d t e r m ) α + N ( a d t e r m ) f_{0}(ad) = \frac{\alpha \overline{CTR} + N(ad_{term} )*CTR(ad_{term})}{\alpha +N(ad_{term} )} f0?(ad)=α+N(adterm?)αCTR+N(adterm?)?CTR(adterm?)?
其中：

C T R ￣ \overline{CTR} CTR 是訓練集中所有廣告的CTR的平均值(先驗特征)
α \alpha α 是先驗特征的比例
這兩項的作用是針對新廣告中有未出現過關鍵詞或者低頻關鍵詞，
N ( a d t e r m ) N(ad_{term}) N(adterm?) 是包含相同關鍵詞的其他廣告的數量(忽略詞序)，
C T R ( a d t e r m ) CTR(ad_{term}) CTR(adterm?) 是包含相同關鍵詞的其他廣告的平均CTR

本實驗中 α \alpha α設定為1，并且作者發現實驗結果對 α \alpha α取值不敏感，

實驗結果：
Term CTR實驗效果
第一行是baseline，即只使用了 C T R ￣ \overline{CTR} CTR 這個特征，第二行是使用了Term CTR的實驗結果，性能有13.28%的提升，

1.2. Related Term CTR

含義：與當前廣告有相關關鍵詞的廣告的平均CTR，

相關是指：假設 R m n ( t ) R_{mn}(t) Rmn?(t)是一組廣告的關鍵詞，當從t中洗掉m個關鍵詞，從新廣告中洗掉n個關鍵詞后，他們會有相同關鍵詞，可以理解為，將當前廣告的關鍵詞經過一定的增刪編輯操作后，可以得到的關鍵詞，就是相關關鍵詞，
R m n ( t ) = { ∣ a d i t e m ∩ t ∣ > 0 a n d ∣ t ? a d i t e m ∣ = m a n d ∣ a d i t e m ? t ∣ = n R_{mn}(t) = \left\{ \begin{array}{lr} |ad_{item} \cap t| > 0 \space \space and& \\ |t - ad_{item} | = m \space \space and\\ |ad_{item} - t| = n & \end{array} \right. Rmn?(t)=????∣aditem?∩t∣>0 and∣t?aditem?∣=m and∣aditem??t∣=n??
例如，如果 t t t是“red shoes”，那么對于新廣告中的關鍵詞“buy red shoes”就是 R 01 R_{01} R01?，關鍵詞“shoes”就是 R 10 R_{10} R10?，關鍵詞“blue shoes”就是 R 11 {R_{11}} R11?，

所以，該特征的計算公式為：
C T R m n ( t e r m ) = 1 ∣ R m n ( t e r m ) ∣ ∑ x ∈ R m n ( t e r m ) C T R x CTR_{mn}(term) = \frac{1}{|R_{mn(term)}|} \sum_{x\in R_{mn(term)}} CTR_{x} CTRmn?(term)=∣Rmn(term)?∣1?x∈Rmn(term)?∑?CTRx?
其中CTR_{mn}(term)和上一個特征一樣要做平滑處理，

另外，作者還把相關廣告的數量也作為一個特征：
v m n ( t e r m ) = ｜ R m n ｜ v_{mn}(term) = ｜R_{mn}｜ vmn?(term)=｜Rmn?｜

實驗結果

參考table1的第三行，相比于baseline有19.67%的提升，

2. Estimating AD Quality

由于廣告的CTR的變化范圍很大，方差特別大，所以僅僅用CTR這個特征是不夠準確的，作者統計了一些常用關鍵詞的CTR變化范圍，如下圖：
在這里插入圖片描述
例如，對于surgery這個關鍵詞，其最大的CTR是其平均CTR的5倍多，因此，作者還加入了廣告本身質量作為其特征，

2.1. Appearance
定義：廣告的外觀是否符合美學，
例如，廣告的標題和內容包含多少單詞，廣告的資本化程度好不好，是否有太多標點符號，長單詞多還是短單詞多？

2.2. Attention Capture
定義：廣告本身是否有吸引力，
例如，廣告的標題和內容里是否有“購買”、“加入”、“訂閱”等關鍵詞，是否提供了數量、價格、折扣等數字資訊？

2.3. Reputation
定義：廣告主的知名度
例如，顯示的URL是否以.com、.net、.edu等結尾，URL被分成了多少段 (book.com就比book.something.com要好) ，是否包含破折號和數字？因為短的域名往往更貴，所以域名越好，廣告主的實力越強，其廣告質量也相對更好，另外，用戶也會對自己更熟悉的域名更感興趣，

2.4. Landing page quality
定義：登陸頁的質量，
例如，登陸頁使用了flash嗎，符合W3C嗎，頁面中哪部分被圖片遮住了，是否使用了樣式表等？雖然登陸頁是用戶點擊進去之后才能看到，但是廣告往往會把用戶引導到用戶熟悉的登陸頁上，反過來想，登陸頁的質量也能反應用戶是否點擊該廣告的概率，

2.5. Relevance
定義：廣告和用戶檢索詞匯的相關度，
例如，關鍵詞是否準確的出現在標題中，關鍵詞的子集是否出現在標題或者廣告體中？

作者針對以上5個方面定義了81個新特征，并且添加了一元特征(unigram feature)，例如作者統計了出現在訓練集中最頻繁的10000個關鍵詞，如果待測廣告中包含這些關鍵詞，該特征就取值為1，否則取值0，這些一元特征的作用是捕捉一些沒有被注意到的關鍵詞，這些詞可以增加我們對廣告特征的捕捉，

實驗結果
在這里插入圖片描述
作者發現，在不使用廣告詞頻的一元特征，僅使用廣告本身質量特征，相對于baseline有20.72%的提升(圖最后一行)，也就是相對于related term ctr只有1%的提升；如果加入廣告詞頻的一元特征，相對于baseline有23.45%的提升(圖倒數第二行)，

作者說這一點令他們很震驚，畢竟他們本以為一些手工定義的廣告質量特征（前面說到的81個特征）會有很好的效果，可惜并不是，反而是一元特征比較有用，這里其實引發了我的一些思考，寫在了文章結尾，

3. Measuring Order Specificity

作者認為指向性明確的 (即廣告目標群體與廣告的關鍵詞更接近) 廣告會有更高的CTR，故作者將關鍵詞分成了74類，然后計算廣告中的關鍵詞與這74類的熵，用以表征廣告指向性是否明確，并作為一個特征進行計算，

此外，作者還將廣告訂單中不重復的單詞數量作為特征，與上述的指向性熵特征一起送入模型進行訓練，

實驗結果：
在這里插入圖片描述
作者發現，加入這兩個特征后，模型的準確率提升到了28.97%，說明這兩個特征效果明顯，作者為了驗證這兩個特征是否都有正向收益，他還嘗試了只使用廣告指向性特征進行訓練，發現模型有26.37%的提升，而同時使用廣告指向性特征和不重復單詞數量特征，模型有28.97%的提升，說明這兩個特征都帶來了正向收益，

4. External Sources Of Data

定義：廣告中關鍵詞在Web中出現的頻率和在用戶近三個月中在搜索引擎中搜索的頻率，

作者認為，不僅可以用廣告本身的特征，還可以使用一些外部特征，即廣告中關鍵詞在Web和搜索引擎中的出現頻率，因為如果廣告中包含的關鍵詞是人們經常搜索的，說明該廣告有更大幾率會吸引人們點擊它，

對于廣告中關鍵詞在Web中出現的頻率，作者使用了一個巧妙的統計方法，作者通過統計在搜索引擎中搜索該關鍵詞，并統計包含該關鍵詞的網頁頁面數，并用這個數量代表關鍵詞出現的頻率，

對于關鍵詞在用戶搜索引擎中的出現的頻率，作者使用了用戶最近三個月在搜索引擎中的歷史記錄，并統計廣告中關鍵詞在用戶歷史記錄中的出現頻率，

另外，作者對上述兩個頻率特征進行了分桶處理，每個特征分別分了20個桶，
實驗結果
在這里插入圖片描述

作者發現，這兩個特征能在baseline的基礎上帶來3.11%的正向收益，但是與前面的特征結合起來后，卻只有0.5%的額外收益，這說明此類特征與前面提出來的特征有較大的重合度，

資料集

本論文使用了微軟公司的搜索引擎上的廣告資訊，每個廣告都包含了以下幾個方面：

Landing page：登陸頁
Bid term：關鍵詞
Title：廣告的標題
Body：廣告的內容
Display URL：廣告的超鏈接
Clicks：自投放以來廣告被點擊的數量
Views：自投放以來廣告被看到的數量

整個資料集包含了超過10000個廣告主爸爸，上百萬條廣告和50萬個關鍵詞，

由于本文研究的是新廣告的CTR，即我們不知道任何關于新廣告的資訊，也不知道該廣告主爸爸的任何資訊以及他原來投放廣告的資訊，故作者按照廣告主來劃分資料集，把屬于同一個廣告主的廣告放到一起，然后隨機抽取70%的廣告作為訓練集，10%作為驗證集，20%作為測驗集，

為了實驗的準確性，作者還過濾掉了瀏覽量少于100的廣告，因為這些廣告計算出來的CTR是不置信的，

模型

作者選用了邏輯回歸模型，因為它非常適合預測概率，總能得到0-1之間的概率結果：
C T R = 1 1 + e ? Z , Z = ∑ i w i f i ( a d ) CTR = \frac{1}{1+e^{-Z}} ,\space Z = \sum_{i}{w_i f_i(ad)} CTR=1+e?Z1?, Z=i∑?wi?fi?(ad)
其中 f i ( a d ) f_i(ad) fi?(ad)是廣告中第 i i i個特征的值， w i w_i wi?是相應的權重矩陣，作者使用的是交叉熵損失函式，和一個均值為0，方差為0.1的高斯權重先驗(方差是通過多組實驗選了個最好的值)，同時，作者還加了一個始終為1的偏置(常規操作)，

此外，作者還做了一系列的資料預處理：

增加了一個衍生特征 l o g ( f 1 + 1 ) log({f_1+1}) log(f1?+1)和 f 1 2 {f_1}^2 f1?2：目的是防止有些特征最小值為0，
特征資料做標準化：目的是防止離群資料的影響(使用的是訓練集上的均值和方差)
超過標準差5倍的資料做截斷：超出5倍的資料按照5倍來計算，防止特征資料的長尾效應

自己的一點思考

個人覺得本文讓人比較有識訓的點是：

構建新廣告的特征考慮較為全面，不僅考慮了廣告本身的吸引力，而且考慮了一些外部條件對廣告的影響，
分析實驗很“控制變數”，對于每一類新特征作者都用單獨的實驗驗證其了有效性，并且分析了他們之間可能存在的overlap(覆寫)的情況
現在資訊流推薦大家其實比的就是特征工程，誰的特征做得好，效果往往就會更顯著，在本文中作者發現，其實一些統計特征的效果比手工特征來的更有效，手工特征往往加入了太多工程師自身對業務的理解，而統計資料才是最貼近用戶行為的，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/247688.html

標籤：其他

上一篇：陣列實作的單鏈表

下一篇：資料結構---堆疊

【資訊流推薦論文大賞】Predicting Clicks: Estimating the Click-Through Rate for New Ads