文章目錄
- 太長不看版
- Motivation
- 為什么要預測廣告CTR?
- 為什么要預測新廣告的CTR?
- 廣告搜索框架
- 作者提出來的新特征
- 1. Estimating Term CTR
- 2. Estimating AD Quality
- 3. Measuring Order Specificity
- 4. External Sources Of Data
- 資料集
- 模型
- 自己的一點思考
太長不看版
Predicting Clicks: Estimating the Click-Through Rate for New Ads
論文主要思想:提出了一種預測新廣告CTR的辦法,
論文使用方法:提出了新的特征,使用邏輯回歸 (logistic regression) 模型訓練,使用模型預測CTR的 KL散度和均方差(MSE)來驗證實驗效果,
上述新的特征包括以下四個方面:
- CTR相關特征:
- Term CTR:包含相同關鍵詞的其他廣告的CTR
- Related Term CTR:包含相近關鍵詞的其他廣告的CTR
- 新廣告本身特征
- Appeareanc:廣告本身是否美觀
- Attention Capture:廣告是否有吸引力
- Reputation:廣告主的知名度
- Landing Page Quality:登陸頁的質量(我理解為廣告引流頁的質量)
- Relevance:廣告和用戶檢索詞 (search query)的相關性
- 廣告指向的明確性:
- 作者認為指向越明確的廣告CTR越高
- 外部特征:
- 關鍵詞在網路上的詞頻
- 關鍵詞在搜索引擎上的詞頻
Motivation
為什么要預測廣告CTR?
因為廣告主爸爸給錢,例如谷歌雅虎等廣告主爸爸會按照點擊結算方式(cost-per-click CPC)給錢,即用戶每點一次廣告,爸爸就要給一次錢,
卑微的廣告展示方怎么才能掙到更多錢呢,他們可以用這個公式計算收入的期望值:
E
a
d
[
r
e
v
e
n
u
e
]
=
p
a
d
(
c
l
i
c
k
)
?
C
P
C
a
d
E_{ad}[revenue] = p_{ad}(click)*CPC_{ad}
Ead?[revenue]=pad?(click)?CPCad?
其中
C
P
C
a
d
CPC_{ad}
CPCad?是廣告爸爸對一次點擊的出價,
p
a
d
(
c
l
i
c
k
)
p_{ad}(click)
pad?(click)是對該條廣告的點擊率預測(CTR),出價是爸爸定的,但是把CTR高的廣告往前放,卑微的廣告展示方就可以掙到更多錢,
這里論文作者做了一個簡單的解釋,在廣告展示界面上,排在越靠前的廣告被用戶注意到的可能性越大(這也導致CTR越大),因此,在決定廣告出現順序的時候,需要精確預估每條廣告的CTR,然后把CTR高的排前面,
在預估每條廣告的CTR時,作者先排除了廣告出現位置的影響,否則就會死鎖:廣告CTR越高越往前放,越往前放進而導致CTR越高,就不好計算了,

為什么要預測新廣告的CTR?
因為廣告主爸爸每天發來的新廣告特別多,由于缺少歷史點擊資料,無法準確預估其CTR,卑微的廣告展示方需要盡快確定新廣告質量,以決定投放順序,掙更多錢,所以作者針對這個問題,提出了一系列的新特征來擬合新廣告的質量,
廣告搜索框架
廣告的點擊率(CTR)由兩個因素決定:
- 用戶看到它的可能性:由廣告出現的位置(pos)決定
- 用戶看到它之后點擊它的可能性:由它本身質量決定
因此,廣告的點擊率可以公式化為:
p
(
c
l
i
c
k
∣
a
d
,
p
o
s
)
=
p
(
c
l
i
c
k
∣
a
d
,
p
o
s
,
s
e
e
n
)
?
p
(
s
e
e
n
∣
a
d
,
p
o
s
)
p(click|ad, pos) = p(click|ad,pos,seen)*p(seen|ad,pos)
p(click∣ad,pos)=p(click∣ad,pos,seen)?p(seen∣ad,pos)
為此,論文作者做了簡化假設,假設廣告被用戶看到的概率只與出現位置有關(與廣告本身質量無關);用戶看見廣告后,點擊它的概率只與廣告質量有關(與廣告出現位置無關),這里有點繞口,其實就是假定了上述兩個因素互相獨立,于是,公式可以簡化為:
p
(
c
l
i
c
k
∣
a
d
,
p
o
s
)
=
p
(
c
l
i
c
k
∣
a
d
,
s
e
e
n
)
?
p
(
s
e
e
n
∣
p
o
s
)
p(click|ad, pos) = p(click|ad,seen)*p(seen|pos)
p(click∣ad,pos)=p(click∣ad,seen)?p(seen∣pos)
本文中作者研究的CTR是
p
(
c
l
i
c
k
∣
a
d
,
s
e
e
n
)
p(click|ad,seen)
p(click∣ad,seen),即用戶看到廣告后點擊它的概率,因為廣告在不同位置被看到的概率可以假定為一條固定的曲線,對任何廣告,給定位置就有對應的“被看見概率”,所以這不是本文討論的范圍,
作者提出來的新特征
1. Estimating Term CTR
預測一條新廣告的CTR時,作者首先使用了和新廣告有相同或相近關鍵詞的其他廣告的CTR來構建特征,輔助預測,
1.1 Term CTR
含義:和當前廣告含有相同關鍵詞的廣告的平均CTR,
該特征的計算公式為:
f
0
(
a
d
)
=
α
C
T
R
 ̄
+
N
(
a
d
t
e
r
m
)
?
C
T
R
(
a
d
t
e
r
m
)
α
+
N
(
a
d
t
e
r
m
)
f_{0}(ad) = \frac{\alpha \overline{CTR} + N(ad_{term} )*CTR(ad_{term})}{\alpha +N(ad_{term} )}
f0?(ad)=α+N(adterm?)αCTR+N(adterm?)?CTR(adterm?)?
其中:
- C T R  ̄ \overline{CTR} CTR 是訓練集中所有廣告的CTR的平均值(先驗特征)
-
α
\alpha
α 是先驗特征的比例
這兩項的作用是針對新廣告中有未出現過關鍵詞或者低頻關鍵詞, - N ( a d t e r m ) N(ad_{term}) N(adterm?) 是包含相同關鍵詞的其他廣告的數量(忽略詞序),
- C T R ( a d t e r m ) CTR(ad_{term}) CTR(adterm?) 是包含相同關鍵詞的其他廣告的平均CTR
本實驗中 α \alpha α設定為1,并且作者發現實驗結果對 α \alpha α取值不敏感,
實驗結果:

第一行是baseline,即只使用了
C
T
R
 ̄
\overline{CTR}
CTR 這個特征,第二行是使用了Term CTR的實驗結果,性能有13.28%的提升,
1.2. Related Term CTR
含義:與當前廣告有相關關鍵詞的廣告的平均CTR,
相關是指:假設
R
m
n
(
t
)
R_{mn}(t)
Rmn?(t)是一組廣告的關鍵詞,當從t中洗掉m個關鍵詞,從新廣告中洗掉n個關鍵詞后,他們會有相同關鍵詞, 可以理解為,將當前廣告的關鍵詞經過一定的增刪編輯操作后,可以得到的關鍵詞,就是相關關鍵詞,
R
m
n
(
t
)
=
{
∣
a
d
i
t
e
m
∩
t
∣
>
0
a
n
d
∣
t
?
a
d
i
t
e
m
∣
=
m
a
n
d
∣
a
d
i
t
e
m
?
t
∣
=
n
R_{mn}(t) = \left\{ \begin{array}{lr} |ad_{item} \cap t| > 0 \space \space and& \\ |t - ad_{item} | = m \space \space and\\ |ad_{item} - t| = n & \end{array} \right.
Rmn?(t)=????∣aditem?∩t∣>0 and∣t?aditem?∣=m and∣aditem??t∣=n??
例如,如果
t
t
t是“red shoes”,那么對于新廣告中的關鍵詞“buy red shoes”就是
R
01
R_{01}
R01?,關鍵詞“shoes”就是
R
10
R_{10}
R10?,關鍵詞“blue shoes”就是
R
11
{R_{11}}
R11?,
所以,該特征的計算公式為:
C
T
R
m
n
(
t
e
r
m
)
=
1
∣
R
m
n
(
t
e
r
m
)
∣
∑
x
∈
R
m
n
(
t
e
r
m
)
C
T
R
x
CTR_{mn}(term) = \frac{1}{|R_{mn(term)}|} \sum_{x\in R_{mn(term)}} CTR_{x}
CTRmn?(term)=∣Rmn(term)?∣1?x∈Rmn(term)?∑?CTRx?
其中CTR_{mn}(term)和上一個特征一樣要做平滑處理,
另外,作者還把相關廣告的數量也作為一個特征:
v
m
n
(
t
e
r
m
)
=
|
R
m
n
|
v_{mn}(term) = |R_{mn}|
vmn?(term)=|Rmn?|
實驗結果
參考table1的第三行,相比于baseline有19.67%的提升,
2. Estimating AD Quality
由于廣告的CTR的變化范圍很大,方差特別大,所以僅僅用CTR這個特征是不夠準確的,作者統計了一些常用關鍵詞的CTR變化范圍,如下圖:

例如,對于surgery這個關鍵詞,其最大的CTR是其平均CTR的5倍多,因此,作者還加入了廣告本身質量作為其特征,
2.1. Appearance
定義:廣告的外觀是否符合美學,
例如,廣告的標題和內容包含多少單詞,廣告的資本化程度好不好,是否有太多標點符號,長單詞多還是短單詞多?
2.2. Attention Capture
定義:廣告本身是否有吸引力,
例如,廣告的標題和內容里是否有“購買”、“加入”、“訂閱”等關鍵詞,是否提供了數量、價格、折扣等數字資訊?
2.3. Reputation
定義:廣告主的知名度
例如,顯示的URL是否以.com、.net、.edu等結尾,URL被分成了多少段 (book.com就比book.something.com要好) ,是否包含破折號和數字?因為短的域名往往更貴,所以域名越好,廣告主的實力越強,其廣告質量也相對更好,另外,用戶也會對自己更熟悉的域名更感興趣,
2.4. Landing page quality
定義:登陸頁的質量,
例如,登陸頁使用了flash嗎,符合W3C嗎,頁面中哪部分被圖片遮住了,是否使用了樣式表等?雖然登陸頁是用戶點擊進去之后才能看到,但是廣告往往會把用戶引導到用戶熟悉的登陸頁上,反過來想,登陸頁的質量也能反應用戶是否點擊該廣告的概率,
2.5. Relevance
定義:廣告和用戶檢索詞匯的相關度,
例如,關鍵詞是否準確的出現在標題中,關鍵詞的子集是否出現在標題或者廣告體中?
作者針對以上5個方面定義了81個新特征,并且添加了一元特征(unigram feature),例如作者統計了出現在訓練集中最頻繁的10000個關鍵詞,如果待測廣告中包含這些關鍵詞,該特征就取值為1,否則取值0,這些一元特征的作用是捕捉一些沒有被注意到的關鍵詞,這些詞可以增加我們對廣告特征的捕捉,
實驗結果

作者發現,在不使用廣告詞頻的一元特征,僅使用廣告本身質量特征,相對于baseline有20.72%的提升(圖最后一行),也就是相對于related term ctr只有1%的提升;如果加入廣告詞頻的一元特征,相對于baseline有23.45%的提升(圖倒數第二行),
作者說這一點令他們很震驚,畢竟他們本以為一些手工定義的廣告質量特征(前面說到的81個特征)會有很好的效果,可惜并不是,反而是一元特征比較有用,這里其實引發了我的一些思考,寫在了文章結尾,
3. Measuring Order Specificity
作者認為指向性明確的 (即廣告目標群體與廣告的關鍵詞更接近) 廣告會有更高的CTR,故作者將關鍵詞分成了74類,然后計算廣告中的關鍵詞與這74類的熵,用以表征廣告指向性是否明確,并作為一個特征進行計算,
此外,作者還將廣告訂單中不重復的單詞數量作為特征,與上述的指向性熵特征一起送入模型進行訓練,
實驗結果:

作者發現,加入這兩個特征后,模型的準確率提升到了28.97%,說明這兩個特征效果明顯,作者為了驗證這兩個特征是否都有正向收益,他還嘗試了只使用廣告指向性特征進行訓練,發現模型有26.37%的提升,而同時使用廣告指向性特征和不重復單詞數量特征,模型有28.97%的提升,說明這兩個特征都帶來了正向收益,
4. External Sources Of Data
定義:廣告中關鍵詞在Web中出現的頻率和在用戶近三個月中在搜索引擎中搜索的頻率,
作者認為,不僅可以用廣告本身的特征,還可以使用一些外部特征,即廣告中關鍵詞在Web和搜索引擎中的出現頻率,因為如果廣告中包含的關鍵詞是人們經常搜索的,說明該廣告有更大幾率會吸引人們點擊它,
對于廣告中關鍵詞在Web中出現的頻率,作者使用了一個巧妙的統計方法,作者通過統計在搜索引擎中搜索該關鍵詞,并統計包含該關鍵詞的網頁頁面數,并用這個數量代表關鍵詞出現的頻率,
對于關鍵詞在用戶搜索引擎中的出現的頻率,作者使用了用戶最近三個月在搜索引擎中的歷史記錄,并統計廣告中關鍵詞在用戶歷史記錄中的出現頻率,
另外,作者對上述兩個頻率特征進行了分桶處理,每個特征分別分了20個桶,
實驗結果

作者發現,這兩個特征能在baseline的基礎上帶來3.11%的正向收益,但是與前面的特征結合起來后,卻只有0.5%的額外收益,這說明此類特征與前面提出來的特征有較大的重合度,
資料集
本論文使用了微軟公司的搜索引擎上的廣告資訊,每個廣告都包含了以下幾個方面:
- Landing page:登陸頁
- Bid term:關鍵詞
- Title:廣告的標題
- Body:廣告的內容
- Display URL:廣告的超鏈接
- Clicks:自投放以來廣告被點擊的數量
- Views:自投放以來廣告被看到的數量
整個資料集包含了超過10000個廣告主爸爸,上百萬條廣告和50萬個關鍵詞,
由于本文研究的是新廣告的CTR,即我們不知道任何關于新廣告的資訊,也不知道該廣告主爸爸的任何資訊以及他原來投放廣告的資訊,故作者按照廣告主來劃分資料集,把屬于同一個廣告主的廣告放到一起,然后隨機抽取70%的廣告作為訓練集,10%作為驗證集,20%作為測驗集,
為了實驗的準確性,作者還過濾掉了瀏覽量少于100的廣告,因為這些廣告計算出來的CTR是不置信的,
模型
作者選用了邏輯回歸模型,因為它非常適合預測概率,總能得到0-1之間的概率結果:
C
T
R
=
1
1
+
e
?
Z
,
Z
=
∑
i
w
i
f
i
(
a
d
)
CTR = \frac{1}{1+e^{-Z}} ,\space Z = \sum_{i}{w_i f_i(ad)}
CTR=1+e?Z1?, Z=i∑?wi?fi?(ad)
其中
f
i
(
a
d
)
f_i(ad)
fi?(ad)是廣告中第
i
i
i個特征的值,
w
i
w_i
wi?是相應的權重矩陣,作者使用的是交叉熵損失函式,和一個均值為0,方差為0.1的高斯權重先驗(方差是通過多組實驗選了個最好的值),同時,作者還加了一個始終為1的偏置(常規操作),
此外,作者還做了一系列的資料預處理:
- 增加了一個衍生特征 l o g ( f 1 + 1 ) log({f_1+1}) log(f1?+1)和 f 1 2 {f_1}^2 f1?2:目的是防止有些特征最小值為0,
- 特征資料做標準化:目的是防止離群資料的影響(使用的是訓練集上的均值和方差)
- 超過標準差5倍的資料做截斷:超出5倍的資料按照5倍來計算,防止特征資料的長尾效應
自己的一點思考
個人覺得本文讓人比較有識訓的點是:
- 構建新廣告的特征考慮較為全面,不僅考慮了廣告本身的吸引力,而且考慮了一些外部條件對廣告的影響,
- 分析實驗很“控制變數”,對于每一類新特征作者都用單獨的實驗驗證其了有效性,并且分析了他們之間可能存在的overlap(覆寫)的情況
- 現在資訊流推薦大家其實比的就是特征工程,誰的特征做得好,效果往往就會更顯著,在本文中作者發現,其實一些統計特征的效果比手工特征來的更有效,手工特征往往加入了太多工程師自身對業務的理解,而統計資料才是最貼近用戶行為的,
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/247688.html
標籤:其他
上一篇:陣列實作的單鏈表
下一篇:資料結構---堆疊
