AB測驗的原理很簡單,只用到了最簡單的統計假設檢驗,但表面的簡單通常都隱藏著陷阱,這一點沒有經過實踐的摸爬滾打是不容易看到的,今天我就把前人已經踩過的坑,一共15個,給大家分享一下,在分享之前,大家腦中一定要有個概念,AB測驗雖然簡單且強大,但是其成立是有前提的:
- A組和B組的用戶一定是要“隨機”分配,隨機這個事很有學問,絕對的隨機甚至根本不可能,實際中只能做到盡量接近真隨機,換句話說,隨機性并不總是成立,你要仔細小心它失效的場景,
- 在以你測驗的時間點為中心的一定時間范圍內,用戶的行為是不變的,
只要牢記并時刻檢查這兩點假設,那么很多下面的陷阱你自然就能避免了,
1. 不做AB測驗
很顯然,我們不能不做AB測驗,不要企圖用一些其他方法替代AB測驗,比如:通過比較產品上線之前N天和之后N天的情況,對比分析去得出結論,這不也是AB對比嗎?看起來沒毛病,這種方法也不是完全沒有用,但是很不穩定,所以不要用,
2. 亂作AB測驗
既然AB大法這么好用,那么我們全靠它不就行了嗎?以后有任何功能任何改動都先搞個AB測驗吧!AB測驗并不是做的越多越好,我們可以通過下面簡單的公式來看一下:

我們追求的是總的效果,除了注重數量更要注重質量,
3. 采樣污染
舉個例子,如果你在節假日對你的產品做AB測驗,那么測驗階段的用戶群(樣本)和平時的用戶群自然會有很大的差異(回顧開頭講的第二條前提條件),這樣很難得出你想要的測驗結果,AB測驗無法在全體樣本上進行實驗,所以必須采樣,采樣要保證隨機性且能代表總體樣本的分布,做實驗的時候就要特別注意避免一些可能導致采樣污染的特殊因素,
4. 時間范圍不夠
除了要避免在一些特殊時間進行測驗,測驗的時間還要足夠長,理由如下:
- 時間長有助于收集更多的資料,保證統計顯著性
- 如果新的特征改變比較明顯,老用戶可能會不適應,那么你需要給老用戶一定的時間去適應你的改變,然后收集的資料才更有統計意義,(參考開頭提到的第二條準則)
5. 只關注平均值
如果測驗結果顯示新版本比舊版本平均多吸引了30%的用戶,那么是否就證明萬事大吉,可以開開心心上線了呢? 還不行,這個時候還要對更細粒度的資料做一些分析,保證你看到的“好結果”是真的, 舉個極端點例子,萬一是系統Bug導致新版本多統計出了更多的用戶呢? 我們相信,在AB實驗結束并且展現了良好的結果時,你已經基本接近成功了,但是永遠不要在分析更詳細用戶資料之前下結論,
6. 忽視技術實作
有些看不見的東西一樣會影響用戶,AB測驗階段除了產品特性的不同,技術細節也會改變,這些會不會影響到實驗結果? 如果新版本加載更多的css資源,會不會導致頁面加載變慢?這些看不見的細節也會影響用戶體驗,給實驗結果帶來干擾,
7. 不去思考為什么
AB測驗不會一直成功,甚至失敗的次數可能更多,但是如果實驗結束之后不去思考為什么,那才是徹底的失敗,實際上AB測驗失敗的時候,才是我們從中學習并真正了解用戶的時候,千萬不要放棄這樣的機會,要多問些為什么,
“想要提高成功率,先提高失敗率,”

8. 用錯誤的度量標準
舉個例子,如果你優化的是網站首頁的性能,那么就不要拿全站的統計結果去做度量標準,度量標準要選好,不要想當然,
9. 做一系列的測驗
如果新版本有10個細節上的改動,那么是不是我們要做10個AB測驗來分別測驗他們的效果呢? 當然不行,千萬不要這么做,產品的改動效果絕對不是線性相加的,不同的特征之間要一起組合才能生效,就好比把背景變黑之后一定要把字體變白才行,
10. 實驗設定有噪聲
還有很多我們無法預料的因素可能會影響到實驗結果,那么怎么辦呢? 我們不止要做AB測驗,還要做AA測驗,用AA測驗來保證實驗設定本身沒有噪聲干擾,這個也很重要,于是在實際中你要把1/3的用戶分配給B組,1/3的用戶分配給第一個A組,1/3的用戶分配給第二個A組,
11. 忽略環境的改變
不管你的AB測驗是成功了還是失敗了,在一定時間之后你都要重新審視它,因為環境變了,昨天失敗的AB測驗,很可能是你的理念超前了,也許過了一年用戶就可以接受了呢?一次失敗不代表用永遠失敗,反之亦然,
12. 交叉訪問污染
當線上同時存在兩個版本的時候,你一定要考慮到單個用戶的體驗,如果一個用戶在不同瀏覽器、不同設備上訪問到了不同的版本,那么可能會帶來用戶體驗的下降,同時對收集的資料造成干擾, 比如,如果AB版本之間的差異過于明顯,那么老顧客可能就會很討厭那個新版本,而在新版本上表現出消極的行為,同時在老版本上表現積極的行為,而我們無法從統計結果中對這種偏差就行糾正,所以保證單個用戶體驗的一致性就很重要,
13. 漏斗污染(Funnel pollution)
不確定這個翻譯準確不準確,就直接按英文直譯了,如果你是一個電商網站,那么你最終的目標是要用戶下單付款,你的優化目標應該是針對整個下單的全流程,并且以最終下單的數量作為度量標準,假如你在首頁做了某些活度,讓點擊產品頁面的用戶大幅度提升,有些統計資料看起來會很漂亮,但是對最終的結果可能沒有任何幫助,這個也要注意,
14. 同時運行多個AB測驗
線上同時存在多個版本的話,實在是有點復雜,一般情況下不會這么干,但仍要警惕,
15. 使用錯誤的經驗
AB實驗畢竟是一項科學實驗,所以我們要用資料說話,不能想當然,不要亂用一些道聽途說的經驗,比如:“1000個用戶樣本就夠了”,實際上收集多少用戶的資料是要嚴格計算的,上一篇文章我們分享過類似的工具,再比如,不要以為在桌面端測驗通過的方案,就可以放心在手機端同時上線了,實際上不同平臺的差異非常大,必須單獨進行AB測驗,
總之,要記住開頭提到的AB測驗成立的兩個前提,要時刻檢驗它們是否成立:
- A組和B組的用戶一定是要“隨機”分配,
- 在以你測驗的時間點為中心的一定時間范圍內,用戶的行為是不變的,
如果你喜歡以上內容,歡迎到我的個人主頁關注我:Homepage
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/33994.html
標籤:其他
上一篇:網路基礎 資料的傳輸

