摘要:我們再來看國內(nèi)一線公司內(nèi)的一個實(shí)驗(yàn)吧數(shù)據(jù)訓(xùn)練營都在用的方法,詳解測試的那些坑如上是不同的引導(dǎo)卡片樣式的實(shí)驗(yàn),最終結(jié)果樣式比樣式的提升。設(shè)指標(biāo)數(shù)值隱變量列顯變量列含方案變量。
作者|螞蟻金服人工智能部產(chǎn)品經(jīng)理 范磊
本文首發(fā)|微信公眾號 友盟數(shù)據(jù)服務(wù) (ID:umengcom),轉(zhuǎn)載請注明出處
If you are not running experiments,you are probably not growing!
——by Sean Ellis
Sean Ellis 是增長黑客模型(AARRR)之父,增長黑客模型中提到的一個重要思想就是“AB實(shí)驗(yàn)”。
從某種意義上講,自然界早就給了我們足夠多的啟示。為了適應(yīng)多變的環(huán)境,生物群體每天都在發(fā)生基因的變異,最終物競天擇,適者生存,留下了最好的基因。這個精巧絕倫的生物算法恐怕是造物者布置的最成功的AB實(shí)驗(yàn)吧。
將目光轉(zhuǎn)到互聯(lián)網(wǎng)世界,AB實(shí)驗(yàn)的受重視程度正在空前提高。
我們來看兩個著名案例
案例1 :奧巴馬宣傳團(tuán)隊(duì)用AB實(shí)驗(yàn)幫其獲得更高的支持率
2008年,奧巴馬在競選中勝出,出任美國第44任總統(tǒng),這離不開其個人人格魅力,但他的競選宣傳團(tuán)隊(duì)的作用也是不可忽略的,在總統(tǒng)競選頁面上,他的團(tuán)隊(duì)就用AB實(shí)驗(yàn)在16種方案中找到了最佳方案,將競選頁面"change"的轉(zhuǎn)化率提升40.6%。
實(shí)驗(yàn)這樣設(shè)計(jì)的:圖一中的圖片或視頻與圖二中的不同文案按鈕任意組合,形成4*4共16種不同方案組合,每個方案都獲得一定比例的流量,觀察一段時間后,從中選擇轉(zhuǎn)化率最高的方案,推廣到全部用戶。
最終如下方案勝出:
其團(tuán)隊(duì)事后給出的解釋是:視頻播放給用戶很大壓力,且當(dāng)時的網(wǎng)絡(luò)環(huán)境不能保證播放效果,故視頻不如圖片,且美國人崇尚家庭文化,一副溫馨的全家福圖片能拉近與選民的距離。至于按鈕文案,則是因?yàn)槊绹x民的獨(dú)立思考意識高,“join us”、“sign up”等文案讓人感覺非常簡單粗暴,有煽動的嫌疑,所以大家更接受平和一點(diǎn)的“l(fā)earn more”。
案例2 :Facebook用AB實(shí)驗(yàn)挽救了20%的虧損
2012年,F(xiàn)acebook的產(chǎn)品vp Sam Lessin在扎克伯克的大力支持下,親率30人團(tuán)隊(duì)花費(fèi)大半年時間開發(fā)了一款新的版本。在上線前邀請的一些外部用戶與內(nèi)部員工的評價中,新版本酷炫時尚,比老版本好看的多。如圖:
(上圖為老版)
Facebook不愧是一家世界一流的互聯(lián)網(wǎng)公司,重大的迭代一定會進(jìn)行AB實(shí)驗(yàn)。他們先分配1%的流量給新版本,然后逐漸增多到2%,5%......實(shí)驗(yàn)的結(jié)果出乎大家意料,新版本在用戶參與度、在線時長、廣告展示數(shù)、營收等四個核心指標(biāo)的表現(xiàn)上嚴(yán)重落后老版本,剛開始大家覺得可能是用戶不習(xí)慣,但隨著新版本流量放大到12%,觀察的時間也拉長到3個月,但情況同樣很糟,新版本直接導(dǎo)致了20%的營收下降。最終Facebook壯士斷腕,讓所有用戶回滾到老版本,這才恢復(fù)了之前的數(shù)據(jù)。
而在國內(nèi),一家知名的大學(xué)生社交網(wǎng)站因?yàn)榭吹搅苏谶M(jìn)行小流量實(shí)驗(yàn)的B方案,就直接copy并快速全流量上線,結(jié)果你們都知道的。到現(xiàn)在,這家網(wǎng)站已經(jīng)徹底淪為了三流互聯(lián)網(wǎng)產(chǎn)品。
由此可見失敗的產(chǎn)品方案不可怕,可怕的是沒有經(jīng)過AB實(shí)驗(yàn)就直接上線的公司制度和文化。
我們再來看國內(nèi)一線公司內(nèi)的一個AB實(shí)驗(yàn)case吧!
數(shù)據(jù)訓(xùn)練營|BAT都在用的方法,詳解A/B測試的那些坑!
如上是不同的引導(dǎo)卡片樣式的AB實(shí)驗(yàn),最終結(jié)果樣式2比樣式1的CTR提升24.8%。
你的團(tuán)隊(duì)是否有這樣的問題?
1、不經(jīng)過AB實(shí)驗(yàn)就直接全流量上線,成員在上線后拼命找數(shù)據(jù)證明自己正確,即便證據(jù)牽強(qiáng),只要向外發(fā)布聲明都千篇一律##指標(biāo)又提升了##,眾人紛紛點(diǎn)贊。要知道Google、Facebook、Microsoft做AB實(shí)驗(yàn)的經(jīng)驗(yàn)是——90%的新設(shè)計(jì)都不如線上版本。及時你的團(tuán)隊(duì)也很牛,但也不至于把谷哥、face哥、微軟哥吊打吧?
2、你的團(tuán)隊(duì)非常有想法,但大家各執(zhí)己見,誰也不能說服誰,導(dǎo)致團(tuán)隊(duì)決策變得很困難。
團(tuán)隊(duì)的改變從第一個AB實(shí)驗(yàn)開始——誰的方案好,誰的方案能推全,與其吵吵吵,不如布置個AB實(shí)驗(yàn),用數(shù)據(jù)來PK。
下文為你詳細(xì)解釋下AB實(shí)驗(yàn)的基本概念和常踩之坑。
什么是AB實(shí)驗(yàn)?
舉個例子,你提出了一個產(chǎn)品改進(jìn)方案(假設(shè)叫B),但不確定是否效果比線上版本(假設(shè)叫A)好,于是就將線上用戶1%的流量分到B,99%的流量分到A,持續(xù)觀察一段時間,如果B比A好,就將B推到100%的流量,如果A比B好,那就重新修改你的設(shè)計(jì)方案,重新再做實(shí)驗(yàn)。而如果不做AB實(shí)驗(yàn)直接上線新方案,如Facebook的例子,新方案甚至可能會毀掉你的產(chǎn)品。這里的方案可能是一組算法、一組文案、一組運(yùn)營活動、一組UI樣式,同時實(shí)驗(yàn)的并不一定是AB兩種方案,很可能是ABCDE...實(shí)驗(yàn)。
AB實(shí)驗(yàn)會遇到的問題
AB實(shí)驗(yàn)的實(shí)現(xiàn)當(dāng)然不會像上面的例子一樣簡單,比如你會遇到下面的問題:
1、如何確保1%的流量與99%的流量用戶群特征分布是一致的?
2、如果在實(shí)驗(yàn)的過程中有新的方案想法C,能否直接發(fā)布到線上同時實(shí)驗(yàn)?
3、如何同時并行所需總流量超過100%的多組實(shí)驗(yàn)?
4、如何選取指標(biāo)衡量AB方案,如果多個指標(biāo)數(shù)據(jù)表現(xiàn)不一,怎么決策?
5、如何確定方案B與A的指標(biāo)數(shù)值不同是隨機(jī)誤差造成還是統(tǒng)計(jì)可信的?
......
AB實(shí)驗(yàn)的基本原理是“控制變量法”。
設(shè)指標(biāo)數(shù)值=F({隱變量列}、{顯變量列(含方案變量)})。一個指標(biāo)的數(shù)據(jù)表現(xiàn)是由函數(shù)F和多個變量取值共同決定,所以指標(biāo)衡量結(jié)果不能簡單歸因于方案的差異,特別是其中還有很多我們永遠(yuǎn)無法知道的隱變量在施加影響。
那么我們是否要知道F和所有的變量才能下結(jié)論么?還有更加簡便的方法。我們可以確保兩個方案中其他的變量保持一致,那么A、B方案的指標(biāo)結(jié)果差異就只能歸結(jié)為版本的差異。AB實(shí)驗(yàn)就是利用控制變量法的思想,保證各個產(chǎn)品方案針對同質(zhì)人群(特征分布相同)、同一時間進(jìn)行實(shí)驗(yàn),確保了除方案變量外其他變量一致,故能判定指標(biāo)差異是方案不同造成的,從而選擇出優(yōu)勝版本全流量上線,實(shí)現(xiàn)數(shù)據(jù)增長。
AB實(shí)驗(yàn)的作用很大,但是AB實(shí)驗(yàn)的實(shí)現(xiàn)并不簡單,往往會踩坑無數(shù)。
AB實(shí)驗(yàn)的坑有哪些?
1、人群不同質(zhì)
AB實(shí)驗(yàn)需要切分流量到不同方案,如果不能正確切分,使得分到不同方案的用戶群體特征分布一致,那么實(shí)驗(yàn)將沒有任何意義。為了便于理解,我們來看一個例子:
如果我們要對人群G做一個AB實(shí)驗(yàn)來找到發(fā)放什么禮品才能使用戶的注冊轉(zhuǎn)化率更高?A、B分別代表發(fā)放不同的獎品BB霜與剃須刀,G由子群G1與G2構(gòu)成(G1、G2分別代表女生、男生,且各占50%)。按照同質(zhì)用戶的要求,分給這兩方案的用戶流量中男女比例必須與總體一致,也即女:男=1:1。
這時,發(fā)生了一些意外......
實(shí)驗(yàn)中分給方案A的群體不幸都是G1(女生),分給方案B的群體是G2(男生),最終一種獎品比另外一種獎品有更高的注冊轉(zhuǎn)化率,比如A高于B,那么這時能下結(jié)論“獎品A比獎品B更受用戶喜歡,應(yīng)該給所有用戶發(fā)放獎品A”么?
肯定是不能的。這個決策相當(dāng)于認(rèn)為女生喜歡的就是男生喜歡的,根據(jù)實(shí)驗(yàn)結(jié)論,你應(yīng)該對所有的用戶G都發(fā)放注冊轉(zhuǎn)化率更高的禮品A。試想下男生領(lǐng)到BB霜時他們內(nèi)心是何種感受?
這里的問題就是不同方案分得的人群是不同質(zhì)帶來的。上述舉的例子為了便于理解,故比較絕對,實(shí)際過程中遇到更多的是A方案、B方案都是男女混合的群體,但是比例卻與總體1:1的分布不同,這樣同樣帶來錯誤的實(shí)驗(yàn)結(jié)論。
所以設(shè)計(jì)合理的分流算法,確保分流到每個方案的都是同一特征分布的人群是AB實(shí)驗(yàn)結(jié)論可信的前提。達(dá)爾文AB實(shí)驗(yàn)系統(tǒng)經(jīng)過一年多的探索,已形成一套相對可靠的分流算法。
2、實(shí)驗(yàn)不同時
在上面的例子中,如果方案A與方案B都是分到同一特征分布的群體G,那么數(shù)據(jù)一定具有可比性么?不一定。還是用極端的例子幫助理解。假設(shè)第一天,A方案分到100萬個用戶流量,B方案分到0個用戶流量,第二天A方案分到0個流量,B方案分到100萬個用戶流量,從整體看,這兩天的A方案與B方案的累計(jì)實(shí)驗(yàn)流量都是100萬,且人群是同質(zhì)的,實(shí)驗(yàn)結(jié)果應(yīng)該可信,但事與愿違,如果這是一個社交網(wǎng)站,實(shí)驗(yàn)是為了觀察不同產(chǎn)品版本A和B下用戶的主動加好友數(shù)量,則A方案明顯優(yōu)勢大很多,畢竟用戶多了一整天的時間去添加好友,這種情況下任何時間截面數(shù)據(jù)B都處于劣勢,且這種劣勢并不是方案不同造成的。同理,一個博客網(wǎng)站,如果對比不同方案下用戶的博客開通率、撰寫率,也可能犯同樣的錯誤。
另外一種情況是,在一些特殊日子中,用戶的活躍度會暫時性增高,如果A方案的作用時間剛好是節(jié)日,方案B的作用時間非節(jié)日,那么顯然這種比較對于B方案是不公平的。
上文提到的公式:“指標(biāo)結(jié)果=F({隱變量列}、{顯變量列(含方案變量)})”,隱變量、顯變量中很大一部分跟時間相關(guān),時間不同,這些變量的取值也不同,從而就破壞了控制變量法的前提,得不出正確的實(shí)驗(yàn)結(jié)論。
最后列舉一個我們參與的一個case讓大家感受下:
樣式1的文案:《葵花寶典》帶你輕松使用XXX
樣式2的文案:哪些功能最熱門,我來告訴你
由于早期未規(guī)范實(shí)驗(yàn)管理規(guī)范,兩個樣式的實(shí)驗(yàn)并非同時開始:
1、樣式1,在4月7日的10:00開始實(shí)驗(yàn)
2、樣式2,在4月7日的0:00開始實(shí)驗(yàn)
最終統(tǒng)計(jì)的表現(xiàn)不一:
如果看4月7日10:00之后進(jìn)入實(shí)驗(yàn)的用戶數(shù)據(jù),樣式2比樣式1的CTR只提升了大約0.3%,符合實(shí)驗(yàn)同時的前提條件,因此結(jié)論可信;
但如果看4月7日全天的數(shù)據(jù),樣式2比樣式1的CTR提升了大約1%,這個不符合我們提到的實(shí)驗(yàn)同時做的條件,結(jié)論不可信;
此處也告訴我們:
1、進(jìn)行對比的各個實(shí)驗(yàn)版本(上文的樣式1與樣式2)一定要同時開啟實(shí)驗(yàn)
2、實(shí)驗(yàn)過程中不能隨意修改每個版本的流量,這也會間接導(dǎo)致上述問題
3、沒有AA實(shí)驗(yàn)的意識
AA實(shí)驗(yàn)是AB實(shí)驗(yàn)的孿生兄弟,有的互聯(lián)網(wǎng)公司也叫空轉(zhuǎn)實(shí)驗(yàn)。AA指的是實(shí)驗(yàn)中的各個方案都是一致的。這么做的目的是啥?這是為了測試埋點(diǎn)、分流、實(shí)驗(yàn)統(tǒng)計(jì)的正確性,增加AB實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)論可信度。
設(shè)命題1為:“如果實(shí)驗(yàn)的埋點(diǎn)、分流和統(tǒng)計(jì)都沒有問題,那么AA實(shí)驗(yàn)中各個方案的數(shù)據(jù)表現(xiàn)一定一致”,若命題1成立,則其逆否命題2:“如果AA實(shí)驗(yàn)中各個方案的數(shù)據(jù)表現(xiàn)存在顯著差異,則實(shí)驗(yàn)的埋點(diǎn)、分流和統(tǒng)計(jì)肯定至少一項(xiàng)有問題。”也必定成立。
嚴(yán)格意義上講AA實(shí)驗(yàn)的通過并不能證明上述三項(xiàng)(埋點(diǎn)、分流、統(tǒng)計(jì))絕對沒有問題,但是AA實(shí)驗(yàn)不通過一定能證明上述三項(xiàng)至少一項(xiàng)存在問題。
所以具備AB實(shí)驗(yàn)素養(yǎng)的團(tuán)隊(duì),一定會在AB實(shí)驗(yàn)前布置AA實(shí)驗(yàn)。
4、實(shí)驗(yàn)反轉(zhuǎn)
假如一個實(shí)驗(yàn)布置到線上第一天,方案A比方案B好,能否代表第二天,第三天的數(shù)據(jù)表現(xiàn)還是如此?
用戶進(jìn)入到新方案中,很可能因?yàn)楹闷娑憩F(xiàn)的更加活躍,但隨著時間推移,逐漸趨于冷靜,數(shù)據(jù)表現(xiàn)回到本該有的水平,如果實(shí)驗(yàn)觀察期設(shè)置的過早,則容易得出錯誤的結(jié)論。反過來也如此,有的改版用戶很不習(xí)慣,但用了熟練之后發(fā)現(xiàn)比老版更便捷,數(shù)據(jù)會逐漸回暖。
另外一方面,做實(shí)驗(yàn)的樣本量太少,也可能出現(xiàn)反轉(zhuǎn),拋100次硬幣和拋100萬次硬幣正面的頻次很可能不一樣,根據(jù)大數(shù)定律,隨著隨機(jī)實(shí)驗(yàn)的次數(shù)增加,隨機(jī)變量的頻次分布趨向于其概率分布。在這里,假設(shè)實(shí)驗(yàn)的第一天只有100個用戶進(jìn)入,由于樣本量太少,實(shí)驗(yàn)結(jié)果的隨機(jī)性太強(qiáng),隨著天數(shù)增加,實(shí)驗(yàn)樣本也增加,實(shí)驗(yàn)結(jié)果可能會反轉(zhuǎn)。
一般情況下,我們不建議樣本量小于1000用戶的產(chǎn)品進(jìn)行AB實(shí)驗(yàn),因?yàn)閷?shí)驗(yàn)結(jié)果很難得到保證。
5、延滯效應(yīng)
記得我們在上化學(xué)實(shí)驗(yàn)課時,老師一定是先讓你把試管洗干凈吧?這么做可不只是為了衛(wèi)生。待實(shí)驗(yàn)的化學(xué)藥劑如果與試管中殘留的藥劑混合,則實(shí)際實(shí)驗(yàn)的則是這種“被混合的藥劑”,實(shí)驗(yàn)結(jié)果當(dāng)然不可信。上述說的問題就是carry over——延滯效應(yīng)。
同樣在互聯(lián)網(wǎng)產(chǎn)品實(shí)驗(yàn)中,也存在這樣的問題。舉個例子,編號為00001-10000與編號10001-20000的用戶之前被分到不同的實(shí)驗(yàn)方案(A和B)進(jìn)行實(shí)驗(yàn),這個實(shí)驗(yàn)結(jié)束后團(tuán)隊(duì)開始要進(jìn)行一個新的實(shí)驗(yàn),如果沒有特殊處理,則可能00001-10000及10001-20000的用戶也是被分到兩個方案中(A1,B1),此時實(shí)驗(yàn)結(jié)果可信么?00001-10000的用戶之前經(jīng)歷過方案A,現(xiàn)在全部落在了方案A1上,10001-20000的用戶之前經(jīng)歷了方案B,現(xiàn)在全部落在了方案B1上,也許在做第一個實(shí)驗(yàn)前兩個用戶群是同質(zhì)的,但做了第一個實(shí)驗(yàn)后,這兩個群體已經(jīng)不同質(zhì),要進(jìn)行第二個實(shí)驗(yàn)則必須采用一定的算法將兩個用戶群重新打散,獲得 一個新的編號排列,再切分出兩個同質(zhì)人群進(jìn)行第二個實(shí)驗(yàn),或者重新拿出新的號段出來實(shí)驗(yàn),比方20001-30000,30001-40000。
以上列舉的只是一些常識性的坑,實(shí)際過程中還會遇到更多.....
在國內(nèi)的頂級互聯(lián)網(wǎng)公司BAT中,AB實(shí)驗(yàn)已非常普遍,百度同時有上千個AB實(shí)驗(yàn)并行,阿里巴巴和騰訊也有自己的AB實(shí)驗(yàn)系統(tǒng)用以支持多業(yè)務(wù)大規(guī)模并行的AB實(shí)驗(yàn)。
“如何把AB實(shí)驗(yàn)文化根植到公司的基因中去?”,時代正在向所有的互聯(lián)網(wǎng)公司發(fā)出提問。
本文首發(fā)自微信公眾號 友盟數(shù)據(jù)服務(wù) (ID:umengcom),轉(zhuǎn)載請注明出處
數(shù)據(jù)智能 驅(qū)動品牌 / 業(yè)務(wù)持續(xù)增長
歡迎點(diǎn)擊:【友盟+】官網(wǎng) 了解更多解決方案
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://m.hztianpu.com/yun/8838.html
摘要:于是乎,冰河寫了一個腳本完美去除了桌面圖標(biāo)煩人的小箭頭。今天,給大家分享一個如何完美去除桌面快捷圖標(biāo)小箭頭的技巧,希望能夠給大家?guī)韼椭?。這種方法不會導(dǎo)致任何問題可放心使用,冰河已經(jīng)親自測試過了。 ...
摘要:從標(biāo)題上可以看出,這是一篇在實(shí)例分割問題中研究擴(kuò)展分割物體類別數(shù)量的論文。試驗(yàn)結(jié)果表明,這個擴(kuò)展可以改進(jìn)基準(zhǔn)和權(quán)重傳遞方法。 今年10月,何愷明的論文Mask R-CNN摘下ICCV 2017的較佳論文獎(Best Paper Award),如今,何愷明團(tuán)隊(duì)在Mask R-CNN的基礎(chǔ)上更近一步,推出了(以下稱Mask^X R-CNN)。這篇論文的第一作者是伯克利大學(xué)的在讀博士生胡戎航(清華...
摘要:這次比賽的題目是給定年月份的用戶在不同地點(diǎn)口碑購買記錄,以及年月淘寶上用戶的購物行為數(shù)據(jù),來預(yù)測月這一整月用戶來到一個地點(diǎn)之后會光顧哪些口碑商鋪。 一直想總結(jié)一下這次的比賽,拖啊拖。。。一直等到現(xiàn)在,趁著現(xiàn)在要找實(shí)習(xí),好好總結(jié)一下。 比賽題目 比賽的官方網(wǎng)站在這,IJCAI SocInf16。 這次比賽的題目是給定 2015 年 7 ~ 11 月份的用戶在不同地點(diǎn)口碑購買記錄,以及 2...
閱讀 3213·2021-11-22 12:01
閱讀 3834·2021-08-30 09:46
閱讀 836·2019-08-30 13:48
閱讀 3277·2019-08-29 16:43
閱讀 1737·2019-08-29 16:33
閱讀 1916·2019-08-29 13:44
閱讀 1479·2019-08-26 13:45
閱讀 2288·2019-08-26 11:44