Netflix是如何做決策的?(四):漏報(bào)與功效
神譯局是36氪旗下編譯團(tuán)隊(duì),關(guān)注科技、商業(yè)、職場(chǎng)、生活等領(lǐng)域,重點(diǎn)介紹國(guó)外的新技術(shù)、新觀點(diǎn)、新風(fēng)向。
編者按:決策是行動(dòng)的指南。不管是個(gè)人還是企業(yè),每天都要面臨著無(wú)數(shù)的決策。決策的好壞會(huì)對(duì)結(jié)果產(chǎn)生巨大影響,如何做好決策是每個(gè)人都要上的一門(mén)必修課。在Netflix這里,他們采用了一種以實(shí)驗(yàn)為導(dǎo)向的決策流程,先小范圍地對(duì)不同方案進(jìn)行測(cè)試,根據(jù)對(duì)比效果調(diào)整,從而摸索出普遍適用的決策。他們?yōu)榇诉€在官方技術(shù)博客推出了關(guān)于Netflix如何用A/N測(cè)試做出決策的系列文章。本文來(lái)自編譯,是系列文章的第四篇。后續(xù)文章還將介紹實(shí)驗(yàn)在 Netflix 中的作用、Netflix對(duì)基礎(chǔ)設(shè)施的投資是如何為實(shí)驗(yàn)提供支撐和擴(kuò)展的,以及 Netflix內(nèi)部實(shí)驗(yàn)文化的重要性。
劃重點(diǎn):
功效給出的是特定實(shí)驗(yàn)設(shè)計(jì)和規(guī)模下真陽(yáng)性的概率
提高功效的手段一般有三種:增加效應(yīng)量、擴(kuò)大樣本規(guī)模、減少基礎(chǔ)總體指標(biāo)的可變性
約定俗成的功效一般是80%
誤報(bào)與漏報(bào)不能同時(shí)減少
Netflix 是如何做決策的?(一):介紹
Netflix是如何做決策的?(二):什么是 A/B 測(cè)試?
Netflix是如何做決策的?(三):誤報(bào)與統(tǒng)計(jì)顯著性
在《第 3 篇:誤報(bào)與統(tǒng)計(jì)顯著性》,我們定義了在解釋測(cè)試結(jié)果時(shí)可能會(huì)出現(xiàn)的兩種錯(cuò)誤類(lèi)型:誤報(bào)與漏報(bào)。然后,我們用拋硬幣這個(gè)簡(jiǎn)單的思維練習(xí)來(lái)建立對(duì)誤報(bào)和相關(guān)概念(如統(tǒng)計(jì)顯著性、p 值與置信區(qū)間)的直覺(jué)。在這篇文章里,我們將對(duì)漏報(bào)與統(tǒng)計(jì)功效的相關(guān)概念做同樣的事情。
圖 1:跟第 3 篇一樣,我們還是拿拋硬幣這個(gè)思維練習(xí),比如這個(gè)凱撒·奧古斯都面朝上的游戲,一邊建立起對(duì)核心統(tǒng)計(jì)概念的直覺(jué)。
漏報(bào)與功效
當(dāng)數(shù)據(jù)沒(méi)能表明治療組與控制組之間存在有意義的差異,但實(shí)際上差異是存在的時(shí)候,就會(huì)出現(xiàn)漏報(bào)(假陽(yáng)性,false positive)。繼續(xù)第 3 篇里面的示例,漏報(bào)對(duì)應(yīng)于把貓的照片標(biāo)記成“沒(méi)有貓”。漏報(bào)與功效這個(gè)統(tǒng)計(jì)概念密切相關(guān),功效給出的是特定實(shí)驗(yàn)設(shè)計(jì)和規(guī)模下真陽(yáng)性的概率。事實(shí)上,功效不過(guò)是1減去漏報(bào)率而已。
功效牽涉到的是對(duì)有關(guān)世界實(shí)際狀態(tài)的特定假設(shè)的可能結(jié)果——跟我們?cè)诘?3 篇里面首先要假設(shè)零假設(shè)為真來(lái)定義顯著性類(lèi)似。為了建立對(duì)功效的直覺(jué),我們不妨回到第 3 篇里面舉過(guò)的那個(gè)拋硬幣的例子,目標(biāo)是用計(jì)算拋 100 次硬幣時(shí)出現(xiàn)正面的比例這個(gè)實(shí)驗(yàn)來(lái)確定硬幣是不是均勻的。在硬幣是均勻的零假設(shè)下,結(jié)果分布如圖 2 所示,用黑色標(biāo)記。為了讓那張圖解釋起來(lái)更容易些,我們對(duì)直方圖的頂部進(jìn)行了平滑處理。
如果硬幣不均勻的話,這個(gè)實(shí)驗(yàn)會(huì)出現(xiàn)什么情況?為了讓這個(gè)思維練習(xí)更具體些,我們不妨看看當(dāng)我們有一枚硬幣出現(xiàn)正面的平均概率為64% 時(shí)會(huì)發(fā)生什么(為什么要選這個(gè)數(shù)字后面我們會(huì)解釋的)。因?yàn)槲覀兊膶?shí)驗(yàn)存在不確定性或噪音,所以我們不指望拋 100 次能夠正好看到有 64 次為正面。但就像假設(shè)硬幣是均勻的零假設(shè)一樣,如果這個(gè)特定的替代性假設(shè)為真,我們就可以計(jì)算粗所有可能的結(jié)果。這種分布如圖 2 的紅色曲線所示。
圖 2:用擲100 次硬幣然后計(jì)算正面朝上的占比這個(gè)例子來(lái)說(shuō)明功效。黑色和紅色虛線分別顯示的是假設(shè)出現(xiàn)正面概率為 50%(零假設(shè))與 64%(替換假設(shè)的特定值)的結(jié)果分布。在本例中,該替代方案的功效為 80%(紅色陰影)。
從上圖看,功效是替代分布(紅色)里面超出零假設(shè)(藍(lán)線和黑色曲線;參見(jiàn)第 3 篇)臨界值的部分。在本例中, 替代分布(紅色)有80%落在了較高的藍(lán)色線(該線劃定的是右側(cè)拒絕區(qū)域的臨界值)的右側(cè)。假設(shè)這枚硬幣正面朝上事實(shí)上的概率是 64%,那么本次測(cè)試的功效就是 80%。為了完整起見(jiàn),替代分布(紅色)還有一小部分落在左側(cè)拒絕區(qū)域內(nèi)(藍(lán)色短線的左側(cè))。
檢驗(yàn)的功效跟特定的假設(shè)的效應(yīng)量相對(duì)應(yīng)。在我們的例子里面,如果這個(gè)不均勻的硬幣正面朝上的實(shí)際概率為 64%,則檢測(cè)硬幣是否不均勻的功效為 80%。解釋如下:如果硬幣正面朝上的概率為 64%,并且我們反復(fù)進(jìn)行拋 100 次的實(shí)驗(yàn)并按照 5% 的顯著性水平做出決定,那么我們每5次實(shí)驗(yàn)得出拒絕硬幣是均勻的零假設(shè)的結(jié)論中大約有 4 個(gè)是對(duì)的。這些重復(fù)的實(shí)驗(yàn)當(dāng)中有 20% 會(huì)導(dǎo)致漏報(bào):也就是我們不會(huì)拒絕硬幣是均勻的零假設(shè),哪怕其實(shí)硬幣是不均勻的。
提高功效的辦法
在設(shè)計(jì) A/B 測(cè)試的時(shí)候,我們首先要確定顯著性水平(約定為 5%:如果治療與控制之間沒(méi)有差異的話,我們有 5% 的可能性出現(xiàn)誤報(bào)),然后我們?cè)O(shè)計(jì)實(shí)驗(yàn)來(lái)控制漏報(bào)。我們可以通過(guò)三個(gè)主要手段來(lái)提高功效,減少漏報(bào)的可能性:
效應(yīng)量。簡(jiǎn)而言之,效應(yīng)量(A 組和 B 組之間的指標(biāo)值差異)越大,我們能夠正確檢測(cè)到這種差異的概率就越高。為了建立直覺(jué),不妨假設(shè)做個(gè)實(shí)驗(yàn)來(lái)確定硬幣是否不均勻,我們要收集的數(shù)據(jù)是拋 100 里面出現(xiàn)正面的比例?,F(xiàn)在設(shè)想兩種場(chǎng)景。在第一種情況下,正面朝上的真實(shí)概率為 55%,而在第二種情況下為 75%。直觀上(以及數(shù)學(xué)上?。┪覀兊膶?shí)驗(yàn)更有可能在在第二種情況下將硬幣識(shí)別為不均勻。正面的真實(shí)概率與 50% 的零假設(shè)相差更大,所以實(shí)驗(yàn)產(chǎn)生的結(jié)果更有可能落在拒絕區(qū)域內(nèi)。在產(chǎn)品開(kāi)發(fā)的環(huán)境下,我們可以通過(guò)我們大膽增加要測(cè)試的假設(shè)的增量來(lái)增加指標(biāo)變動(dòng)的預(yù)期幅度。增加效應(yīng)量的另一個(gè)策略是在會(huì)員滿意度可能有更大的提升空間的產(chǎn)品新領(lǐng)域進(jìn)行測(cè)試。也就是說(shuō),通過(guò)實(shí)驗(yàn)學(xué)習(xí)的樂(lè)趣之一是其中會(huì)有驚喜元素:有時(shí)候,看似微小的變化可能也會(huì)對(duì)最高級(jí)別的指標(biāo)產(chǎn)生重大影響。
樣本規(guī)模。實(shí)驗(yàn)的單位越多,功效越高,越容易正確識(shí)別較小的效應(yīng)。為了建立直覺(jué),再設(shè)想去做個(gè)實(shí)驗(yàn)來(lái)確定硬幣是不是不均勻,我們要收集的數(shù)據(jù)是拋固定次數(shù)下正面朝上的比例,而正面朝上的真實(shí)概率為 64%。然后考慮兩種情況:第一種情況,我們拋20 次硬幣,第二種情況,我們拋100 次硬幣。直觀上(以及數(shù)學(xué)上!)而言,我們的實(shí)驗(yàn)更有可能在第二種情況下把硬幣識(shí)別成不均勻。因?yàn)樵谟辛烁鄶?shù)據(jù)的情況下,實(shí)驗(yàn)的結(jié)果會(huì)更接近 64% 的真實(shí)概率,而基于硬幣是均勻的假設(shè)下,結(jié)果應(yīng)該集中在 0.50 左右,導(dǎo)致拒絕區(qū)域侵占掉 50% 的值。在這些效應(yīng)相結(jié)合下,因此如果拿不均勻的硬幣做實(shí)驗(yàn),數(shù)據(jù)越多,結(jié)果就越有可能落入該拒絕區(qū)域,從而產(chǎn)生真陽(yáng)性。在產(chǎn)品開(kāi)發(fā)環(huán)境里,我們可以通過(guò)給測(cè)試分配更多的會(huì)員(或其他單位)或減少測(cè)試組的數(shù)量來(lái)提高功效,不過(guò)在每次測(cè)試的樣本量與同時(shí)可以進(jìn)行的不重疊的測(cè)試數(shù)量之間需要做出權(quán)衡(樣本量大,可進(jìn)行的測(cè)試數(shù)就少)。
基礎(chǔ)總體指標(biāo)的可變性。指標(biāo)在待測(cè)試總體里面越同質(zhì)化,就越容易正確識(shí)別真實(shí)效果。這個(gè)的直覺(jué)有點(diǎn)難以理解,我們那個(gè)簡(jiǎn)單的拋硬幣例子終于沒(méi)法解釋了。假設(shè)在Netflix這里,我們要進(jìn)行一項(xiàng)測(cè)試,目的是看看某些減少延遲(比方說(shuō)成員按下播放與開(kāi)始視頻播放之間的延遲)的措施是否有效。鑒于大家用來(lái)訪問(wèn) Netflix 的設(shè)備與互聯(lián)網(wǎng)連接的多樣性,在我們的用戶當(dāng)中這個(gè)指標(biāo)會(huì)存在很多自然的可變性。因此,如果測(cè)試治療組的結(jié)果只是延遲指標(biāo)小幅減少的話,是很難識(shí)別成功的——因?yàn)椴煌瑫?huì)員之間可變性的“噪音”比信號(hào)要強(qiáng)。相比之下,如果我們對(duì)采用類(lèi)似網(wǎng)絡(luò)連接與類(lèi)似設(shè)備的一組會(huì)員進(jìn)行測(cè)試的話,那么強(qiáng)度不大的信號(hào)就會(huì)更容易識(shí)別——因?yàn)榭赡軙?huì)壓制信號(hào)的噪音更少了。在 Netflix 這里,我們花費(fèi)了大量時(shí)間來(lái)構(gòu)建利用這種直覺(jué)的統(tǒng)計(jì)分析模型,并通過(guò)有效降低可變性來(lái)提高功效;相關(guān)做法的技術(shù)說(shuō)明,請(qǐng)參見(jiàn)此處。
為合理和有意義的效應(yīng)設(shè)定功效
功效和漏報(bào)率是假定效應(yīng)量的函數(shù)。就像 5% 的誤報(bào)率是一個(gè)被廣泛接受的約定一樣,功效的經(jīng)驗(yàn)法則是將 80% 的功效定為合理且有意義的效應(yīng)量的目標(biāo)。也就是說(shuō),我們假設(shè)了一個(gè)效應(yīng)量,然后設(shè)計(jì)實(shí)驗(yàn)(主要是設(shè)置樣本大小),這樣的話,如果治療體驗(yàn)的真實(shí)影響如我們假設(shè)一樣的話,在80%的時(shí)間內(nèi)測(cè)試都能夠正確地識(shí)別出效應(yīng)的存在。在 20% 的時(shí)間內(nèi)測(cè)試結(jié)果會(huì)是漏報(bào):也就是說(shuō)其實(shí)是有效果的,但我們對(duì)測(cè)試觀察到的結(jié)果不在拒絕區(qū)域內(nèi),所以我們無(wú)法得出有效應(yīng)的結(jié)論。這就是為什么上面的例子用了 64% 正面朝上的概率:拋100 次的實(shí)驗(yàn)功效為 80%。
合理的效應(yīng)量由哪些東西構(gòu)成這個(gè)問(wèn)題很棘手,因?yàn)闇y(cè)試可能會(huì)產(chǎn)生意外結(jié)果。但是結(jié)合領(lǐng)域知識(shí)與常識(shí)一般可以提供可靠的估計(jì)。在測(cè)試歷史悠久的領(lǐng)域,比方說(shuō)幫助Netflix 會(huì)員選擇適合自己的內(nèi)容的優(yōu)化推薦系統(tǒng),我們對(duì)測(cè)試大致產(chǎn)生的效應(yīng)量(不管是陽(yáng)性還是陰性)已經(jīng)有了明確想法。在對(duì)過(guò)去的效應(yīng)量以及分析策略有了了解之后,我們就可以設(shè)置樣本大小,來(lái)確保測(cè)試對(duì)合理的指標(biāo)變動(dòng)具有 80% 的功效。
不管是在這個(gè)實(shí)驗(yàn)設(shè)計(jì)階段還是在決定往什么地方做出努力時(shí),第二個(gè)考慮因素是要確定什么對(duì)用來(lái)決定測(cè)試的主要指標(biāo)產(chǎn)生了有意義的效應(yīng)。怎么才算有意義要取決于實(shí)驗(yàn)的影響領(lǐng)域(會(huì)員滿意度、播放延遲、后端系統(tǒng)的技術(shù)性能等),以及與新產(chǎn)品體驗(yàn)相關(guān)的潛在工作或成本。我們不妨假設(shè)如果效應(yīng)量小于主要指標(biāo) 0.1% 的變化的話,則支撐新產(chǎn)品功能的成本就大于收益。在這種情況下,通過(guò)測(cè)試來(lái)檢測(cè)指標(biāo)是不是發(fā)生了 0.01% 變化就幾乎沒(méi)有意義,因?yàn)槌晒ψR(shí)別這種效應(yīng)量并不會(huì)導(dǎo)致決策發(fā)生有意義的變化。同樣地,如果對(duì)特定創(chuàng)新領(lǐng)域所做測(cè)試觀察到的效應(yīng)量對(duì)用戶體驗(yàn)或業(yè)務(wù)來(lái)說(shuō)始終都無(wú)關(guān)緊要的話,則表明我們可以把實(shí)驗(yàn)資源部署到其他更有效的地方了。
總結(jié)
本系列的第 3 篇和第 4 篇重點(diǎn)是對(duì)用來(lái)分析測(cè)試結(jié)果的核心概念進(jìn)行定義并建立相關(guān)直覺(jué):其中包括了假陽(yáng)性(誤報(bào))、假陰性(漏報(bào))、統(tǒng)計(jì)顯著性、p 值,以及功效。
關(guān)于實(shí)驗(yàn),有個(gè)事實(shí)也許會(huì)令人不安,那就是我們不能同時(shí)最大限度地減少誤報(bào)和漏報(bào)。事實(shí)上,誤報(bào)和漏報(bào)會(huì)相互制約。如果我們采用更嚴(yán)格的誤報(bào)率,比方說(shuō) 0.01%的話, A 和 B 之間沒(méi)有差異的測(cè)試的誤報(bào)數(shù)量就會(huì)減少——但這樣也會(huì)降低測(cè)試的功效,增加那些存在有意義差異的測(cè)試的假陰性(漏報(bào))率。用 5% 的誤報(bào)率以及 80% 的功效是約定俗成的慣例,可以在限制發(fā)現(xiàn)錯(cuò)誤與取得真正發(fā)現(xiàn)之間取得平衡。然而,在假陽(yáng)性(或假陰性)會(huì)帶來(lái)更大風(fēng)險(xiǎn)的情況下,研究人員可能就會(huì)拋開(kāi)這些經(jīng)驗(yàn)法則,好盡量減少某種類(lèi)型的不確定性。
我們的目標(biāo)不是要消除不確定性,而是去理解和量化這種不確定性,以便做出合理的決策。在很多情況下,A/B 測(cè)試的結(jié)果需要細(xì)致入微的解釋?zhuān)瑢?shí)際上測(cè)試結(jié)果本身也只是商業(yè)決策的一個(gè)輸入。在下一篇文章里,我們會(huì)介紹怎么用測(cè)試結(jié)果建立起對(duì)決策的信心。
譯者:boxi。