綠色排版工具|熱門專題|網站地圖|移動官網
您的當前位置:網站首頁 > 網站分析 > AB測試 > 正文

1+1≠2 |A/B 測試中的贏者詛咒

來源:[db:來源] 編輯:吆喝科技 時間:2018-04-08 16:12:48 閱讀:

前言

我們通常選擇A/B測試中表現出顯著優勢的方案進行發布。如果我們的連續做很多次測試,然后找到了一些表現出顯著效果的方案,那么如何評估這些方案的綜合效果呢?直接把所有方案的測試結果相加嗎?

在這篇文章中,Airbnb的數據科學家Milan Shen研究在評估被選方案的綜合影響時直接加和的方法可能會產生的選擇偏差( 贏者詛咒),并提供了如何修正偏差以得到綜合效果的無偏估計。 (注:在下文中,A/B測試也被稱為 “實驗”)。

1+1≠2 |A/B 測試中的贏者詛咒

什么是選擇偏差?

作為在一年多前才進入數據科學領域工作的統計學者,我(Milan Shen)很開心能夠看到大家都在應用實驗的方法來指導產品和商業決策。統計推斷和假設驗證構成了我們這些“數據分析師”的日常工作,對隨機性的深度認知指引著我們的決策。然而,這個充斥著大數據和大范圍A/B測試的時代無疑給我們舊有的方法論帶來了新的挑戰。

如果你在大型的A/B測試平臺進行過實驗探索,那么你可能有過這樣的經歷:數據無法自洽。舉個例子:Airbnb曾經在幾個月內連續進行了多次A/B測試,得到了6個表現出顯著性差異的實驗結果,然后我們就向全部的用戶(小部分用于Holdout驗證的用戶除外)發布這6個產品方案。在實驗成功刺激下,我們試著將這些方案的影響效果加和統計起來,然后發現加和的結果與Holdout驗證組的結果有一定的差距,如下圖:

1+1≠2 |A/B 測試中的贏者詛咒

在自下而上估算(bottoms-up calculation,圖左)中的每個數據是每次實驗中測驗指標的增量,而圖右則是實驗方案在驗證組中的指標表現。前者的求和與和后者均是對于產品方案的綜合效果的測量,但在絕對值上前者的總和明顯超出了后者。我們該怎么解釋兩種方法得出的數據差異呢?

你的第一個想法可能是“等等,每次實驗的增量可以直接求和的嗎?”

我們這么做當然是有理由的:

  • a)這些實驗是一個接一個的連續進行的;
  • b)如果我們假設每次改變所帶來的百分比提升都是很小的,那么用加法或者乘法都能計算其累積效應(即當x很小時的log(1+x)~x )。

相關文章推薦:

熱門閱讀推薦:

圖文精選:

推薦文章

Copyright?2012-2019 小螞蟻信息網版權所有 粵ICP備14061018號-1


鄭重聲明:本網站資源、信息來源于網絡,完全免費共享,僅供學習和研究使用,版權和著作權歸原作者所有,如有不愿意被轉載的情況,請通知我們刪除已轉載的信息。

Top 捕鱼游戏技巧大全