有意水準と検出力
適切なサンプルサイズを選ぶこと、\(\alpha\) エラー(第1種過誤)と \(\beta\) エラー(第2種過誤)を理解することが、効果的な A/B テスト実施の鍵。 それらの理解に必要な 有意水準 と 検出力 とは何か、Python スクリプトと図解を交えて解説する。
■ 第1種の過誤(\(\alpha\))と第2種の過誤(\(\beta\))
- まず、\(\alpha\) エラー(第1種過誤) とは、帰無仮説(\(H_0\))が真であるにも関わらず、これを誤って棄却してしまうリスクを指す。
- 一方、\(\beta\) エラー(第2種過誤) は、対立仮説(\(H_1\))が真の場合に、誤って帰無仮説を採択してしまうリスクである。
- \(\alpha\) エラーを制御することは多くの研究で重視されるが、\(\beta\) エラーの制御も「真実を見逃すリスク」が高まるため軽視してはダメ。
- \(\alpha\) は 有意水準 と呼ばれ、通常 0.05(5%)に設定されるが、\(\beta\) は 0.20(20%)が一般的で、これは検定の力 検出力(\(1-\beta\) )が 80% であることを意味する。
■ サンプルサイズの選び方
- サンプルサイズが小さすぎると、テストの感度(検出力)が低くなり、\(\beta\) エラーが高まる。
- 逆に、大きすぎるとテストのためのリソースを無駄に消費してしまうため、適切なサンプルサイズは、想定される「効果の大きさ(効果量)」、「\(\alpha\) エラー」、「\(\beta\) エラー」の設定に基づいて計算されるべきである。
- 詳しい計算例は、別ページ A/Bテストのためのサンプルサイズ計算 にまとめているので参照。
■ Python による視覚的解説
- Python スクリプトを用いて、これらの概念を視覚的に説明する。
- 以下のスクリプトは、「介入群(TG)」と「コントロール群(CG)」の平均の分布を描画し、\(\alpha\) エラーと \(\beta\) エラーを視覚化する。
■ 実際に関数を呼び出して結果を確認する
- 関数の引数として、以下の条件を設定して A/B テストの結果を見てみる。
サンプルサイズ: 1,000
TG と CG のサンプルサイズ比率: 1:1
CG の指標平均値: 2.3
標準偏差(両群で同じ値を仮定): 2
効果の大きさ(lift): 110%(TG は CG の 110% 改善を仮定)
- CG と TG の平均値の分布を示し、特に 棄却領域(Rejection Region) と 検出力領域(Power Region) を色分けして表示している。点線の 閾値(Critical Value) を越える部分がどの程度存在するか、そして実際の効果がどれだけ検出可能かが視覚的にグラフで示されている。
- 閾値(Critical Value)は、\(\alpha\) エラーを制御するための値であり、この値以上の結果が得られた場合に帰無仮説を棄却する。検出力(テストの感度)は、実際に効果がある場合にその効果を正しく検出できる確率を示しており、サンプルサイズを増やすことでこの値を高めることができる。
■ サンプルサイズと効果の大きさの変更が結果に及ぼす影響
- A/B テストでは、サンプルサイズ や 効果の大きさ(lift) を変えることによって、結果の解釈が大きく変わる可能性がある。ここでは、異なるシナリオを用いて、それぞれの変数が閾値と検出力にどのような影響を与えるかを確認しよう。
1. サンプルサイズ の増加:
- サンプルサイズを 3,000 に増やした結果の変化は以下:
- サンプルサイズを増やすと、標準誤差が減少し、分布がより狭く、ピークが高く なる。
- これにより、平均値の違いがより明確に検出可能となり、検出力が向上 する。
- 統計的な「ノイズ」が減少するため、より小さい効果も検出 できるようになる。
2. 効果の大きさ の増加:
- 効果の大きさを 1.3(30%の向上) に調整した場合の結果の変化は以下:
- 効果の大きさが大きくなると、TG の平均値が CG の平均値から より離れる ことになる。
- これにより、分布間の重なりが減少し、帰無仮説を棄却するための エビデンスが明確 になる。
- 結果として、検出力が向上 し、テストの有効性が高まる。
■ まとめ
A/B テストの計画において、テスト設計に対する正しい解釈とその根拠は、テストの信頼性の観点から非常に重要。きちんと準備しましょう。