ノーベル経済学賞から学ぶA/Bテストできない場合の効果検証

こんにちは． NTTドコモサービスイノベーション部の阿座上です．

今回の記事は，2021年のノーベル経済学賞の内容を解説しつつ，A/Bテストが出来ない場合の効果検証はどう行えば良いのかについて触れていきます．

たとえばCVR向上を目的にメール配信を行う施策を行ったとき，メールを配信したこと(原因)がCVR(結果)にどれくらいの影響を与えたかどうかを調べたいですよね．この原因と結果の関係を因果関係といい，原因と結果の関係を分析することを因果分析といいます．

因果分析の手法としてよく知られている方法としてはA/Bテストがありますが，中にはA/Bテストを行えない施策もあります． 2021年のノーベル経済学賞は，そんなA/Bテストができない場合にどうやったら効果検証を行えるのかを示した3名の経済学者が獲得しました．

今年のノーベル経済学賞って？

2021年のノーベル経済学賞は，デービッド・カード教授（David Card），ヨシュア・アングリスト教授（Joshua Angrist），グイド・インベンス教授（Guido Imbens）の3名が獲得しました．一体どんな内容でしょうか．　ノーベル賞のPopular science backgroundにはこのように記載されています．

David Card, Joshua Angrist and Guido Imbens have shown that natural experiments can be used to answer central questions for society, such as how minimum wages and immigration affect the labour market. They have also clarified exactly which conclusions about cause and effect can be drawn using this research approach. Together, they have revolutionised empirical research in the economic sciences. 今年度の受賞者であるデイビッド・カード教授，ヨシュア・アングリスト教授，グイド・インベンス教授は，最低賃金や移民が労働市場にどのような影響を与えるかなど，社会的に重要な問題に自然実験で答えることができることを示しました．また，この研究手法を用いて，原因と結果についてどのような結論を導き出すことができるかを明確にしました．これらは，経済科学における経験的研究に革命をもたらしました．

彼らは，原因と結果の関係を自然実験という方法によって導きだせることを明らかにした功績が評価されノーベル賞を獲得したようです．自然実験とは一体どんなものなのでしょうか．3名の貢献の内容を詳しく見ながら解説したいと思います．

カード教授の貢献

カード教授は，最低賃金や移民，教育が労働市場にもたらす影響の研究「実証研究による労働経済学への貢献」が評価されました．また，最低賃金が上がると雇用が減るという経済学の通説が必ずしもそうでないことを自然実験を用いて実証しました．薬の影響を調べる際，患者群の中から無作為に薬を投与するグループ(処置群：treatment group)と投与を行わないグループ(対照群：contral group)を比較するという方法，いわゆるA/Bテストを用いますが，このとき2群は同じ母集団から抽出する必要があります．しかし，最低賃金の引き上げのように同じ州に住んでいれば住民全員がもれなく対象となる政策の場合，同じ州から対照群を用意することができません．このような場合に最低賃金引き上げが起こった州以外の州を対照群とし実験することを自然実験と言います．賃金引き上げの自然実験

アングリスト教授とインベンス教授の貢献

自然実験を実社会で行うとき，実際の社会で行われるがゆえの複雑な問題が起きることがよくあります．たとえば不遵守の問題です．不遵守とは，実験において処理割当に従わない被験者の行動を指します．

あるグループの学生（別のグループではない）の義務教育を1年延長しても，そのグループの全員に同じように影響するわけではありません．とにかく勉強を続ける学生もいたでしょうし，そうでない学生もいるでしょう．彼らにとって，教育の価値はグループ全体を代表するものではないことがよくあります．(引用：ノーベル賞のプレスリリース)

つまり，1年義務教育を延長したグループの学生には勉強してほしい(=遵守してほしい)ところですが，グループ全員が揃って一生懸命勉強するかというとそうでない場合が起こりうるということです．別の例としては，薬を服用する処置群と服用しない対照群を用意したいとき，処置群に割り当てた患者が薬を飲んでくれなければ処置群としては適切で無くなってしまうというものもあります．対照群としたい患者がついうっかり該当の薬を飲んでしまった場合も同様です．この問題に対し，彼らは無作為化された処理割当を実際の処理変数の操作変数(instrumental variables)とみなして分析する方法を提唱しました．この場合，いわゆる医学の分野でいう処置意図(Intention to treat effect)ではなく，実験に従順な母集団における平均因果効果(complier average causal effect: CACE)が推定目標となります．

なぜ自然実験するの？

ある条件の効果を調べる場合，その条件のみ変更し他条件は一致させ比較しないといけません．たとえば洗剤Aと洗剤Bの洗浄力を比べたい場合に，Aは原液でBは水で薄めて利用したとき，Bの方がよく洗浄できるという結果が得られたとします．この場合，AとBという洗剤の違いの他に水で薄めたか否かという別の条件(バイアス)が発生しています．これでは，Bが洗浄力が優れているからなのか，水で薄めたせいなのか，どちらが洗浄力に影響しているかわかりません．洗剤の洗浄力を調べたい実験

条件を一致させずに比較してしまうと，本当はAの方が洗浄力が優れている洗剤だったとしても同条件で比較しなかったことでBのほうが優れた洗剤という結果を得ることになってしまいます．

1つの条件のみ変更し他条件は一致させ比較する実験というのは対照実験といいますが，大勢に対して実験をおこなうときAとBの振り分けをランダムに行いその結果を比較することを統計や医療ではランダム化比較試験(RCT:randomized controlled trial)と呼び，効果検証のゴールドスタンダードな方法であると言われています．ビジネスの場ではA/Bテストと呼ばれることもあります．

しかし，実社会でA/Bテストを行うことは容易ではありません．カード教授，アングリスト教授，インベンス教授はそんなA/Bテストが出来ないような状況下でどうしたら因果関係を見ることができるかという課題を自然実験を用いることでクリアし経済学研究に貢献しました．この方法は，現在の因果分析の場面でもよく使われています．

企業で起こるA/Bテストできない問題

実社会でA/Bテストを行うことは容易でないという話をしました．企業で施策を行う全てでA/Bテストができればベストではありますが，A/Bテストができない場面は多くあります．この章では企業で施策を行うときに直面するA/Bテストができない2パターンについて紹介します．

a.個々に施策を適用する，適用しないが選べない

ユーザーや店舗によって施策を適用する・適用しないが選べないパターンです．たとえばドコモだと2021年に新しい料金プランが開始されましたが，こういった施策ではA群とB群をつくりA群にだけ新しい料金プランをという訳にはいきません．皆平等に申し込みできるようにしないといけないので，A/Bテストの実行は実質不可能な施策になります．関東地区限定キャンペーンなど地域全体で行う施策だった場合もその地域店舗すべてが対象となる場合は同一地域ではA/Bテストすることが出来ません．

b.A/Bテストを実施するのにコストがかかる

ユーザーや店舗によって施策を適用する・適用しないが選べそうな施策でも，様々なコストがかかりA/Bテストの実施が承認されないパターンです．たとえばWEBサイトのUIの変更など一見A/Bテストが可能そうな施策であっても出し分けできるシステムを持っていないためシステムを導入するところから始める必要があったり，予算の問題で実施できなかったり，施策担当者との調整がつかなかったりといろいろなケースがあります．理由はどうであれA/Bテストの実行が承認されない場合は別の方法とるなどの代替案を考える必要があります．

どうやって分析したらいいの？

では，A/Bテストができない問題にぶつかったときはどうしたらいいでしょうか．このようなときは，ノーベル経済学賞の解説で紹介した自然実験を用いることで問題を乗り越えることができます．特に1のようなパターンでは自然実験による効果検証は大変重宝します．また，既に実施済みの施策でもデータがあればさかのぼって効果検証を行うことが出来ます．

差分の差分法

自然実験を利用した分析方法を１つご紹介します． 差分の差分法(difference in differences:DID)と呼ばれる方法です．ある施策を行った地域Aを処置群としたとき，施策が行われなかった地域Bを対照群とし，施策前後の差を取りさらに処置群と対照群の差を取ることで施策の効果を推定することができるといった方法になります．もし，施策を開始した後に処置群の目的変数の値が対照群と比較してより大きくリフトしていれば，施策は効果があったとみなすことができます．施策前の時期を $t=0$ ，施策後の時期を $t=1$ と表したとき， $t=0$ と $t=1$ において処置群の結果を $Y^ T _ {t _ 0}$ と $Y^ T _ {t _ 1}$ ，対照群の結果を $Y^ C _ {t _ 0}$ と $Y^ C _ {t _ 1}$ で表したとき，施策効果 $\tau^{DD}$ を求める式は以下のようになります．

$\tau^{DD} = (E[Y^T_{t_1}|D=1]-E[Y^C_{t_1}|D=0])-(E[Y^T_{t_0}|D=1]-E[Y^C_{t_0}|D=0])$

処置群に属する場合は $D=1$ ，対照群に属する場合は $D=0$ と示します．Eは期待値です．差分の差分法

しかし，対照群となる地域はどんな地域でも良いわけではありません． 平行トレンド仮定と呼ばれる仮定を満たすような地域である必要があります．平行トレンド仮定とは，処置群の目的変数の時間による変化(トレンド)が対照群と同一であるという仮定です．この仮定を満たしていることがDIDを行う上で非常に重要となります．

自然実験を使えばすべて解決する？

aの問題は自然実験を用いることで解決できるとお話しました．では，bの場合はどうでしょうか？ bについては，自然実験などの代替案を用いて分析を行いつつ，A/Bテスト実行可能な環境を整えることが必要だと考えます．なぜなら，自然実験をもちいて効果検証を行うためには，A/Bテストと似た状況を作り出すための強力な仮定が必要となるからです．自然実験はA/Bテスト出来ない場合に非常に役立つ方法ではありますが，この仮定を満たすデータが用意できて初めて自然実験による効果検証を行うことができるようになります．つまり，仮定を満たすデータがなければ自然実験による効果検証を行うことはできません．データが取得できなかったといった問題に当たらないためにも，(努力すれば)A/Bテスト可能な場合にはやはりA/Bテストを行えるようになることが望ましいです．

まとめ

2021年度のノーベル経済学賞と企業で起こる施策効果検証の問題について解説しました．企業で効果検証を行う場合も彼らの研究と同じようにA/Bテスト出来ない場面にぶつかります．そういった場合にはDIDのような自然実験を利用した分析が有効です．しかし自然実験でも仮定を満たすデータを用意する必要があるため，努力すればA/Bテストを行える場合はA/Bテストを行えるようになることが望ましいと思います．また，A/Bテストも万能ではありません．メール配信に正の効果があることがA/Bテストによってわかった場合，それは対象となった群に対して正の効果があると言えます．ただ，1人ひとりを確認すると「メール配信効果がない」得られた結果とは逆の結果を持つ個人もいたりします．個別の因果効果を求めるにはどうしたらいいの？と疑問に思われた方は，そういったときに使える方法については明日こちらで紹介予定ですので，合わせてお読みいただければと思います．