3. 条件付き確率とベイズ定理

3-1. 条件付き確率の表

いきなりベイズ定理の証明に入る前に、まず、条件付き確率の話を捉えやすくするため、表を導入しましょう。

条件付き確率とクロス集計表動画(88MB)を用意しましたので、「何を求めているのか?」を「表(クロス集計表)」のイメージで掴んでください。


薬が効くか効かないかをデータに基づいて考えるとき、つまり、経験的確率論により、薬を飲んだために病気が治ったのかどうか推測するとき(因果推定)、「薬を飲んだ人が、治るか治らないかだけに注目してはいけない!」ということがわかったと思います(注目する事象のみ見ていると、騙されます)。薬を飲まなくても治る人もいますので、注目していない薬を飲まない人が、治ったのか治らないのかも、きちんとデータに基づいて検討することが必要不可欠です。実験などの場合には「対照実験」と言いますので、「実験をするときには、注目している事象だけでなく、必ず対照実験をしなければならない」ということを教わった人も多いと思いますが、それと同じことです。なお、心理学の分野では、このような先入観に基づいて都合の良いデータのみ集めて(全てのデータを見ずに)先入観を補強する傾向を「確証バイアス」と呼んでいます。確証バイアス以外にも、人間には心理効果により(人間の脳の仕組みにより)客観的に判断しない(思い込む・誤解する・誤る)ことがよくあり、それらはまとめて「認知バイアス」と言われますので、興味のある方はついでに、どのような種類の認知バイアスがあるのか、調べておくとよいでしょう。認知バイアスによる誤った判断に陥らないためには、客観的なデータに基づき、統計学的に正しく分析・判断することが必要になります。「***だから〇〇〇となったと考えられる(***が原因で〇〇〇が起こったと考えられる)」という推定を「因果推定」と呼びます。因果推定はいろいろな場面で行いますが、統計学に基づかない場合には、「認知バイアスによる、単なる思い込み(錯覚であり事実ではない)場合も多い」ことは、肝に銘じておくとよいでしょう。


3-2. ベイズ定理

 では、ベイズ定理を証明しましょう(^^;


\[ P( {\rm A} )=N( {\rm A})/N( {\rm S}) ,\\ P( {\rm B|A} )=P( {\rm A∩B})/P({\rm A}), \\ P( {\rm B|A} )P( {\rm A})=P({\rm A∩B}),  -(1) \] また、 \[ P( {\rm B} )=N( {\rm B})/N( {\rm S}) ,\\ P( {\rm A|B} )=P( {\rm A∩B})/P({\rm B}), \\ P( {\rm A|B} )P( {\rm B})=P({\rm A∩B}) ,  -(2) \] なので、式(1)と式(2)の左辺が等しいから、 \[ P( {\rm B|A} )P({\rm A})= P( {\rm A|B} )P({\rm B}) ,\] \[ \therefore  P( {\rm B|A} ) = \frac{ P( {\rm A|B} )}{P( {\rm A})}P({\rm B}) ,\] この関係をベイズ定理と呼びます。\( P( {\rm B} ) \) を事前確率 、 \( P( {\rm B|A} ) \) を\( { \rm A}\) であるという条件を知った上での)事後確率と呼びます。

... っとここまで「読んだだけで理解できるなら、次の動画はみる必要はありません(^^;」。ここまで「何が何だか分からん(^^:」という人向け「ベイス定理証明動画:98MB」を用意しました。


動画を見た上で、上の式を見ていただければ、ベイズ定理の証明および意味が、何となくわかるのでは無いかと思います... ここまで、よろしいですか? 難しくてわからん、という人は、それでよいです。細かいことはわからずとも、「条件付き確率とは何か? 条件付確率は、どのような問題の解決に役に立つのか、条件付き確率には、ベイズ定理という定理がある」ことが、なんとなくつかめれば、今はそれでよいです(次回、式変形ではなく図で、同じことを説明します。今回の式変形での説明は予告編と思っていただいても良いです)。

ところで、\( N( { \rm A} ) = N( {\rm A∩B} ) + N( {\rm A∩ \overline{B} }) \) なので \[ P( { \rm A} ) = P( {\rm A∩B} ) + P( {\rm A∩ \overline{B} }) \] \[ = P( { \rm A|B} )P({\rm B}) + P( {\rm A|\overline{B} } )P({\rm \overline{B}})\] となり、ベイズ定理の式は、\[ P( {\rm B|A} ) =\frac{ P( {\rm A|B} ) P({\rm B})}{P( { \rm A|B} )P({\rm B}) +P( {\rm A|\overline{B} } )P({\rm \overline{B}}) } \] とも書けます。(テキストにも書いてあるように)ベイズ定理を用いた具体的な計算をするときには、こちらの方が使いやすい式になります(なお、次回表ではなく図を用いた説明も行いますので、今回だけで理解できない方は、理解できるところまで頑張って、あとは予告編と思って、進めてください)

 では次に、最後の式を疫学に応用する場合の読み替えについて説明します。

3-3. 疫学への応用

 ベイズ定理、

\[ P( {\rm B|A} ) = \frac{ P( {\rm A|B} ) P({\rm B})}{  P( { \rm A|B} )P({\rm B}) + P( {\rm A|\overline{B} } )P({\rm \overline{B}})   } \]

を、疫学での言葉に翻訳してみます。Aを(検査)陽性、Bを罹患、と読み替えます。また、

\[  P({\rm罹患 })=罹患の事前確率=感染率  = p  \]\[  P({\rm 陽性|罹患 })=感度  = X \]

\[  P({\rm \overline{陽性} | \overline{罹患 }})=特異度  = Y \]

と読み替えます。なお、

\[  P({\rm {陽性} | \overline{罹患}})= 1-P({\rm {\overline{陽性}} | {\overline{罹患} }}) = 1-特異度   =1-Y \]となります。

陽性的中率、つまり、陽性という条件での罹患の確率(事後確率) \(P( {\rm 罹患|陽性} )\) は、 \[ P( {\rm 罹患|陽性} ) = \frac{ P( {\rm 陽性|罹患} ) P({\rm 罹患})}{  P( { \rm 陽性|罹患} )P({\rm 罹患}) + P( {\rm 陽性|\overline{罹患} } )P({\rm \overline{罹患}})  } \] なので、 \[ 陽性的中率 =\frac{ 感度 \times 感染率} {感度 \times 感染率 +(1- 特異度) \times(1-感染率) } \] つまり、 \[ 陽性的中率 = \frac{ X p} {  X  p + (1-Y) (1-p)  } \] となります。

なお、この式を導出できる程度に「何をどのように求めているのかを理解することは大切」ですが、結果の式を覚える必要は全くありません。公式があれば(公式を見ながら)電卓で計算しても良いし公式をExcelに入れて計算しても良いでしょう(次回Excelでの計算も紹介します)。また、EZR を用いるなら、メニューより[統計解析]-->[検査の正確度の評価]-->[陽性的中率、陰性的中率の計算]を選ぶだけです。ここで、

 テスト前確率(0-1) : p

 感度(0-1): X

 特異度(0-1): Y

の項目を入力し[OK]を押せば、あとは、この公式に従って機械が勝手に計算してくれます(出力ウィンドウに計算している式も出てきます)。また、事前確率(感染率)によって、陽性的中率がどのように変化するかのグラフも勝手に書いてくれます。

EZR 使えば計算自体は簡単にできるので、「事前確率、感度、特異度」をいろいろ変えて計算してみると面白いかもしれません。

例えば、PCR検査の感度は70%くらい特異度が99%くらいとします。コロナ感染者1万人(1億人に対して)のとき、無作為に選んだ人(つまり事前感染確率0.0001)が「万が一ということもあるし...」とPCR検査し陽性になったとき、この人が感染している確率を求めて見てください。

 テスト前確率(0-1) : 0.0001

 感度(0-1): 0.7

 特異度(0-1): 0.99

 なお、何らかの症状が発生しており「なんか調子おかしいかな? 99%大丈夫とは思うけど、まさか(感染している確率0.01)ということもあるし...」と思われる人がPCR検査し陽性になったとき、この人が感染している確率を求めてください。

また、何らかの症状が発生しており「ひょっとしてやばいかな? 90%大丈夫とは思うけど(感染している事前確率0.1(1/10))」と思われる人がPCR検査し陽性になったとき、この人が感染している確率を求めてください。さらにこの状況(感染している事前確率0.1)で、PCR陰性になった人が、感染している確率を求めてください。そのうえで「陰性の人が1000人いた場合、感染していない(公共交通機関を使ってよい)と判断してよいかどうか」考察してみてください。もし可能なら、ダイヤモンドプリンセス号の対応の時点で知りえた情報をネットで調べ、それに基づいた計算をし、考察してみてください(^^) 今の皆さんの力量なら、当時の厚生労働大臣よりもずっとましな(適切な)対応ができるかもしれません(^^)


さらに、テキスト中の練習問題や、テキスト中のトマトの例題も(虫食い=陽性、生産者がA=罹患と読み替えるだけで)計算できるので、是非とも挑戦して見てください。EZRの陽性的中率のプログラムを使って、トマトの生産農家を推定するなんて(^^;; と思うかもしれませんが、単に「ベイズ定理を用いた条件付き確率の計算」と捉えられれば、その応用範囲は無限に広がります。なお「迷惑メールの判別」にも、このベイズ定理が使われています(ベイジアン・フィルタ)。

今日の内容は、式だけだと結構難しいですね。なおテキスト中のオッズ、オッズ比、また今回の「ベイズ定理の意味や、疫学への応用に出てくる式の導出や意味」を、次回「図を使う方法」で、もう一度詳しく解説しますので、ここまでの説明で「わからない部分」をまとめておくと良いでしょう。

なお、その次(5回目)に、第1章の内容(記述統計)の内容に戻り「様々な代表値、グラフ、図などはEZRで簡単に求められる」ことを紹介しますので、それまでに演習室PCを使う準備をして、5回目は演習室PCで実際にEZRを動かしながら受講してください。


では、今日は、このへんで終わります。