いきなりベイズ定理の証明に入る前に、まず、条件付き確率の話を捉えやすくするため、表を導入しましょう。
条件付き確率とクロス集計表動画(88MB)を用意しましたので、「何を求めているのか?」を「表(クロス集計表)」のイメージで掴んでください。
では、ベイズ定理を証明しましょう(^^;
\[ P( {\rm A} )=N( {\rm A})/N( {\rm S}) ,\\ P( {\rm B|A} )=P( {\rm A∩B})/P({\rm A}), \\ P( {\rm B|A} )P( {\rm A})=P({\rm A∩B}), -(1) \] また、 \[ P( {\rm B} )=N( {\rm B})/N( {\rm S}) ,\\ P( {\rm A|B} )=P( {\rm A∩B})/P({\rm B}), \\ P( {\rm A|B} )P( {\rm B})=P({\rm A∩B}) , -(2) \] なので、式(1)と式(2)の左辺が等しいから、 \[ P( {\rm B|A} )P({\rm A})= P( {\rm A|B} )P({\rm B}) ,\] \[ \therefore P( {\rm B|A} ) = \frac{ P( {\rm A|B} )}{P( {\rm A})}P({\rm B}) ,\] この関係をベイズ定理と呼びます。\( P( {\rm B} ) \) を事前確率 、 \( P( {\rm B|A} ) \) を\( { \rm A}\) であるという条件を知った上での)事後確率と呼びます。
... っとここまで「読んだだけで理解できるなら、次の動画はみる必要はありません(^^;」。ここまで「何が何だか分からん(^^:」という人向け「ベイス定理証明動画:98MB」を用意しました。
動画を見た上で、上の式を見ていただければ、ベイズ定理の証明および意味が、何となくわかるのでは無いかと思います... ここまで、よろしいですか?
ところで、\( N( { \rm A} ) = N( {\rm A∩B} ) + N( {\rm A∩ \overline{B} }) \) なので \[ P( { \rm A} ) = P( {\rm A∩B} ) + P( {\rm A∩ \overline{B} }) \] \[ = P( { \rm A|B} )P({\rm B}) + P( {\rm A|\overline{B} } )P({\rm \overline{B}})\] となり、ベイズ定理の式は、\[ P( {\rm B|A} ) =\frac{ P( {\rm A|B} ) P({\rm B})}{P( { \rm A|B} )P({\rm B}) +P( {\rm A|\overline{B} } )P({\rm \overline{B}}) } \] とも書けます。(テキストにも書いてあるように)ベイズ定理を用いた具体的な計算をするときには、こちらの方が使いやすい式になります(なお、次回表ではなく図を用いた説明も行いますので、今回だけで理解できない方は、理解できるところまで頑張って、あとは予告編と思って、進めてください)
では次に、最後の式を疫学に応用する場合の読み替えについて説明します。
ベイズ定理、
\[ P( {\rm B|A} ) = \frac{ P( {\rm A|B} ) P({\rm B})}{ P( { \rm A|B} )P({\rm B}) + P( {\rm A|\overline{B} } )P({\rm \overline{B}}) } \]
を、疫学での言葉に翻訳してみます。Aを(検査)陽性、Bを罹患、と読み替えます。また、
\[ P({\rm罹患 })=罹患の事前確率=感染率 = p \]\[ P({\rm 陽性|罹患 })=感度 = X \]
\[ P({\rm \overline{陽性} | \overline{罹患 }})=特異度 = Y \]
と読み替えます。なお、
\[ P({\rm {陽性} | \overline{罹患}})= 1-P({\rm {\overline{陽性}} | {\overline{罹患} }}) = 1-特異度 =1-Y \]となります。
陽性的中率、つまり、陽性という条件での罹患の確率(事後確率) \(P( {\rm 罹患|陽性} )\) は、 \[ P( {\rm 罹患|陽性} ) = \frac{ P( {\rm 陽性|罹患} ) P({\rm 罹患})}{ P( { \rm 陽性|罹患} )P({\rm 罹患}) + P( {\rm 陽性|\overline{罹患} } )P({\rm \overline{罹患}}) } \] なので、 \[ 陽性的中率 =\frac{ 感度 \times 感染率} {感度 \times 感染率 +(1- 特異度) \times(1-感染率) } \] つまり、 \[ 陽性的中率 = \frac{ X p} { X p + (1-Y) (1-p) } \] となります。
なお、この式を導出できる程度に「何をどのように求めているのかを理解することは大切」ですが、結果の式を覚える必要は全くありません。公式があれば(公式を見ながら)電卓で計算しても良いし公式をExcelに入れて計算しても良いでしょう(次回Excelでの計算も紹介します)。また、EZR を用いるなら、メニューより[統計解析]-->[検査の正確度の評価]-->[陽性的中率、陰性的中率の計算]を選ぶだけです。ここで、
テスト前確率(0-1) : p
感度(0-1): X
特異度(0-1): Y
の項目を入力し[OK]を押せば、あとは、この公式に従って機械が勝手に計算してくれます(出力ウィンドウに計算している式も出てきます)。また、事前確率(感染率)によって、陽性的中率がどのように変化するかのグラフも勝手に書いてくれます。
EZR 使えば計算自体は簡単にできるので、「事前確率、感度、特異度」をいろいろ変えて計算してみると面白いかもしれません。
例えば、PCR検査の感度は70%くらい特異度が99%くらいとします。コロナ感染者1万人(1億人に対して)のとき、無作為に選んだ人(つまり事前感染確率0.0001)が「万が一ということもあるし...」とPCR検査し陽性になったとき、この人が感染している確率を求めて見てください。
テスト前確率(0-1) : 0.0001
感度(0-1): 0.7
特異度(0-1): 0.99
なお、何らかの症状が発生しており「なんか調子おかしいかな? 99%大丈夫とは思うけど、まさか(感染している確率0.01)ということもあるし...」と思われる人がPCR検査し陽性になったとき、この人が感染している確率を求めてください。
また、何らかの症状が発生しており「ひょっとしてやばいかな? 90%大丈夫とは思うけど(感染している事前確率0.1(1/10))」と思われる人がPCR検査し陽性になったとき、この人が感染している確率を求めてください。さらにこの状況(感染している事前確率0.1)で、PCR陰性になった人が、感染している確率を求めてください。そのうえで「陰性の人が1000人いた場合、感染していない(公共交通機関を使ってよい)と判断してよいかどうか」考察してみてください。もし可能なら、ダイヤモンドプリンセス号の対応の時点で知りえた情報をネットで調べ、それに基づいた計算をし、考察してみてください(^^) 今の皆さんの力量なら、当時の厚生労働大臣よりもずっとましな(適切な)対応ができるかもしれません(^^)
さらに、テキスト中の練習問題や、テキスト中のトマトの例題も(虫食い=陽性、生産者がA=罹患と読み替えるだけで)計算できるので、是非とも挑戦して見てください。EZRの陽性的中率のプログラムを使って、トマトの生産農家を推定するなんて(^^;; と思うかもしれませんが、単に「ベイズ定理を用いた条件付き確率の計算」と捉えられれば、その応用範囲は無限に広がります。なお「迷惑メールの判別」にも、このベイズ定理が使われています(ベイジアン・フィルタ)。
今日の内容は、式だけだと結構難しいですね。なおテキスト中のオッズ、オッズ比、また今回の「ベイズ定理の意味や、疫学への応用に出てくる式の導出や意味」を、次回「図を使う方法」で、もう一度詳しく解説しますので、ここまでの説明で「わからない部分」をまとめておくと良いでしょう。
なお、その次(5回目)に、第1章の内容(記述統計)の内容に戻り「様々な代表値、グラフ、図などはEZRで簡単に求められる」ことを紹介しますので、それまでに演習室PCを使う準備をして、5回目は演習室PCで実際にEZRを動かしながら受講してください。
では、今日は、このへんで終わります。