8. 二項分布の近似(ポアソン分布と正規分布)

「2項分布」は、nが大きい時には「とんでもない階乗計算が出てくるため、人間が計算するには大変すぎる」という事情がありましたが、それを克服する手段として「nが大きい2項分布の近似理論」を使う手法が考案されています。まず、その方法の紹介からはじめます。

8-1. 二項分布の近似理論1、ポアソン分布

2項分布は、

\[ P( \mbox{確率 p の事象が、n回中x回起こる}) = \ _n C_x \ p^x \ (1-p)^{n-x} =B(x,n,p) \]


で得られますが、 \[ _n C_k = \frac{ n ! }{k ! \ (n-k) ! } \]なので、nが大きいときにいは、この式に基づいて計算することは、コンピュータがある現在でも、あまり現実的ではありません。ましてやコンピュータが無かった時代には.... そこでポアソンと言う人が、この式を 「 \( np= \mu \) の条件の下で \( n \rightarrow \infty,p \rightarrow 0 \) とみなせる場合」に近似することを考えました。これは「1回起こる確率\(p\)は、ものすごく小さい」が「試行回数\(n\)がものすごく大きく」、「平均すると\( \mu \)回程度起こる」場合です。たとえば、「宝くじが当たる確率\(p=10^{-7} = 一千万分の1\)」を「\(n=10^8\) =1億枚」買ったとき、\(x\)枚当たる確率を考えます。期待値(平均値) \(  \mu \ =n p= 10^8・10^{-7}=10\) ですから、平均的にはおよそ10枚程度あたるだろう、という話です。では1枚当たる確率は?2枚当たる確率は?10枚当たる確率は?ということで、これは\(B(x, 10^8,10^{-7})\) ですが、この計算を正確に行うことはかなりやっかいです。ポアソンは、この条件の時には、\[ P( \mbox{確率 p の事象が、n回中x回起こる}) = \ _n C_x \ p^x \ (1-p)^{n-x} =B(x,n,p)  \rightarrow \frac{\mu^x}{x !}e^{-\mu} \]と近似されることを見出しました。この式を「ポアソン分布」と呼びます。

面白いのは、この式は(極限を取ったので当たり前かもしれませんが)\(p\)も\(n\)も含まれておらず、「平均値\( \mu \)」と確率変数\(x\)しか含まれいないことです。今の例の場合「平均的に10枚当たる」ことだけ知っていれば、

\[ P( \mbox{確率 p の事象が、n回中x回起こる}) =B(x,n,p)  \rightarrow \frac{ \mu ^x}{x !}e^{ -\mu }=\frac{10^x}{x!} {e^{-10}} \]と近似されることが分かる、という意味です。\(e\)は自然対数の底ですから、\( e= \sum_{n=0}^{\infty}{ \frac{1}{n!} }=1+\frac{1}{1!}+\frac{1}{2!}+\frac{1}{3!}...= 1+1+0.5+0.1666..+0.04166..+...=2.71828182846\) です。, \( e^{-10}= 0.00004539~5 \times 10^{-5} \)なので、有効数字1桁くらいの荒っぽい評価なら、大体 \( \frac{10^{x}} {x!} \times 5 \times 10^{-5} \) 。つまり、

1枚当たる確率は?\( \frac{10^{1}}{1!} \times 5 \times 10^{-5}  = 10 \times 5 \times 10^{-5} = 5.0 \times 10^{-4} \)

2枚当たる確率は?\( \frac{10^{2}}{2!} \times 5 \times 10^{-5} =50 \times 5 \times 10^{-5} =2.5 \times 10^{-3} \)

...

10枚当たる確率は?\( \frac{10^{10}}{10!} \times 5 \times 10^{-5} =\frac{10^{10}} {3628800}  \times 5 \times 10^{-5} =13778.62.5 \times 10^{-5} = 0.14 \)

....
ということで、(電卓使う程度の)簡単な計算で求められます。宝くじが当たる確率\(p\)とか、買った枚数\(n\)が分からなくても計算できるところが、ちょっと便利です。なお、EZRなら、[標準メニュー]-->[分布][離散分布][ポアソン分布]で、数値が欲しければ[ポアソン分布の確率...]、グラフを描きたければ[ポアソン分布を描く...]を選択し、「平均」に\(\mu\)の値を入力するだけです。


poisson

「同じ計算」になる例を他にもあげましょう。「1日平均10人が交通事故に逢っている」ことが分かった。では、「1日10人交通事故に逢う確率はいくつか?」答え約13%。どうですか?1人とか20人とかなら「平均より少ない、多い」と言えるかもしれませんが「7人」とか「13人」とかは「普通に起こりうること」で「平均より少ないから、頑張りましたね」とか「平均より多いので注意しましょう」と言うのは、無意味ということが分かると思います(多くても少なくても注意喚起は必要でしょうが、「多いから」ということを論拠にすることが、誤っています)。


「たまに起きること」についての考察に役立ちますので、知っておくと良いと思います。なお「平均2回」の場合には、1回と2回はほぼ同じ確率。0回と3回が大体同じ確率ということも分かります。昔の人は経験よりそのことを知っており「2度あることは3度ある」というのは、まさにポアソン分布の特徴を表している言葉と言えるでしょう。

8-2. 二項分布の近似理論2、正規分布

ガウスは \(p\) がそれほど小さくない場合でも、\(n\)が大きいときに使える近似式を見つけました。

\[ P( \mbox{確率 p の事象が、n回中x回起こる}) = \ _n C_x \ p^x \ (1-p)^{n-x} =B(x,n,p)={ \rm dbinom(x,n,p)}  \] \[ \rightarrow \frac{1}{\sqrt{2 \pi }\sigma }e^{-\frac{(x-\mu )^2 }{ 2 \sigma^2 }} = \frac{1}{\sqrt{2 \pi }\sigma } \exp{ \left( -\frac{(x-\mu )^2 }{ 2 \sigma^2 } \right) }=N(\mu, \sigma ^2)= {\rm dnorm(x,\mu,\sigma )}  \] ここで\( \mu=np, \sigma = \sqrt{ np(1-p) }  \)です。この関数 \(N(\mu, \sigma ^2) \) を「正規分布関数」と呼びます。なお、各行最後に書いてあるのがRでの書き方、その手前が一般的な教科書(高校数学C、2022年より高校数学B)などでの書き方です。 なお、これは確率変数\(x\)の関数 \( \mu, \sigma^2 \) は関数を具体的に指定するパラメタ)です(関数の独立変数を省略した書き方です)ので、変数を明示し、パラメタとして分散の代わりに標準偏差を使い、例えば\(Norm(x,\mu, \sigma) \) とでも書くと分かりやすいし、Rでの書き方と同じになるし、個人的にはこの書き方を勧めますが、高校数学Cを学んだ方などの混乱を避けるため、分かりにくい記号ですが、高校数学の教科書などの記号に合わせます。正規分布関数の値やグラフはEZRを使える方は、EZRで見てください。[標準メニュー][分布][連続分布][正規分布]で、平均に\(\mu=np\)の値を、標準偏差に \( \sigma=\sqrt{np(1-p)} \) の値を入力すれば、2項分布のグラフとほとんど同じことが見いだせると思います。なお、テキストP78にあるように、\( np > 5 \) かつ \( n(1-p) > 5 \)程度であれば、2項分布のグラフ(縦線)と正規分布のグラフ(曲線)が殆ど同じになることが分かります。なおテキストの左図\(p=0.4,n=6\)つまり\(np=2.4\)でも、荒っぽく検討する場合にはある程度使えることも分かると思います。

なお、2項分布の近似としては\(x\)の値は整数値のみですが、正規分布の関数は\(x\)の値が「実数」の場合でも定義されており「連続確率分布」の場合の「確率密度関数」としても使えます。連続確率分布について、詳しくは、次回紹介しましょう。


【最後に】

なお、連続分布の話は「微分積分学の本質の理解(基礎知識)」が前提になりますので、時間外学習として(1コマ2単位の授業は、週3時間程度の時間外学習を前提とした単位数です)、次回までに、以下の動画を見ながら学んでおいてください(本学の共通教育科目、「数学入門」および「物理と自然法則」でも紹介している動画なので、それらの科目を履修して既に見ている方は、再度見る必要はありません)。

「微分・積分の本質」とは、

・微分:無限小量の「割り算(傾き)」

・(定)積分:無限小量(無限に細かく分割した量)の「足し算」。

・微分積分学の基本定理:この「足し算」の答えは、原始関数の差で計算できる

・原始関数 (不定積分):その関数を微分したら与えられた関数になるもの(微分の逆)。

です。なお、高校数学では変な順番で原因と結果を逆転した教え方をしていますので、動画で、「正しい理解」をしておくようにしてください。なお高校で教わったであろう微分や積分の「計算の仕方の公式」等は一切使いませんので、そういう「算数の知識(計算問題の解き方)」を復習する必要なく、「微分とは(無限小量の)割り算であり、積分とは(無限小量の)足し算である」という「定義(本質)」と「積分記号の意味」に相当する内容を、きちんと理解するようにしてください。その理解を次回使います。

微分・積分 動画(250MB45分)


では、今日は、このへんで終わります。