前回までで、テキスト3章4章の内容を一応終わりました。2項分布は今後も「基本」として随所に現れ、学べば学ぶほどその重要性に気がつきますので、一通り勉強した、で終わりにするのではなく、後からも何回も(基本の2項分布に)振り返って勉強しなおすと良いと思います。学べば学ぶほど「2項分布について、理解不足、勉強不足」に気が付くはずです。ですから逆に、最初は完全な理解を目指さず、とりあえずの理解で、さっさと先に進み、視野を広げましょう。ということで、5章の内容に進みます。
2項分布は、その近似理論であるポアソン分布や正規分布の話も含め、ここまでは「確率変数が離散的(自然数とか整数とか)」な場合を扱っていました。しかし「確率変数として、連続量(実数とか)を扱いたい」場合も出てきます。たとえば、テキストで上げている例だと「体重の分布」とか。「扱う事象を、整数で表すことができる(=デジタル)」ならば、今までの「離散確率分布」の範囲内で扱うことができますが、「扱う事象を整数で表すことができない(=連続量=アナログ)」の場合には、(数学的には)ちょっと厄介になります。
別の例も考えましょう。例えば、コイン\(n\)枚を振って\(x\)枚表が出る確率。前回やった2項分布ですが、見方を変え、\(x\)の代わりに\( y=x/n \)で見てみましょう。つまり\(n\)枚を振って\(y\)の比率で表が出る確率。どちらで見ても同じ現象を見ていますよね? ここで振るコインの枚数が大きくなった時を考えます。1000とか10000とかもっと大きくなった時を考えます。すると、\(y\)の値は、0~1の間になりますが、その間隔はどんどん小さくなります(0,1/n,2/n,3/n,,....) 。 これをグラフに書こうとすると... 実は、とんでもないことが起こります。それは、この関数は「yの値が有理数のときB(ny,n,1/2)、yの値が無理数の時0」というグラフですから、「至るところ不連続なグラフ」です(^^;; ちょうど\(x\)枚、ではなく「\(x\)枚くらい」の確率を考察したい場合、つまりちょうど比率\(y\)ではなく、「\(y\)くらい」という考察をしたい場合「至る所不連続なグラフ(至る所で線が切れている、点のグラフ)の、横軸の値が有理数の場所だけ見る(無理数の時の値は常に0なので)」という、非常に厄介な見方をする必要があります。この場合、普通に「連続的なグラフ(線がつながっているグラフ)」で、「\(y\)くらい」確率の様子が分かる方がずっと簡単です。このような、\(n\)を大きくしても本来連続にはならず稠密になるものを、「連続に近い」として扱うことを「連続近似」と言います。この扱いにより「\(y\)くらい」の扱いを「グラフで」読み取ることが可能になります。
連続値は、小さな区間に区切って扱い「小さな区分のヒストグラム」で考えます。その上で、区間の幅を「無限に小さく」して定式化を行います。なお、区間を小さくとるとその中に入る確率は小さくなりますので、「単位区間長当たりの確率(=確率密度)」を導入します。
以下、記号の意味がよく分からなくても、とりあえず(予告編的に)読んでください。
確率変数x「くらい」の範囲を\( x~x+dx \)とします。\( x \) くらいである確率、つまり \( x~x+dx \) の範囲に入る確率を \( dP(x) \) とおきます。\( x \) くらいの範囲 \( dx \) が狭ければその中に入っている確率は小さく、広ければその中に入っている確率が高くなるので、範囲当たりの確率 ( \( f(x) \) )を導入します。この量は区間の広さによらない量になります。
\[ \frac{dP(x)}{dx} = f(x)\]
この「単位区間当たりの確率」を確率密度(その関数( \( f(x) \) )を確率密度関数)と呼びます。この確率密度関数を使うと、\( x~x+dx \)の範囲に入る確率\(dP\)は、\[ dP(x) = f(x) dx \]となります。これを、\( x=a~b \) の範囲で足し上げれば、 \( x=a~b \) の間にある確率になり、それを \(P_{a~b} \) とおけば、足し算は積分ですから、 \[ P_{a~b} = \int_{x=a}^{x=b} {dP(x)} = \int_a^b f(x) dx \]となります。
と、ここまで見て「微分や積分の記号が難しそう(^^; 高校で微積教わったけど、なんか見たことない記号の使い方をしている?」と感じる方は、前回、時間外学習の課題として提示した動画を再び提示しますので、微積分学の「本質的な意味」を確認してください。
既に「積分は、無限小量の足し算である。足し算の記号が∫である」ことを理解した方は、このセクションは飛ばして9-4に進んでください。
・微分:無限小量の「割り算(傾き)」
・(定)積分:無限小量(無限に細かく分割した量)の「足し算」。
・微分積分学の基本定理:この「足し算」の答えは、原始関数の差で計算できる
・原始関数 (不定積分):その関数を微分したら与えられた関数になるもの(微分の逆)。
特に下線の部分が、今回の話を理解する上で、必要不可欠な認識です。ちなみにこれらは、微分積分学の一番初歩的かつ基本的な内容で、多分、ちゃんと説明されれば中学生でも理解できる内容であり、またこれだけ分かれば、微積分を使って書かれている内容をほぼ完全に理解することができると思います。しかし、何故か高校数学では取り扱われていません。高校数学の教科書では、定義と結論を入れ替えた論理で書かれていますので、(受験問題は解けても)本質的な理解が困難です(何を計算しているかが分かりにくい)。ですから(普通の大抵の大学では)微積分を使う学問を学ぶ前に、きちんと(高校数学の微積ではない)本当の微積分学を学びます。しかし、本学はそうなっていないようですので、必要最低限の内容を、動画「微分・積分 動画(250MB45分)」で説明します。
微分・積分 動画(250MB45分)
微分は割り算、積分は足し算。こういう(正しい)見方ができれば、(有限の大きさでの割り算とか有限個の足し算とかなら、小・中学校で教わったものと同じですから)割り算として微分を、足し算として積分を理解し、使うことができると思います。では、前の説明をもう一度繰り返します。
連続値は、小さな区間に区切って扱い、小さな区分のヒストグラムで考えます。その上で、区間の幅を「無限に小さく」して定式化を行います。なお、区間を小さくとるとその中に入る確率は小さくなりますので、単位区間長当たりの確率(=確率密度)を導入します。
確率変数\(x\)「くらい」の範囲を\( x~x+dx \)とします(\(dx\)は厳密には無限小量ですが、まあ小さい数程度に思っていただければ良いでしょう)。\( x \) くらいである確率、つまり \( x~x+dx \) の範囲に入る確率を \( dP(x) \) とおきます。\( x \) くらいの範囲 \( dx \) が狭ければその中に入っている確率は小さく、広ければその中に入っている確率が高くなります。なお、\(dx\)が無限に小さい場合には、この範囲に入っている確率も無限に小さくなります。ですからその量を無限に小さい量としてdをつけて \( dP(x) \)と書いています。ここで、範囲当たりの確率 ( \( f(x) \) )を導入します。◯あたりの△とは、△割る◯、 つまり △/◯ のことですから、\( dP(x) \)を\( dx \)で割った値を導入することになります。
\[ \frac{dP(x)}{dx} = f(x)\]
この「区間\( dx \) あたりの、この区間に入る確率\( dP(x) \)」を確率密度と呼び\( f(x) \)と書きます(丁度、単位体積当たりの質量を「密度」と呼ぶことと同じです)。この確率密度関数を使うと、\( x~x+dx \)の範囲に入る確率\(dP\)は、
\[ dP(x) = f(x) dx \]
となります。これを、\( x=a~b \) の範囲で足し上げれば、 \( x=a~b \) の間にある確率になります。それを \(P_{a~b} \) とおけば、足し算は積分ですから、\[ P_{a~b} = \int_{x=a}^{x=b} {dP(x)} = \int_a^b f(x) dx \]
となります。もし「確率密度関数\( f(x) : x=a~b \)のグラフ」を書くなら、グラフの横軸\( x \)を、小さな幅\( dx \)の区間\( x~x+dx \)で分割し、幅 ( \( dx \) )と高さ( \( f(x) \) )は、その範囲の短冊の面積ですから、その面積を、なお、区間を全体(\( - \infty ~ \infty \) ) にすれば、全事象の確率は1ですから、
\[ P_{- \infty ~ \infty} = \int_{- \infty}^{\infty} {f(x) dx} = 1\]
となります。この値を確率( \(F(z) \)と書き、累積分布関数と呼びます(テキストでは\( \Phi(z) \) と書いていますが、ギリシャ文字よりアルファベットの方が馴染みやすいでしょう。なお式を見ればこれは( \(f(x) \))を積分した関数(原始関数)でもありますから、( \(f(x) \)原始関数の記号として大文字( \(F(z) \)を使うことは自然でしょう。なお、積分の上限と積分変数の混乱がなく、原始関数のうち特定のもの(積分定数を特定の値に固定したもの)だけを扱っている、との認識があれば、\(z\)を \( x \)と書き、
\[ F(x) = P_{- \infty ~ x} = \int_{- \infty}^{x} {f(x) dx} \]
と理解したら、すっきりするかもしれません。これは「確率変数の値が\( x \)以下である確率」を示しますので、離散確率の時の「分布関数(あるいは累積分布関数)」に相当するもの(同じ意味のもの)です。なお離散確率分布の代表である2項分布の計算を(コンピュータの無かった時代に)現実的に行うには、正規分布近似(連続分布の関数で、離散確率分布の話を近似)を使うしかありませんでしたので、離散確率の話(用語)と連続確率の話(用語)が、妙な形でごっちゃになっています。それが以前「中身と用語に食い違いがある(犬にタマ、猫にポチという名前をつけるような用語)と言った中身」です。
以上でテキスト「5章5.1」に相当する内容を終わりにします。
2項分布の近似としては\(x\)の値は整数値のみですが、正規分布の関数は\(x\)の値が「実数」の場合でも定義されており「連続確率分布」の場合の「確率密度関数」としても使えます。そこで「確率密度関数\(f(x)\)が正規分布関数\(N(\mu,\sigma^2)\)」である場合の、確率密度関数と\(x\)くらいの確率\(dP(x)\)を考察しておきます。「くらい」の範囲を\(dx\) と置くと、その範囲にある確率\(dP(x)\)は、
\[ dP(x)= f(x) dx \]
でした。ここで、\(x\)が「1つずつしか大きくなれない(\(x\)が整数)」の場合を考えます。すると\(dx\)は、無限に小さくはなれず「1」の値しか取れません。また、\(dP(x)\)は、\( [x~x+1) \) の範囲にある確率になります(なお、「 [ 」「)」 は、閉集合と開集合の記号で、「[」はその値まで含み、「)」 はその値を含まない、という意味です)。その場合には、\[ dP(x)= f(x)・1 = f(x) \]となるので、\(x\)くらい( \(= [x~x+1) \) つまり範囲の広さ1)の範囲にある確率\(dP(x)\)は、確率密度関数\(f(x)\)は、同じものになります。つまり、離散確率分布とき \(x\)である確率\(P(x)\)と呼んでいたものは、連続確率分布の確率密度関数\(f(x)\)と同じものになっています(離散確率分布の話に、連続確率分布の関数や用語を用いると、用語がおかしくなる理由です)。ですから、2項分布のように確率変数が「1ずつ変わる」場合には、離散確率の場合の確率関数を、連続確率の場合の確率密度関数とみなしても、答えは必ず一致します。
ですから、正規分布~\(n\)の大きい2項分布のようなもの、と捉えてよいと思います。なお、\(n\)の大きな2項分布は(そのままでは計算困難ですから)正規分布で近似的に取り扱うのが普通です。なお、先ほどのテキストP78の図を見れば、2項分布のグラフを幅1の短冊にして足し上げたものが、グラフの面積になていることも、読み取れると思います。
「表」を使って計算するには必要ですが、コンピュータを使って計算するためには、不必要な知識です(^^; しかし、「試験(入試や資格試験)にコンピュータを使わせない」という場合もありますので「試験には必要かもしれなけけど、実用性の無い、試験(入試や資格試験)だけのための知識」と思っていただいても差し支えないと思います。でも、高校の数学などでも扱っていますので、考え方のみ紹介します。もし後で資格試験などで計算練習が必要なら、テキストを参照してください(なお、この授業の期末試験では、このような無意味な知識は問いません)。
ポイントは、一般に関数\(f(x)\)において「\( x \rightarrow x-\mu \)」と変換すると、グラフは右に\(\mu\)移動し、「\( x \rightarrow \frac{x}{\sigma} \)」と変換すると、グラフは横に\(\sigma\)倍に広がる、という関数の一般論を使うだけです(統計学固有の専門的な話は何もありません)。この2つの変換を続けて行い、\( x \rightarrow \frac{x-\mu }{\sigma} \)と変換すると、元の関数は「右に\(\mu\)移動し、横に\(\sigma\)倍に広がる」ことになります。横に\(\sigma\)倍に広がると、グラフの面積も\(\sigma\)倍になりますから、もし「全区間での積分が変わらないようにしたい」なら、さらに関数を\(\frac{1}{\sigma}\)を掛ければよいことになります。
ここで、基本的な関数
\[ f_{G}(x)=\frac{1}{\sqrt{2 \pi } }e^{-\frac{x^2 }{ 2 }} = \frac{1}{\sqrt{2 \pi } } \exp{ \left( -\frac{x^2 }{ 2 } \right) }=N(0, 1)\]
を導入します。この関数はパラメタが入ってませんので、「値がきまっている、単なる1つの関数」であり、答えを1つの表で表せますし、この関数の積分も、1つの表で表せます。この関数\(f_G(x)\)をガウス関数あるいは標準正規分布関数と呼びます。この関数は平均値0標準偏差1の正規分布関数と同じ関数です。この関数に\( x \rightarrow \frac{x-\mu }{\sigma} \)と変換し、関数の値に\( \frac{1}{\sigma}\)を掛けると、\[ \frac{1}{\sigma}
f_G( \frac{x-\mu }{\sigma}) = \frac{1}{\sqrt{2 \pi } \sigma } e^{-\frac{(x-\mu )^2 }{ 2 \sigma^2 }} = \frac{1}{\sqrt{2 \pi } \sigma } \exp{ \left( -\frac{(x-\mu )^2 }{ 2 \sigma^2 } \right)} =N(\mu, \sigma ^2) \] となります。一般の正規分布の関数とその積分が必要な場合には、この変数変換を使って「ガウス関数の表(=標準正規分布関数の表)とその積分の表」から計算できます、というのが、標準化変換の考え方です。
つまり、「標準正規分布の表やその積分の表」を使うのではなく、直接、一般の正規分布関数やその積分を、コンピュータ(R、EZR)で計算して使えば、標準化変換は「必要無い」です。
正規分布は、基本的に2項分布と同じです。ですから(確率変数が連続的な場合も含めて)、2項分布が現れるような状況の時に、正規分布が得られます。
代表的な例として「ランダム・ウォーク(酔歩)」の話を紹介します。ある「よっぱらい」がふらつきながら歩いていたとします。よっぱらっていますので、足元もふらふら。右に行くか左に行くかわかりません。まっすぐ前に歩こうとしているなら、「右にふらつく」のと「左にふらつく」確率は等しいでしょう。なお一般に「右にふらつく確率=\(p\)」とすれば、まっすぐ前に歩こうとしている場合\(p=\frac{1}{2}\)だけでなく、斜め前に歩こうとしている場合でも容易に一般化できます。1歩歩くと、元の位置から一定の距離Lだけ(右か左に)移動するとします。では、この人が\(n\)歩、歩いたとき、元の位置からどのくらい左右にずれているか? という問題です。この問題をランダムウォークの問題あるいは日本語で乱歩問題あるいは酔歩問題と言います。
これは、1歩踏み出すと「確率\(p\)で右(確率\(1-p\))で左」にLだけ進みますのでベルヌーイ事象として扱えます。これを\(n\)回繰り返し、\(x\)回右(\(n-x\)回左)であれば、左右のずれの総和、\( Lx-L(n-x)=L(2x-n) \)だけ移動します。この確率分布は2項分布になりますが、「歩数が多い場合」には正規分布と一致します。つまり「このよっぱらいが、元の位置からどのくらい離れた場所にいるか、その確率は正規分布になる」ことが分かります。また、「一歩」の距離が一定でなくランダムに変化する時も「このよっぱらいが、元の位置からどのくらい離れた場所にいるか、その確率は正規分布になる」ことが示されます。
なお、このランダムウォークの理論を初めてきちんと数式化し、「ブラウン運動」が本質的に(分子が微粒子の右から当たったか左から当たったかによる)ランダムウォークであることに基づき、「ブラウン運動の解析から、周りの物質の分子数が求められる(=アボガドロ定数が求められる)」ことに気が付き「物が分子からできていることを実証した」のは、アインシュタインです。アインシュタインは、この功績(と、光電効果の光量子仮説)で、ノーベル賞を受賞しています。
分子運動以外にも、「+にずれるかーにずれるか」という試行を多数回行い、そのずれの総和(あるいは平均)とみなせるような場合に、同じく正規分布が現れます。たとえば「ある物の長さ」を測定する場合、物差しの当て方や目盛りを読む視点のふらつきで、正しい値からずれた値を読み取ることは、良くあることです(測定誤差)。1度ではどうずれたかわかりませんが「多数回測定すると」十分に注意深く測定された値は「正規分布」に従うようになります。
ベルヌーイ試行だと、1回の試行では「2つに1つ」の場合だけですが、分子運動や測定値の例では「1回の試行でずれる量は一定ではなく、整数でもない(連続量)」ですが、連続的な場合でも「ランダムに、正負にずれることを、多数回繰り返す(そしてずれの総和あるいは平均を議論する)」場合には、一般的に正規分布が得られます。
なお「多数のデータ(母集団)の中から、ランダム(でたらめ)にいくつかデータを抽出し、平均値をとる(サンプルを取る=サンプリング)」場合にも、同じことが起こります。たとえば1億個の身長のデータの中から1つ、ランダムにデータを取る場合、たまたま身長が高い人のデータを取ることもあれば、たまたま身長が低い人のデータを取ることもあります。それを千回繰り返し、その和を取る(と本質的に同じですが、平均を取る)。これを1回の試行とし、そのことを何回も行った時の、平均値の分布は「正規分布」になります。これが中心極限定理で、このランダムサンプリングと関係して(必然的に)正規分布が現れます。古典的な統計的推定(パラメトリック推定)は、殆ど、この性質に基づいて推定を行いますので、次回、この辺の話に進みます。
次回は、テキストP87~P106の内容の説明を予定しています。
では、今日は、このへんで終わります。