7. 二項分布と二項検定

7-1. 2項分布(コイン投げ)の確率

【10枚のコインを振ったら、何枚表になるか?】

事象Aが起こる確率がpであるとき、AであるかAで無いかに注目します(ベルヌーイ試行)。たとえば、コインを振って表がでる(A)かそうでないか。たとえばじゃんけんをしてチョキが出る(A)かそうでないか。たとえばサイコロを振って1が出る(A)かそうでないか。たとえば2つの商品のうちどちらが好きかを尋ねて、Aが好きか、そうでないか。たとえば、ある政策に対しての意見を尋ね、支持する(A)かそうでないか....

何回か(n回)同じことを試みて、そのうち何回(\(x\)回)Aであるか?Aが起こる「確率」は\(p\)と分かっている場合、それはn回行ったら(試行したら)何回くらい起こるのか?「1回の試行なら確率\(p\)で起こる事象Aを、\(n\)回繰り返したら、そのうち\(x\)回起こる確率」を2項分布と呼び、これを\( B(x,n,p) \)と書くことにします。なおRでは、dbinom(x,n,p) と入力すれば、この関数の値が得られます。

\[ P( \mbox{確率} p \mbox{の事象が、}n\mbox{回中}x\mbox{回起こる}) =\ _n C_x \ p^x \ (1-p)^{n-x} =B(x,n,p) \]


なお「繰り返す」のは、時間的に「同じことを何回か繰り返し」ても、また、時間的には同時にしかし「同じものを複数用意して」空間的にくりかえしても、良いです。たとえばコインの場合「同じコインを10回投げて、そのうち何回表だったか」と「同じようなコインを10枚用意し、同時に投げて、そのうち何枚表だったか」は、同じ問題となります。

では、表が出る確率1/2のコインを10枚投げた時、x枚表である確率を考えます。これば\( B(x,10,1/2), x=0,1,2,3,4,5,6,7,8,9,10\) です。この値は、R なら、dbinom( 0:10 , 10, 1/2 ) で求められますし、EZRのメニューからなら [標準メニュー] → [分布]→ [離散分布] → [2項分布] → [2項分布の確率] で「試行の回数=10」「成功の確率=0.5」でも求められます。「だいたいの傾向を見るだけ」なので、小数点以下第4位までで四捨五入しておきましょう。


  x   B(x,10,1/2)

  0  0.001 = 0.1%

  1  0.010 = 1.0%

  2  0.044 = 4.4%

  3  0.117 =11.7%

  4  0.205 =20.5%

  5  0.246 =24.6%

  6  0.205 =20.5%

  7  0.117 =11.7%

  8  0.044 = 4.4%

  9  0.010 = 1.0%

 10 0.001 = 0.1%

となります(合計1=100%です)。


「10枚すべて表(\(x=10)\)」である確率は0.1%です。かなり起こりにくい確率ですが、まあ稀にそういうこともおこるかもしれません。なお、「10枚すべて裏(\(x=0)\)」である確率も0.1% です。

一番おこりえるのは、(確率が高いのは)「ちょうど半分の5枚表(\(x=5)\)」であること。まあ、表になる確率が1/2ですから、10回行えばその半分の5回くらい表になることが多いだろう、と、なんとなくカンでもそう思うんじゃないかと思います。なお2項分布の平均値は\(np\)ですから(テキスト参照)今の場合、10*1/2=5、またグラフは左右対称なのでメディアンも5,ひと山なので、モードも5ですから、コインを10枚投げれば「まあ5枚くらい表であることが多い」と判断することは、妥当ではないかと思います。

しかし「5枚表である」確率は24.6%、つまり大体1/4(=0.25)くらいであり、かならずしも5枚表と言うわけではなく「むしろ5枚で無いことの方がおこりうる(75.4%)」とも言えます。「5枚と5枚くらいでは、多い少ないという判断が逆転するくらい意味が違う」ことに注意してください。

今日の話は、実は内容的にはこれで全て終わっています(^^; 以下の話は、同じことを「言い方を変えたらどうなるか?」とか「その数値から、どう判断するの?」と言う話だけです。以下、そう言う話であることを念頭におき、必要があれば、確率の値(\(B(x,10,1/2)の値\))の表をメモに取り、それを見ながら「ああ、これはこの値のことね。この値とこの値を足したものの話をしているのね」と理解すると良いと思います。


【確率1/2で表が出るコインを10枚投げ、5枚くらい表が出る確率は?】

では5枚くらいをもう少し詳細に考えます。5枚くらいなら.. 仮に「4,5,6枚の意味」としてみましょう。すると、その確率は「\(B(4,10,1/2)+B(5,10,1/2)+B(6,10,1/2)=   0.205+0.246+0.205=  0.656= 65.6%\)」となります。つまり、65.6%の確率で「表が5枚くらい(4,5,6枚)」と言えます。半分以上の確率で、この意味での「5枚くらい」になる、とも言えますので「大抵5枚くらい表になる」とも言えますが、この場合でも、34.4%くらいの確率で「5枚くらいじゃない(0,1,2,3,7,8,9,10)」ことが起こることにも、同時に注意してください。ちなみに確率34%くらいって1/3くらいですから、たとえばじゃんけんするときに「お前はパーを出す」と予言して、偶然当たる程度(つまりじゃんけんで、1発で相手に勝つ程度)の確率です。半分よりは小さいですが「ふつうに起こりそうなこと」ですね。

 では5枚くらいをもう少し広げて考えます。5枚くらいを.. 仮に「3、4,5,6、7枚の意味」としてみましょう。すると、その確率は「\(B(3,10,1/2)+B(4,10,1/2)+B(5,10,1/2)+B(6,10,1/2)+B(7,10,1/2)=   0.117+0.205+0.246+0.205+0.117=  0.890= 89.0%\)」となります。つまり、89.0%の確率で「表が5枚くらい(3,4,5,6,7枚)」と言えます。この場合11.0%くらいの確率で「5枚くらいじゃない(0,1,2,8,9,10)」ことが起こります。確率10%くらいと言うと... たとえば「あなたの電話番号、末尾は8でしょ?」っとあてずっぽうで言ったとき、本当に当たる確率です。当たれば「お!(^^)」と言うかもしれませんが、その程度のことであり、あり得ないことでもないし、下一桁当てたからと言って、相手がエスパーだとも思わないでしょう。5枚くらいかそうでないか? と問われれば「多分5枚くらいなんじゃない」とは予想しても、絶対とも思わないし、外れたら「ああ、そうだったの」で終わらす程度の確率(確からしさ)でしょう。

では5枚くらいをもう少し広げて考えます。5枚くらいを.. 仮に「2、3、4,5,6、7、8枚の意味」としてみましょう。すると、その確率は...0.978=97.8%になります。

この場合、「5枚くらいじゃない(x=0,1,9,10)」確率は、2.2%ですから。約1/50。50人のクラス全員で(あたり1名だけ)のくじ引きして 、一発で自分が当たりになる確率ですから... もし当たったら「おお!!(^^)/」と言うかもしれませんが、まあその程度の確率(確からしさ)です。このくらいになると「あまり起こることを期待できません」が、「稀に起こることもあります」し、まあ、その程度です。

....


まとめます。

・「ちょうど5枚」が一番確率が高いですが、それでも25%くらいの確率であり、「ちょうど5枚、ではない」方が確率が高くなります。

・5枚「くらい」の確率は、その範囲が広がるにつれ、その確率は高くなります。4~6枚ならおよそ65%、3~7枚ならおよそ90%、3~7枚ならおよそ98%の確率になります。ちなみに0~10枚なら、全ての場合ですから100%です。


同じことですが逆の言い方をします。

・10枚のコインを振った時、ちょうど半分の「5枚にはならない確率(p-value)」は75%くらいで、大抵は5枚にはならない。

・「5枚くらいにならない」確率は、「くらい」の範囲がひろがるにつれ、その確率は低くなります。5枚くらいの意味が、4~6枚なら「およそ5枚(4~6枚)にならない確率(p-value)」は35%、3~7枚なら「およそ5枚(3~7枚)にならない確率(p-value)」はおよそ10%、2~8枚なら「およそ5枚(2~8枚)にならない確率(p-value)」はおよそ2%の確率になります。

この確率の「値」をどう解釈するか?(起こりやすいこと? 普通に起こること? 起こりにくいこと? 多分起こらないと思ったほうがいいこと?)というのが、「何かを判断するときのポイント」になります。なお、Rで解析するとこの確率を自動的に計算してくれ「p-value」と表示されます。日本語では(統計学用語としてp-valueはp値)と呼ばれることもあります。p-valueは「偶然、**くらいにはならない」事が起きる確率です。


例えば、コインを10枚振って、7枚表がでたとしましょう。なんか仕掛けがあるかもしれませんが、まずは「何も仕掛けが無く、表が出る確率が1/2であるとき、たまたま5枚くらいでなく7が出た」と解釈しましょう。そのときの5枚くらいとは、7が5枚くらいの範囲外とするわけですから、4,5,6枚の意味になります。では、その確率(p-value)は?と言うと「4~6枚にならない確率」ですから、およそ35%になります。つまり、10枚振って表が7枚と言うのは「多くはないが、普通に(35%くらいの確率で)起こること」と解釈でき、別に不思議なことでは無いと判断できます。


では次に、同じ問題を「アンケートや感応検査の結果分析」の例で考えてみましょう。



7-2. 二項検定(binomial test)

ある新商品Aを開発し、既存の商品Bより良いかどうか、10人にアンケートあるいは感応検査をお願いしました。その結果x人(例えば7人)がAの方が良いと答えました。さて皆さんはこの結果から、どのような判断をしますか?


【両者に差がないと仮定した場合の確率計算=Null hypothesis(=日本語訳:帰無仮説)】

まず、「商品Aが、商品Bと大差ない(本当は差を人が検出することが不可能だった)と仮定」して、考察してみましょう。「何もない」という仮説ですから、英語では普通に「Null hypothesis」と言います。今なら普通に「ヌル仮説」と訳せば良いと思いますが...日本語では何故が馴染みのない変な訳語「帰無仮説(きむかせつ)」と言います(^^;; 

仮定ですからそうだと主張しているわけではなく、その可能性について客観的に考察してみる(=科学的な考察)、ということです。


-- 余談--

「帰無仮説」という変な訳語や漢字に基づき、変な説明や無駄に難しく書かれている本なども数多くありますので要注意。本来の用語は、普通に英語のNull (何もない)というhypothesis(仮説)です。Null の日本語(外来語)としての読みはヌル(まれにナル)。現在では、ヌルは普通に使われていますね。例えば、ポケモンのタイプ:ヌルとか。その意味で正しいですし、様々な分野での専門用語としても、ヌル細胞とか、ヌルポインタとかヌルポとか...。まあ「Null=何も無い:ヌル」と言う意味を知り、ヌル仮説(何もも無いと言う仮説)と言う用語を使うのが一番わかりやすいですね。ですからヌルと言う外来語も無かった明治時代に作られた変な訳語「帰無仮説」なんて言葉に拘らず、「英語の意味で普通に内容を理解」した上で、「変な訳語」も、資格試験用あるいは日本語の変な本を読むとき用に、覚えれば良いでしょう(それ以外には役立ちませんので https://gakkai.univcoop.or.jp/pcc/2014/papers/pdf/pcc057.pdf )。

-------

もし商品に差がなければ、回答者は「A,Bどちらが良いか、当たり外れの区別がつかないくじを引くような感じで、確率1/2で」どちらかを回答するでしょう。先に出されたかどうか、左にあったかで回答するかもしれません。調査する場合にはそのような「別の要因で差が出ることが無いように」出す順番や位置をランダムに(でたらめに)入れ替えたり、あるいは同時に出したり、することは多分常識の一部でしょう。当然そのような配慮を行い「他の要因で、AかBかの区別がつかない」ように行えば、「もし商品A,Bに差がない(区別がつかない)」場合には、どちらが良いと答えるかは同等に確からしいですので「ある人がAと答える確率は1/2」になります。「あるコインを投げて表が出る確率は1/2」と同じですね(^^)。共に「確率1/2のベルヌーイ試行」と見なすことができます。それを10人に対して行い、\(x\)人がAが良いと答える確率、10枚のコインを投げて、\(x\)枚が表になる確率、共に同じ、\(B(x,10,1/2)\)の2項分布になります。

すると... 前に戻って\(B(x,10,1/2)\)の確率の値を見直してください。前は「10枚のコインを投げて、\(x\)枚が表になる確率」の話でしたが、「(本当は両者に差がない商品で)10人にAの方が良いかどうか質問を行い、\(x\)人がAが良いと答える確率」の話でも答えは同じになるということです。

では以下、(前のページを見るのが面倒なので)主要部分を前のページからコピペして、「コインを振る」を「どちらが良いか質問する」に、「*枚」を「*人」に、「表」を「Aが良いと答える」などに書き換えておきます。

----

  x   B(x,10,1/2)

  0  0.001 = 0.1%

  1  0.010 = 1.0%

  2  0.044 = 4.4%

  3  0.117 =11.7%

  4  0.205 =20.5%

  5  0.246 =24.6%

  6  0.205 =20.5%

  7  0.117 =11.7%

  8  0.044 = 4.4%

  9  0.010 = 1.0%

 10 0.001 = 0.1%

となります(合計1=100%です)。


・「ちょうど5人」が一番確率が高いですが、それでも25%くらいの確率であり、「ちょうど5人、ではない」方が確率が高くなります。「5人にはならない確率(p-value)」は75%くらいで、大抵は5人丁度にはならない。

・5人「くらい」の確率は、その範囲が広がるにつれ、高くなります。4~6人ならおよそ65%、3~7人ならおよそ90%、2~8人ならおよそ98%の確率になります。ちなみに0~10人なら、全ての場合ですから100%です。

・同じことを逆に言います。「5人くらいにならない」確率は、「くらい」の範囲がひろがるにつれ、その確率は低くなります。5人くらいの意味が、4~6人なら「およそ5人(4~6人)にならない確率(p-value)」は35%、3~7人なら「およそ5人(3~7人)にならない確率(p-value)」はおよそ10%、2~9枚なら「およそ5人(2~8人)にならない確率(p-value)」はおよそ2%の確率になります。

この確率の「値」をどう解釈するか?(起こりやすいこと? 普通に起こること? 起こりにくいこと? 多分起こらないと思ったほうがいいこと?)というのが、「何かを判断するときのポイント」になります。なお、Rで解析するとこの確率を自動的に計算してくれ「p-value」と表示されます。日本語では(統計学用語として)p-valueはp値と呼ばれることもあります。p-valueは「偶然、**くらいにはならない」事が起きる確率です。

例えば10人にどちらが良いか質問して、7人がAが良いと答えたとしましょう。なんか仕掛けがあるかもしれませんが、まずは「何も仕掛けが無く、Aが良いと答える確率が1/2であるとき、たまたま5人くらいでなく7人だった」と解釈しましょう。そのときの5人くらいとは、7が5人くらいの範囲外とするわけですから、4,5,6人の意味になります。では、その確率(p-value)は?と言うと「4~6人にならない確率」ですから、およそ35%になります。つまり、どちらが良いか10人に質問し、7人と言うのは「多くはないが、そういうことは普通に(35%くらいの確率で)起こること」と解釈でき、別に不思議なことでは無いと判断できます。



【 p-value, 有意水準(Significance level)、判断(棄却、支持) 】

 Probability valueを、略して p-value と書きます。 p-valueを日本語に訳し「p値」と呼ぶ場合もありますが...まあ英語が珍しかった明治時代の訳語と思っていただければ良いと思います。Probability は「確率」の意味でvalueは「値」の意味ですから、Pobability valueは普通に「確率の値」と理解する方が、原語に忠実な理解(正しい、正確な意味)になります(^^; p-value,p値などの用語が出てきたら、普通に「確率の値」と理解してください。なお、Rで計算された「確率の値」は、「p-value= **」と表示されることが多いです。

ところで、実際に確率の値を計算するには大量の高度な計算が必要になることが多く、コンピュータが普及する前は、高度な数学を用いた大量の計算ができるいわば「数学の名人」しかこの値(確率の値=p-value)を求めることができませんでした。そこで、コンピュータが普及する前の時代は、一般の学者などは、数学の達人が作った表などを元にして「ある基準の確率より大きいか小さいか」だけを求め、そこから確率的な「判断」を行うことが普通でした。そのときに使った基準が「Significance level:有意水準」です。

普通の英単語として「Significance=意味がある、重要である」と言う意味で、明治時代に「有意」と訳されました。levelは... 現代では既に日本語ですね(レベル=段階、地位、階層...)。つまり、Significance level とは「意味があるレベル」と言う意味で、これを明治時代のセンスで翻訳すると「有意水準」になります(^^;;

例えば確率(p-value)が90%なら「大抵そうなるだろう」と判断すると思いますし、確率20%なら「あまり起こらないけど、絶対に起こらないと言うわけでもない」と判断することが普通でしょう。しかし確率が極端に小さい(0に近い)なら「ほとんど起こらない」あるいは「千億人以下と言う極わずかな人数の、宇宙年齢以下と言う極短い時間での経験では、殆どその現象を観測する偶然は起こらない」と言う現実的には「絶対に起こらないと解釈した方が良い」と言う場合もあるでしょう。つまり確率が「ある基準」より小さければ「現実的には起こらない(=意味が無い)」と解釈しよう、と言う方う方が(昔は)現実的でした。

そこで、その確率の出来事が、現実に起こるかどうかと言う問いに「意味がある(起こるかもしれない)」か「意味がない(まず起こらないでしょう!)」を判断するレベル(Significance level :有意水準)を設定し、確率がそれより小さければ「現実的には起こらない(意味がない):有意でない」と判断し、確率がそれより大きければ「現実に起こるかもしれない(意味がある):有意である」と判断する、と言う簡易な判断法が、「昔は」よく使われていました。なお、現在では普通にコンピュータを使って確率の値(p-value)を計算できますので、文明社会では「実験や調査などの結果の分析や解釈には、有意水準の議論は使わず、確率の値(p-value)で報告し、議論しましょう」と言う動きになっています。なお今だに明治時代のセンスで書かれている教科書や資格試験などでは「有意水準」で話を進めていますが、まあそう言う本を読む場合には「(現在では実用的ではない)古文で書かれた本を読んでいる」と諦めましょう。


【10人中7人の普通の解釈と、古い統計学用語】

コインの場合と全く同じですね(^^) つまり「両者に差など何もない」という仮説(ヌル仮説=帰無仮説)の元で確率計算をすると、「丁度半分の5人がAと答える」確率が最も高いがその確率は25%しかない(「丁度半分」ではない、ことの方が起こり得る)。「およそ半分の5人くらい」Aが良いと答える確率は高くなるが、どのくらいの確率になるかは「くらいの意味する範囲」によリます。

この確率の値を元に、具体的に、「10中7人、と言う結果が得られた」ことの「意味」を考えます。これが「5人くらい」の範囲内ならまあ、普通にあることだし、「5人くらい」の範囲外なら「Aの方が良いと言う人が多いのかもしれない」と判断できるかもしれません。そこで、この結果になんらかの意味があるのかどうかを検討するために、7人が「5人くらいの範囲外」と言う解釈つまり「5人くらい=4、5、6」と言う解釈を採用することにします。この解釈の場合「5人くらいになる確率」は65%で「5人くらいにならない確率」は35%です。「どちらも差がない、と仮定しても、確率(p-value)35%くらいで起こるなら、普通に起こるでしょ(^^; だからこのデータから「Aの方が良いと答える人が多い」と主張することは支持されない(そうかもしれないけど、そうでないかもしれない。だから、わからないが正解)」 と言うのが本質であり、これで全てです。


この簡単なことを、明治時代の訳語で、明治時代の方法論で表現します。

---

帰無仮説(Null hypothesis ):何もない。偏りも傾向も... 何もない。単なる偶然。

対立仮説(Alternative hypothesis):何もないわけではない。なんかある。偏りとか傾向とか... なんかある。

10人中7人と言うことは、p値がおよそ0.35であり、これは有意水準20%にしても、帰無仮説を棄却できない。よって、「なんらかの傾向があると主張する」対立仮説は支持されない。

---

と言う意味不明な呪文のようになります(^^;


このように「確率pのベルヌーイ事象をn回繰り返しx回起きた、という2項分布にしたがう」と仮定したうえで(帰無仮説)、実際に起きたようなことが、その仮定(帰無仮説)の範囲内で起こる確率(p-value)を求め、その確率の出来事が「普通に起こりえる」あるいは「普通にはおこらないだろう」という判断を下すことを「2項検定(binomial test)」と呼びます。


7-3. R(EZR)での2項検定の計算の仕方と、統計的判断

EZRでは、最初からメニューに組みこまれた計算はメニューからできますが、組み込まれていないものは、ちょっと操作が面倒であり、そう言うのも含めて楽に行うにはR Studioを使った方が便利なのですが.... 今回は、EZRでの操作方法を紹介します。

「Rコマンダー」のウィンドウ中の「スクリプトウィンドウ(Rスクリプト)」の中に

 binom.test(70,100,1/3)

を入力し、この部分を「範囲選択」したうえで[実行]押してください(よく見て打ち間違えないように)。出力ウィンドウに沢山の表示されますので その中の、

 p-value =

を見つけてください。その後の数値が「答え」です。

----


ここで入力している「 binom.test(x,n,p) 」の命令(コマンド)が、「Binomial Test=2項検定の計算をしてください」と言う意味です。なお答えが 1.32e-13 などと表示されれば、これは 1.32×10-13の意味です。この記載法は「コンピュータ(や電卓)ではよく使われる記載法」ですので、初めてみる人は、e-13など10-13の意味であることを知っておくと良いでしょう(Excelでも同じ記載方法ですし機械で1行で表現したい時に、とてもよく使われます)。

たとえばベルヌーイ試行の確率pが1/2(コイン投げなどと同じ)で、 10人中7人であれば、 binom.test(7, 10 , 0.5) と入力すれば「確率1/2で起こっているだけで、他に何もない」と言う仮定でこのようなことが起こる確率が、p-value =0.3438 として得られます。約0.35つまり約35%で、前ページの議論と同じですね。つまり「10人中7人がAが良いと答えました」と言う場合、それだけでは「なんらかの傾向があるとはいえない」と言うことがわかります。それを「だからAが良いと言う人が多いです」と言う人には... 冷たい視線を送り無視、が正しい対応です(^^;

たとえば同様に、 binom.test(70, 100 , 0.5) と入力すれば、p-value=7.85e-05と、「100人中70人がAの方が良いと答えた場合には?」の答えが得られます。この場合「何もない」ことを仮定してこのようなことが起こる確率を計算すると、その値は一万分の1より小さいと言うことですから、これは「確率がとても小さく、今回の調査で、そのように小さな確率のことが、たまたま起こった」と解釈するのは、かなり無理があるように思えます。1万分の1以下の確率で起こる「何もない(帰無仮説)」は、起こらないとしてリジェクト(棄却)すれば、「なんかある(例えば、Aと答える人の確率は1/2ではない)」と言う仮説が支持されることになります。この場合「だからAが良いと言う人が多いです」と言う人には... 「よく調べましたね(^^) Aが良いと言う人が多いと断定できるかどうかはまだわかりませんが、その可能性が高いですね。是非とも、もっと大々的に、もっと詳しく調べてみましょう。」、と言うのが、多分正しい対応でしょう。

なお、\(p\)は1/2(=0.5)である必要はありません。たとえば binom.test(70, 100 , 1/3) なら、前にやった「確率1/3でチョキが出てるだけ、のじゃんけんを100回繰り返して70回チョキが出てきた。もし(\(p\)=1/3の)2項分布に従うなら平均値は33回くらいのはずであるが、たまたまそこから外れて70回チョキがでた。そのようなことが起こる確率(p-value)がいくつであるか」が求まります。1.302e-13 とても小さいですね。ですから「偶然このことが起こったとは考えにくい」と言う判断が妥当でしょう。ちなみに、出力の中に、

 95 percent confidence interval:

  0.6001853 0.7875936

という部分が見つかるでしょう。これは、「95%の確率で、チョキが出る確率はpは(1/3ではなく)、0.6 ~0.8 くらいだろう」という意味です。これは、元の問題のチョキが出る確率をいろいろ変え、100回中70回起こるような確率が5%以上になる\(p\)の範囲を求めています。この答は、「チョキが出る本当の確率は、0.6~0.8くらいだろう(この予想が正しい確率95%。同じような問題をいくつも解いたら5%くらいは、誤りかもしれないから、その時はゴメンね(^^;)」という意味です。これを「95%信頼区間(95 percent confidence interval)」と呼びます。つまり、「じゃんけんを100回繰り返して70回チョキが出た。この結果は、チョキが出るか確率が1/3であるとは、考えにくい(そのようなことが起こる確率は10-13くらい)。チョキのでる本当の確率は、たぶん0.6~0.8くらいなんじゃないか?(この範囲である確率が95%)」と判断することが妥当だろうと思われます。

-----


どうですか? 既に(操作は)学んだはずのことですか、(計算の原理を知った上で)繰り返してみると、理解できることが増えていませんか?


7-4. まとめ

「確率\(p\)であること(A)が起こる試行(確率pのベルヌーイ試行)を\(n\)回繰り返し、そのうちAがx回起こった」と言うデータが得られた時、ここからどのような判断をするか?

それぞれのxの値に相当する事象が起きる確率(つまりAが\(x\)回起きる確率)は、2項分布\(B(x,n,p)\)に従い、その確率はコンピュータで簡単に求められる。「単に確率\(p\)でAが起こる、と言うことが\(n\)回繰り返されただけ(それ以外に何の意味もない)」と言う仮説(ヌル仮説=帰無仮説)の元では、必ずしも「\(np\)回起こる確率が大きいとはかぎらない」ですが、ピタリではなくても「\(np\)回くらい」起こる確率は高くなり「\(np\)回くらいの範囲外」の確率は小さくなります。「\(np\)回くらい」起こる確率は「ずれても良い範囲」の指定により変わります。「実際に\(x\)回起こった」と言うデータが、それが「\(np\)回くらい」の中と判断するなら、まあ普通のことが起こっただけ、と言うことになります。もし「\(np\)回くらい」の範囲外なら「かなり珍しいことが起こった」ことになります。今\(x\)回起きたと言うデータが「とても珍しいことが起こった(そんなに珍しいことが、今偶然起こったとは考えにくい。だから確率\(p\)で起きていたと言う仮説は間違っているのでは?)」と判断できれば、「データは、何らのかの傾向があることを物語っている(示唆している)のではないか?」と言う判断につながります。

ですから「データから、何らかの傾向があると判断する」場合には、必ず「単に確率pの出来事が起こっているだけで、他になんの傾向もない(帰無仮説)という仮説のもとでは、得られたようなデータが得られる確率は極めて低い(=偶然とは思えない)」と言うことを示す必要があります。これが統計的「検定」です。

なお、この「統計的検定」は、実際には「連続分布」で行われることが多いので、また「連続分布」の話が終わってから同じ話題を繰り返しますが、その基本的な考え方は「2項検定」と全く同じです。特にデータ数が少ない場合には「意味ありげに見えるデータの偏り」に意味があるのか無いのかを、判断する場合に有用な情報になります。

ちなみに「有意水準5%で、~という傾向があることが分かった」と表現される内容は「有意水準5%で帰無仮説は棄却された」という意味であり「なんの傾向も無い場合、今のようなデータが得られる可能性は5%程度である」と同じ意味です。つまり似たような主張や報告を20回したら(たとえば論文中に同じような解析が20個ある、あるいは同じように解析した論文が20本あるなら)、そのうち1つくらいは「普通に間違えている可能性が高い」という意味です(^^;

まあ、真実を明らかにするため(=学問)でなく、だますためなら「有意水準*%で、~という傾向があることが証明されました!」なんて言う人もいますから、要注意です。最初に紹介したこと「統計学(確率)を使う問題は、そのそも正解が分からない(正解はないかもしれない)という問題」であり、証明なんて論外です(証明できるのは、正しい論理=数学的に扱うことができる、正解のある問題のみです)。しかし真実より「だます」ことを目的とする場合も多いですし、統計学を知らないと騙されている・騙していることすら気が付かない人も多いので、注意しましょう。


とても多くの「用語」が出てきましたが、今の段階では、無理して全ての専門用語を覚える必要ないと思います。それより「中身や元の英単語の意味」を少しずつでも良いので理解するよう、努力してください。用語はまた後で出てきますので、その時に「本当の意味」を理解(復習)したうえで「古文の単語と思って」必要があれば用語を覚えればよいと思います。


では、今日は、このへんで終わります。