13. Rを用いた統計解析入門(実際の解析)

13-1. 実際のデータ解析に向けて

今日は「実際のデータを解析する」ことを念頭に置いた練習をしてみましょう。(なお、前回、既に「予告編」でやってしまった方は、このページも飛ばして次のページに進んでも構いません)。


【EZR でデータ解析するために】

まず、自分のPCにEZRをインストールしたり、データ解析をする上での、注意点を(動画にもありますが、文字でも)説明します。

 1) 日本語(漢字)のファイル名やフォルダー名を使わない。

 2) 解析するファイルは「Excel で」用意する。一番上の行は項目名、その下にデータを縦に並べる。

 注意点はこれだけです。


【Excel で用意したサンプルデータ(20個)に基づいた、実際的な母平均の推定】



【Excel で用意したサンプルデータ(100個)に基づいた、実際的な母平均の推定】

練習用データを用意するのが大変な場合には、動画で紹介しているように、https://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/hw.xlsx のデータからコピペして作ることをお勧めします。もちろん「練習として解析したいデータ」等が他にあれば、それを利用していただいてもかまいません。



【Excel で用意した「2群の」サンプルデータに基づいた、2群の母平均に差があるかどうかの推定】

動画で紹介しているように、https://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/hw.xlsx のデータを利用していますが、もちろん「練習として解析したいデータ」等が他にあれば、それを利用していただいてもかまいません。



以上の、例題などで「Excel等で、データを作るときの形式」や「解析結果がどの程度信頼できるか、あるいは意味を持つか、の初歩的なチェックの仕方」および、2群サンプルの平均値の比較の仕方などを、体験していただければ良いと思います。

 なお、既に紹介したように、動画やサンプルデータは https://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/sample.html にあり、授業が全部終わってからでも参照できるようにしておきますので、授業としては「見ながら真似してできる」「メモを取って、メモを見ながらできる」程度でもよいと思います。たぶんその程度の経験を積んでおけば、授業が終わった後も「自学自習による練習」で、授業で紹介した程度の解析(母平均の推定)は自在にできるようになると思いますし、解析の仕方の「流れ」を掴めば、他のもっとややこしい理論を使った解析も「やり方はほとんど同じ」ですから、多分、実務や大学院博士課程等で使う程度までの簡単解析であればほぼ全て、ネット上にもいろいろEZR関係の説明や動画もありますので、あとは自力で簡単にマスターできると思います。何でも「一番最初」が(取っ付きにくくイメージしにくく)一番難しいですので。


13-2. 「めやす」としての信頼区間

信頼区間、信頼水準、有意水準.... まあ、いろいろな名前のついた用語がありますが要は「くらい」の範囲と「確率」の関係に名前を付けただけですから、中身は「くらい」の範囲と「確率」の概念があれば、最初は、それで良いと思います。用語は入力や出力に表示されていますから、入力しているうちに自然に用語は覚えるでしょう。ところで有意と言うのは(偶然と見るかどうかと言う)「判断」を含みますが、「信頼区間」と言うのは、「判断」を含む場合もありますが、「判断を含まない使い方(めやすとしての使い方)」もできますので、ちょっと紹介しておきます。

 「信頼区間」は、中心極限定理から「式」で求めると、母標準偏差を \( \sigma \)、標本の標準偏差を\(s\)、標本平均の分布の標準偏差を \( \sigma’ \) とすれば、\( \sigma'= \frac{\sigma}{\sqrt{n}}≒ \frac{s}{\sqrt{n-1}} \) で、サンプル平均を\(Y\)、「くらい」の範囲を\(L\)とすると、


90%信頼区間 \[  (Y-L ~Y+L)  = (Y-1.645 \sigma'  ~ Y+1.645 \sigma' ) \]

95%信頼区間 \[  (Y-L ~Y+L)  = (Y-1.960 \sigma'  ~ Y+1.960 \sigma' ) \]

99%信頼区間 \[  (Y-L ~Y+L)  = (Y-2.576 \sigma'  ~ Y+2.676 \sigma' ) \]

....

等となっています。なお本授業ではこの式に基づいた計算は行わない(EZRを使うことを念頭に置いている)ので、本授業では、この式の導出過程に分からないことがあってもかまいません(なお導出について正しく知りたい方は、テキストに正確に書いてありますので、必要な方はテキスト参照してください)。

これらの式は「区間の広がり」が全部\( \sigma' \)の何倍かによって、この区間にある確率が変わっているだけです。すると、例えば90%信頼区間が「記載」されていれば、その値を元に、自分で95%信頼区間や99%信頼区間も簡単に求めることができる、と言うことがわかります。例えば、論文やレポートに90%信頼区間しか「記載」されていなくても、その幅をおよそ2倍にして読めば、その範囲からは外れる可能性は1%未満であると「判断」することができます。

そのような使い方をする場合には、信頼区間という名前ですが、別に信頼しているわけでも疑っているわけでもなく、「1つの目安」として信頼区間を使うこともできます。

目安として使う場合、比較的多く使われるのが、「サンプル平均値の分布の標準偏差そのもの(\(\sigma'\))」です。それを単に \( \sigma \)(シグマ)と呼ぶことが多いです(母集団の標準偏差ではなく、サンプル平均の分布の標準偏差であることに注意)。この範囲に入る確率はおよそ68%、つまり「68.27%信頼区間」と言っても良い範囲です。また\(2\sigma\)の範囲はおよそ95%、だから「95.45%信頼区間」と同じです。\(3\sigma\)の範囲は「99.73%信頼区間」、\(4\sigma\)の範囲は「99.994%信頼区間」、\(5\sigma\)の範囲は「99.99994%信頼区間」、\(6\sigma\)の範囲は 99.9999998%信頼区間」と言っても良いです。これがどのくらい起こりにくいことかは、例えばWikipedia https://ja.wikipedia.org/wiki/68%E2%80%9395%E2%80%9399.7%E5%89%87

などを見ていただいても良いでしょう。

--余談--

以前の授業で「確率とはたとえ偶然起こりうることであっても計算すると思っていましたが、今回で計算しない場合もあると学び、少し驚きました。」と感じた方がいらっしゃったようですが、まずは「計算」と「結果の判断に用いる」という言葉の意味を取り違えています。多分小学校から高校までの「算数(計算して結果を出すことが目的。なお論理の学問である数学とは違います)」の授業の弊害ですね。確率はどんな場合でも正しく「計算」します。そのうえで、「十分小さい確率の出来事は、実際には起こらないと判断できるだろう」という、論理や判断の合理性の問題です。例えば、明日の予定を立てるとき「もし明日までに、隕石が落ちて人類が滅亡したらどうする?」ということを考慮するかどうか、という問題です。恐竜絶滅の原因はそのような隕石と言われており、それが1日の間に起こる確率は、およそ\(10^{-12} \) 程度です。もちろん確率は0ではないですが、この確率の出来事が起こるかもしれないことを想定して(前提にして)、明日の予定を決めることは、多分合理的ではないでしょう。確率は \(10^{-12}\) 程度と正しく「計算」しても、それは、多分、人類(ホモサピエンス)が生まれてから今までという「短い時間」で起こっている可能性は低く(だから現在まで人類は生き残っている)、ましてや、人の一生という超短い時間の間に、そういう確率の事象が起こる可能性は極めて低いため、それよりもずっと短い、明日までに起こる可能性は... 極めて極めて超超超低く... 殆どありえないでしょう。ですから「明日の予定を考える上では、(明日までに隕石が落ちて人類が滅亡したら、という可能性は)多分起こらないと判断」して予定を立てることが合理的でしょう。なお、みなさんも常識的に、普通にそう判断していませんか? それが、正しく確率を計算して求め(ここまでは計算であり、PC(EZRなどのソフトで)で一瞬でできること)、その確率の値に従って、「妥当な判断をする」ということで、それが「統計学やデータサイエンスの考え方」です。


閑話休題:

そのような「判断」を「調査結果の集計」とは別に行う場合には、調査結果の報告(判断は含まない)としては単に範囲の「目安」だけあれば良いし、それが人により、論文により異なると面倒なので、「信頼区間は、信頼している区間ではない」という常識を持った人たちの中では、例えば「この分野では、「目安として」95%信頼区間を使いましょう(でもその中にあるという主張じゃないよ)」という使われ方もします。

自分のデータで自分が「判断」する場合には、換算する手間を省く意味でも「信頼区間」を目的に応じて設定し、その結果に基づき、考察などを行います。しかし、自分の判断はどうでもよく、他の人に「自分のまとめたデータ」を伝えるときは、その業界標準の信頼区間で報告します。なお、そこからの換算や換算結果を踏まえた判断は、その報告を読んだ人が行います。なお、自分なりの判断も報告する場合には、報告した「信頼区間」からの換算なども含めて「自分が妥当と思う考察」を書きます。

 なお、定量実験などで値を測定し、傾向などを見るためにグラフに表すとき、同じデータ測定を複数回行い、その平均値を「データ(黒丸)」で、その信頼区間を「エラーバー(縦線)」(あるいは統計誤差として)で記載することがあります。よく使われるのが、信頼区間を「標準偏差そのもの」とする方法です。この方法では \( \sigma \)(シグマ)言い換えれば「68.27%信頼区間」の範囲を「標準誤差(統計誤差)」と呼びます。定量実験や測定などで何も断らずにエラーバーや統計誤差が記載されているものは、この「68.27%信頼区間」の意味の場合が多いです。ですから、そのようなグラフを読む場合には「エラーバーや統計誤差の範囲内である確率が、およそ7割」あるいは「エラーバーや統計誤差の倍以上外れる確率は5%以下」あるいは「エラーバーや統計誤差の3倍以上外れる確率は0.2%以下」と解釈して読みます(定量実験や測定が必要な分野では、最初に教わることです)。特に多数の系統性のありそうな実験データから傾向を読みたいときなどは(95%信頼区間よりも)良く使われます。ちなみに定量実験の分野では「エラーバーの記載がない定量実験や測定の結果のグラフ」は、1回しか測定していないことを意味し、その実験や測定の「再現性」も精度も全く確認していない、ということを意味しますから、多分ゴミとして扱われると思います。

なお、「母集団が正規分布であれば、たった2個のデータでも、ある程度母平均が確率的推定ができる」から、定量実験や測定は「最低2回行う」というルールやしつけがあると思っていただければよいと思います。なお「熟練した人が注意深く行う実験・測定の誤差(偶然誤差)」は、ほぼ正規分布になります(つまり、測定は、正規分布に従う母集団からのランダムサンプリングとみなせます)ので2回の測定でもt検定の手法が有効になります(もちろん多数回の測定の方がもっと良いですが)。なお、測定技術が未熟な場合、例えば、注意が足りない、先入観で客観的な測定をする技術が無い、装置や計器が正確でない、等の場合には、正規分布に従うとは限りませんし、その場合には系統誤差が残ります。これも多分、定量実験(測定)する分野では常識と思います。なお、自分にその力量があるかどうか「物差しで棒の長さを測る(精度は最小目盛りの1/10)」という測定を最低でも50回行い、そのデータをEZRに入力し、ヒストグラムを描いたり、母平均の推定(本当の長さの推定)をしてみるのも面白いと思います。十分多数回測定した場合に、測定値の分布が正規分布に近かければ「測定の名人」でしょう。と言うのは、その技量を持つ人であれば、単に多数回測定して統計処理すれば、1回の測定精度を遥かに超える精度で測定が出来ることを意味するからです。正規分布からかなり離れていれば(例えばある範囲での一様分布に近いとかなら)、その人の測定技術はまだまだ(熟練の域には達していない)ということが分かります。なおこれは私も大学1年生の時の最初の実験の授業でやらされたことで、当時はもちろん計算は手計算でしたが、これは分野を問わず定量実験(測定)の基本中の基本ですので、みなさんにも(暇な時や現実逃避したい時などにでも)一度はやってみることを、お勧めします。なおデジタルの測定器や自動測定器を使う場合でも、条件の設定や試料の採取や試薬の調整などは人が行いますから同じように測定値がばらつくことがあり、ここで「技量」の差が出ます(だから未熟な技量だと、実験結果や測定結果が再現できないこともあるのです)。

母平均の推定は「定量実験や測定を行えば、本来、必ず行うもの」ですので、いろいろな場面で「当たり前のように」使っていただければ良いと思います。

-- 余談 ---

埼玉大理学部物理学科時代のクラスメートの梶田隆章君(「ニュートリノに質量があることを発見した」ことで2015年にノーベル物理学賞を受賞)に、「(ニュートリノに質量があるという証拠である)宇宙から地球に降り注ぐニュートリノが、上空方向から下からと数が違う、ということを主張をするのに、十分多くの観測データが集まってから発表したよね。どのくらいの確率で(発表はしないけど)多分... と思い、どのくらいの確率で「発見と発表」したの? うちの学生にも教えてあげたいので教えて(^^)」と聞いたら、「かなり初期の段階(カミオカンデでの観測)で95%くらいの確率で多分、数が違うと思ったけど(同じなら観測結果が起こる確率0.05=5%以下)、数日に1個くらいしかデータ取れないし、そんな確率で発表したら世界中の笑いものだよね(^^;;  その後、新しい装置(スーパーカミオカンデ)が完成して、大量のデータを集めることが可能になったので、それから本格的に調べ初めて、確率には換算していないけど6σ(実際に得られた観測データが得られる確率が\(10^{-9} \) 程度以下を軽く超えたときに(観測データが、確実に99.9999998%信頼区間の範囲外であると確認したとき)、そろそろかな、ということで発表したんだ。それでも、発表した当時は疑問も続出で「それが真実である」と世界中が認めるまでには、それから10年以上かかった。そっちのほうがずっと大変で、そこからが本番という感じだったよ(^^;」と言ってました。

「**かもしれない」「**の可能性がある」「**と思われる」「多分**だろう」と「**である」はそのくらいの違いがあります。皆さんにも、まともな学問(真実を明らかにする)とは、そういうものだということを知っていただいたらいいかな、と思います。


閑話休題:

今日はここまででも良いのですが、最後に「中心極限定理」の復習をしておきしょう。


13-3. EZRを使った、中心極限定理の「体験」

本年度の対面授業では、中心極限定理のところで既にやったことですね。中心極限定理は「任意の(平均値 \( \mu \) 、標準偏差 \( \sigma\) の)母集団から、十分に大きな(大きさ\(n\)の)をサンプルをランダムに抽出し、その平均値(サンプル平均)を\(Y\) としたとき、\(Y\)の確率分布は、平均値 \( \mu \) 、標準偏差 \( \sigma / \sqrt{n}  \)の正規分布になる 」ということです。本によっては標準偏差でなくその2乗である分散を用いて表現しているものもありますが、内容は同じです。また、母集団の標準偏差が分からない時は、サンプル標準偏差 ( \( s \) )から(サンプルの不偏分散が母集団の分散に近いとして)\( \sigma / \sqrt{n} \)の代わりに\(  s/ \sqrt{n-1}\)を用いる、ということです。そして、この「定理」の証明は、けっこうややこしいので「本格的に統計学を学ぶ人向けの本などでなければ」省略されるのが普通ですし、そこから得られる「信頼区間の公式」は、前のページで紹介しました。公式だけあれば計算はできますので、たぶん高校生などは意味も分からず「そこから得られる公式」だけ丸暗記して「計算することだけ」に集中して、それが意味あることと信じて、試験に臨んでいるのでしょう(^^; 値を求めるだけならそれでも良いのですが....

で、皆さんは、計算自体はEZRを使って簡単にできますし既にやってきましたから、 この公式を丸暗記して計算すること自体は、もはや無意味です。しかし、計算にこの「定理」は使っていますので、むしろ「定理の意味」を知ることが重要と思います。そこで、この定理の意味を、EZRを使って「体験」してもらおうかと思います。なお、最初にEZRでの体験を紹介しなかったのは(遠隔では紹介していませんが、本年度の対面授業では、中心極限定理のところでやりました)、ちょっとややこしいデータの並べ方をするため「多くの場合の、実際のデータ分析での使い方」と混乱するおそれがあると判断したからです。ここまでついてきた皆さんは「EZRを使った実際の解析の仕方(特にExcelでデータを準備する形式)」は理解したと思いますので、とりあえず「ここで紹介する例は、あくまで、技巧的にEZRを使って、中心極限定理を体感するだけ」だと思ってください。なお、EZRで計算した「結果のグラフ」は、既に中心極限定理の説明の時に提示していたものです。

それを、実際に自分で「データ」を見ながら、「サンプル平均」と「サンプル平均の分布」「サンプル平均の分布の平均値」など、言葉では理解しにくい(誤解しやすい)量を、実際の解析を通して「感じて」いただければよいと思います。なお、暇なときに、サンプルの大きさをいろいろ変えて行えば、「どの程度の範囲なら、中心極限定理が有効か(つまりどの程度の大きさのサンプルなら十分にサンプルの大きさ(デーア数)\(n\)が大きい、と考えても良いか)」などの「感覚」を磨けると思います。なお時間がなければ授業時間中は動画を見るだけ、で、後で暇な時にやっていただいても構いません。

なお動画では、ついでにおまけとして「正規分布にどの程度近いか?」の調べ方(Q-Qプロットや正規性の検定)も、やり方だけは紹介しておきます。なんとなくやり方わかれば、普通の解析の時も(サンプルが)どの程度正規分布に近いのかを、ヒストグラムにより感覚的に判断するだけで無く、どの程度正規分布に近いのを明確に示す図(Q-Qプロット)や正規分布とみなせる確率(もし母集団が正規分布だとしたら今のサンプルが得られる確率がどのくらいか?のp-value)なども求められますので、将来実際のデータ解析で「かなり厳しく追求される場合」に、そう言う解析も、使えるようになるかもしれません(^^) なお、Q-Qプロットと正規性の検定は、「おまけ」ですので「この授業としては」わからなくても構いません。


13-4. まとめ

EZRを使うことで、簡単に統計解析ができることを体験しました。

基本的にはExcelで、縦に並べたデータを用意すれば、大抵の解析ができます。


何かを「判断」する時には、信頼度(確率)に基づき、適切な判断をすることが大切です。

1) どんな母集団でも、サンプルの大きさ(データ数)が「十分に多ければ」、サンプルから母平均をかなり正確に推定できる(中心極限定理の応用)。

2) 母集団が正規分布であれば、(2個以上の)少数のサンプルでも、そこそこ母平均を推定できる(t分布の応用)。

3) 「信頼水準」を高くすると(1に近くすると)、信頼区間は広くなる。

4) 「信頼水準」を低くすると、信頼区間は狭くなる。

なお、平均値については、「◯%信頼区間[☆-★ ]」と言う形で信頼水準と信頼区間を共に明記すれば、「判断の基準」ではなく「めやす」として使えるので、報告などには便利。なお定量実験などの結果を報告するときの測定値のエラーバー(統計誤差)などは標準誤差\( \sigma \) = [68.27%信頼区間]で表すことが多い。

5)サンプリングは、「ランダムサンプリング」あるいは十分に「ランダムサンプリングに近いと近似」できるものか?

6)「平均値」が代表値として意味があるか?

となり、平均値として意味があるかどうか(一山で左右対称か)は、「サンプルデータの分布」をヒストグラムを使って見る(あるいは、もっと厳しく「正規分布に近いかどうか」を見たいなら、最後の動画で紹介した「正規性の検定やQ-Qプロット」などで見ても良い。)。なお正規分布とかけ離れた任意の分布でも、「和に意味がある」場合には「和と関係した量という意味で、平均値が意味を持つ」場合もある。


と言うことになります。

今日はここまでにし、

次回も、「EZRが使える環境」での受講を前提とします。


では、今日は、このへんで終わります。