12.母平均の推定と検定(Rを用いたシミュレーション)

12-1. 母平均推定(t検定)の、経験値アップを目指しましょう

今日は、「実際にサンプルから母平均を推定するため」に、まず、「正解の分かっている問題」をいくつか解き、「経験」を磨いていきます。


文明の利器(EZR)を使って、統計的推定をすることは、ちょうど、同じく文明の利器である「自動車を使って、遠方まで簡単に移動する」ことと似ています。自動車があれば簡単に遠方まで移動できますが、「練習していない人が、見よう見まねで自己流でいきなり自動車運転したら」運よく目的地に着けることもあるかもしれませんが、大事故起こすことが多いでしょう(^^; そこで、安全が確保されているドライブシミュレータで始めの体験したり、教習所内で練習したりして、多少ポールにぶつけたりとかの失敗も経験したりしながら「公道を比較的安全に移動する力量」を付けていきます。統計処理も同じで、中身も知らず、経験も踏まず、いきなり実際の実験データや調査結果をEZRに入力して答えを出しても、妥当な解釈ではなく、とんでもない「でたらめ」を信じてしまうかもしれません。

そこで、いくつか、皆さんが「経験値を上げるための例題」を紹介しますので「前回とほとんど同じ操作で」実際にEZRを使って、皆さんが「推定」してみてください。

ここで皆さんに体験してほしいことは、これまでに皆さんに紹介したこと、

1) どんな母集団でも、サンプルの大きさが「十分に大きければ」、サンプルから母平均をかなり正確に推定できる(中心極限定理の応用)。

2) 母集団が正規分布であれば、(2個以上の)小数のサンプルでも、そこそこ母平均を推定できる(t分布)。

3) 「信頼水準」を高くすると(1に近くすると)、信頼区間は広くなる(「くらい」の範囲を広げると、それ以外のことは起こりにくい)。

4) 「信頼水準」を低くすると、信頼区間は狭くなる(「くらい」の範囲を狭めると、それ以外のことも起こりやすい)。

ということです。

ですから「間違ったらゴメン(で、簡単に済ます)(^^;」ことが許される場合には、あまり高くない信頼水準で推定し「間違っているかもしれないけど、こういう可能性が高いんじゃないかと思うから、もうちょっとちゃんと調べる価値がある問題だと思うよ」と、いう対応をする。また、比較的確実なことが知りたい、間違ったらゴメンでは済まされない、という場合には、比較的高い信頼水準で推定し、判断します。

実際に判断する基準として信頼水準をいくつに設定するかは「同じような報告を、同じようなところに何個かしたとき、そのうち、平均的にいくつの誤りがあっても許されるか」で判断すると良いと思います。たとえば、論文として投稿するなら「10本中1本くらいは、でたらめな主張でも、普通に許される」ならは信頼水準90%,「20本中1本くらいは、でたらめな主張でも、普通に許される」ならば信頼水準95%、「100本中1本くらいは、でたらめな主張でも、普通に許される」ならば信頼水準99%で判断します。学生のレポートなら20人中1人はでたらめでも許しましょう、という場合も多いと思います。また、その結果を利用する場面が「世界中でも、未来永劫5回以下でしょうし、間違っていても誰も迷惑を被りません(^^;」と言う場合なら、信頼水準90%程度でも、「まあ、いいでしょう」という場合もあるでしょう。

次に「意識」していただくことは、この解析の「前提」になっていることです。

5)サンプリングは、「ランダムサンプリング」あるいは十分に「ランダムサンプリングに近いと近似」できるものか?

サンプリングを「コイン投げ」と同じ、確率現象として理論的には扱って、解析しています。ランダムサンプリングでない場合は「仕掛けのある(いかさま)コイン」に対応します。「ランダムサンプリング」と言うのは簡単ですが、現実の調査ではこれが「一番重要で、かつ難しいこと」です。これについては、また後で補足説明します。


6)「平均値」が代表値として意味があるか?

5回目の授業内容の復習です。代表値には、「平均」や「メディアン」や「モード」などがありますが、中心極限定理を利用して推定できるのは、このうち「平均値」だけです。母集団の平均値を推定しても、それが「母集団の性質を代表する値としての意味を持たない」場合には、無意味です。5回目の授業で、平均値が意味を持つ場合を、整理しました。「1山、左右対称」の場合には、モード、メディアン、平均は殆ど同じ値になりますから、たとえ「平均値」でも、モードやメディアンのような捉え方(判断)をしても、あまり結論に影響しません。ですからそのような意味で議論に使うならば推定した平均値は妥当であり有用です。また、いかなる分布であろうと「合計に意味がある場合」には、平均は合計をデータ数で割った値ですから、平均値には「合計と関係する値」としての意味があります。前に話して例では、年収の*割りを税金として納めてもらう場合、税収を検討するうえで「平均年収」。ほかにも「保険料をいくらに設定するか」などの場合にも「平均寿命や平均余命」という「平均値」が意味を持ちます。

それ以外の場合、特に「母集団の分布」に複数山があったり大きく歪んでいる場合にいは、「平均値が意味を持たない」場合もありますので、注意しましょう。具体的には、比較的サンプル数が多い場合には、「サンプルデータの分布」が「母集団の分布」に近いことが多いですから、「サンプルデータの分布(ヒストグラム)」を見て、「1山かつ左右対称、でない」場合には「平均値に意味が無い」かもしれない、と判断します。その場合には、必要がありかつ可能であれば、データを識別するための項目を増やして再調査し、「1山かつ左右対称、の集団」に分解してから、それぞれの集団に対する平均値の推定を行い、その結果に基づき考察を行います。


纏めると、

1) どんな母集団でも、サンプルの大きさが「十分に大きければ」、サンプルから母平均をかなり正確に推定できる(中心極限定理の応用)。

2) 母集団が正規分布であれば、(2個以上のデータの)小さな大きさのサンプルでも、そこそこ母平均を推定できる。

3) 「信頼水準」を高くすると(1に近くすると)、信頼区間は広くなる。

4) 「信頼水準」を低くすると、信頼区間は狭くなる。

5)サンプリングは、「ランダムサンプリング」あるいは十分に「ランダムサンプリングに近いと近似」できるものか?

6)「平均値」が代表値として意味があるか?

となります。


実際の解析を行う場合には、1)-4) の性質を「体験」しておき、5),6)を確認しながら使えば、「妥当な統計的推定」が使えます。


では、これらのことを念頭に置き、実際に1)-4)の体験をするために「基本的には前回と同じ操作(問題や入力パラメタを変えるだけ)」を行っていきましょう。


【母集団:一様分布(変な母集団)のとき。サンプルの大きさを変えた場合の母平均の推定】

平均値に意味が無い場合(1山でない場合)でも、平均値は推定できます。



【母集団:正規分布のとき。サンプルの大きさを変えた場合の母平均の推定】

平均値に意味がある場合(1山左右対称。母集団が正規分布)には、データを沢山集めれば、かなり正確に平均値を推定できます。



【母集団:正規分布のとき。サンプルの大きさが極端に小さい場合(データー数2個の場合)の母平均の推定】

平均値に意味がある場合(1山左右対称。母集団が正規分布)には、極端にデータが少なくても(たとえ2個でも)、ある程度平均値を推定できます。



もし時間的に余裕があれば、紹介したもの以外にも、サンプルの大きさをいろいろ変えて、何回もサンプル取って解析して(ランダムサンプリングですから、その都度結果は違うはずです)、「結果」と「正解」を比較して、「経験」を積むと良いと思います。例えば、同じ問題の解析を何回もして、何回中何回くらい「外れる」経験ができたか、できなかったか、など。例えば、極端にサンプルの大きさが小さく(例えば2個のデータ)、母集団が(正規分布ではなく)一様分布のような「変な分布」の時に、この方法でどの程度、正しい母平均を推定できるのか?(できないのか?)など。

まあ、こう言うことは「エンドレス」になりますから、今日は適当に切り上げて、後で時々、暇な時にでも、半分遊びのような感覚で、「さらに極端な母集団や極端なサンプル数の時の「推定値」の振る舞い」も体験しておくと良いでしょう。例えば指数分布とか、山が2つとか... もっともっと「変な分布」の時にも。 まあ自動車の例で言えば、滑る路面での(タイヤのグリップ限界を超えた)ドリフト走行やスピンの練習に相当するかも(普通は必要ないけど、安全な雪道運転のためには必須の体験・技術)。実際の厳しい状況、母集団が正規分布では無さそうで(t分布の理論の適用範囲外)、データを多数取れないが(中心極限定理も適用範囲外)、それでも何とか母平均を推定したい場合などでも、「理論で保証されている適用範囲外の条件、と正しく認識した上で」尚且つ経験に基づいた、それなりに安全見込んだ「適切な推定・判断」ができるようになると思います。

12-2. EZR でデータ解析するために

まず、PCにEZRをインストールしたり、データ解析をする上での、注意点を(動画にもありますが、文字でも)説明します。


1) 日本語(漢字等:全角文字)のファイル名やフォルダー名を使わない。

ファイル名やファイルの入っているフォルダー名に「日本語」は使わず、必ず(半角)英数字の文字列のみ、を使ってください。なお、階層フォルダーの「親フォルダー」にも、日本語は使えませんので、気をつけてください。なお解析するExcelファイル内の「データ(セルの中身)」にはもちろん日本語(漢字等、全角文字)が含まれていてもかまいません。


2) 解析するファイルは「Excel で」用意する。一番上の行は項目名、その下にデータを縦に並べる。


3) 自分のPCにEZRをインストールする場合の注意:たとえばアカウント名が漢字だと、そのアカウント内のファイルのフォルダー名に漢字が使われることになり、うまく動かないことがありえます。またマイクロソフトアカウントを使って、自分の作業エリアを全てOneDrive(マイクロソフト社のネットワークドライブ)上に置いていると、正しくアクセスできないことがあります。「標準的なWindowsの設定」では、そのようなことは起こりませんが、Windowsの設定自体が特殊な場合には、そういう現象が起こることもある、ということを、(自分のPCにインストールして使いたい方は)一応知っておいてください。大抵の方は問題なくインストールできるようですが、うまくできない方は、後で相談に来てください。なおインストール方法は、「EZRのページ」 http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/download.html 、にあります。Windowsの場合は「方法1でインストール」をおすすめします。なお、演習室PCは、このような配慮をした上でEZRがインストールされていますので、この授業では演習室PCを使うことをおすすめします。


以上、動画でも説明しますが、特に「ファイル名やフォルダー名に漢字等全角文字を使わないこと」気をつけてください。

----

では、今日はここまでにして、次回はいよいよ実際的な解析、つまり「自分で調査等で得たデータ」から母平均を推定する話に進みます。なお以下に「次回の予習」として動画を紹介しておきますので、次回はここからはじまるという意味で「(予告ですから)軽く眺めて」おくと良いと思います。

 次回、実際に以下の操作を自分でPC操作して行うことを念頭に置いてください。

------- 次回 予告:以下の動画は、今回は軽く見るだけで、全部見なくても、操作しなくてもかまいません。次回、全部見て、全部操作していただきます。----

【Excel で用意したサンプルデータ(20個)に基づいた、実際的な母平均の推定】



【Excel で用意したサンプルデータ(100個)に基づいた、実際的な母平均の推定】



【Excel で用意した「2群の」サンプルデータに基づいた、2群の母平均に差があるかどうかの推定】



----

なお、今回および次回を含め、この授業で紹介した(する)EZRの操作方法の動画やサンプルデータ等を、 https://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/sample.html  に入れておきますので、ブックマークしておき適宜参照していただくと良いと思います。たとえば、次回行う「実際のデータの扱い方(Excelデータとして用意し、Rに読み込む)」を、改めて復習しておく意味で、最初の動画:【EZR、使い方入門(記述統計)】を見たり、改めて自分で行ってみるのも良いでしょう。

では、今日は、このへんで終わります。