5. 記述統計入門

5-1. 記述統計入門

テキストの最初に戻り、データを整理して要約したり、グラフで表したりする「記述統計」の内容を概説します。なお実際の計算や作図には、R(EZR)を用います。では、テキスト第一章を軽く復習しましょう。

(現在の高校数学課程なら)殆ど高校で教わったことと思いますし、また事前に一度は読んでいただいていると思いますので、ここではそのことを前提にし、「必要になれば、EZRなどで計算できる」ことと「代表値などの利用上の注意点」などだけ、抑えていきましょう。

事実を数値化(記号化も含む)した物を「データ」と呼びます。調査したり実験したりする場合には、その結果は「データ」という形でまとめられます。一般には沢山の数値の羅列になりますから、それをそのまま見ただけでは何なのかを把握することが難しい場合が多いです。そこでデータがどのようになっているのかをまとめ、把握しやすいようにします。そのような事柄を「記述統計学」と呼びます。記述統計は、大きく「データを図などに表示し、視覚的に捉えやすくする」ことと「膨大なデータを、いくつかの数値で要約する」こと、に分けられます。また、図に表示する場合にもデータそのものが持つ情報を全て表示する場合もあれば、要約した結果を表示することもあります。

ですからまず、「データの要約」の種類と方法、注意点からまとめていきましょう。まず注意すべきことは、「要約は、元の情報がある程度欠落している」ことです。つまり要約だけではデータが物語ること全ては分からないし、重要な内容が欠落していれば、騙されたり誤りが生じることがある、ということを肝に銘じておく必要があります。その上で「適切な利用法」で利用することが大切です。


【平均値とメディアン】

代表値として最もよく使われるのは「平均値」です。それは、平均値が「最も計算しやすいし、解析しやすい」からです。決して「平均値がデータの性質を一番良く表しているから、ではない」ことに注意しましょう。テキスト14?15ページ、1.1.7に「平均値は外れ値の影響を受けやすい」ということが触れられています。「例外的な人、極端な人がいる場合」には、平均値はその影響を強く受けますので「注意」が必要です。メディアン(中央値)は外れ値の影響を受けにくいですので「例外的な人、極端な人」の影響をあまり重視したくない場合に、妥当な代表値となります。「普通は」という判断は平均値ではなく「メディアン」の方が良い場合が多いです。

たとえばある人口1000人くらいの村で、住人がどの程度豊かを知るために年収を調べたとします。収入が多い人少ない人もいますが、まあみんな似たり寄ったりであまり差が無く、年収の平均が500万円くらい、メディアンも500万円くらいだったとします。

そこにとんでもない大金持ちが1人引っ越してきました。個人資産が1兆円を超え、その利息収入だけで年収100億円とします。すると、その村の「平均年収」は、( 5,000,000×1000+10,000,000,000 )/1001 =14,985,015 、つまり平均収入は約1500万円になります。一方メディアンはほぼ変わらず500万円です。さて、この2つの「代表値」から皆さんはどのような「判断」ができるでしょう? 大金持ちが1人いても「それ以外の(普通の)人の収入」は変わりませんから、たとえば「村人はどの程度豊かか?」という判断をする場合には、平均値はふさわしくなく「メディアン」を使うべきでしょう。ところで、この村では「収入の10%を税金として徴収」していたとします。今までは平均年収500万円ですから一人当たりだいたい50万円、1000人の総額で5億円の税収があったことになります。それが、今度は「平均年収1500万円」ですから、1001人の総額では、15億円程度の税収になります。このように「外れ値」であっても、税収見込みなどの「総和に意味がある場合」などは「総和を数で割る平均値」が、意味を持つ場合もあります。

ですから、「どちらの代表値が本物か?」という一般的な問題は無意味であり、「その代表値で、何を判断するか?」で、その代表値がふさわしい場合もあれば、ふさわしくない場合もあります。その点に注意しましょう。

なお、「分布が対称」な場合は、平均でも中央値(メディアン)でも「同じ値」になります。しかし例えば「ふた山の分布」の場合には、平均値やメディアン付近のデータは「殆どない(普通ではない)」ということも起こります。その場合には「普通(よくあること)」を判断するには、最頻値(モード)を利用するべきです。

このように、一般的にはデータ全体を代表する「代表値」としてふさわしいものは、その利用目的により異なり、値も違うものですが「分布が対称であり、かつ、中央あたりが多い、ひと山の分布」である場合には、平均値、中央値(メディアン)、最頻値(モード)は、全て同じ値になります。ですから「何の判断に使うか分からない」あるいは「いろいろな目的で利用する」場合に、元の分布が「ひと山かつ左右対称」である場合に限って、1つの代表値を使うことが安全です。

得られたデータが、ひと山でない場合には「複数の集団が混在している」可能性が高いです。その場合には、(統計学をよく知っていて正しく使いこなす人たちは)複数の集団を特徴付ける指標などを調べ(例えば国籍とか職業とか)、それらのデータを用いて「似ている、いくつかの集団に分離する」という前処理を行い(クラスタ分析とか言われる手法がよく使われます)、分離した個々の集団についてのデータが「ひと山である」ことを確認してから、代表値でその集団の性質を要約することが行われます。なお分離した集団のデータが左右対称でない(歪んでいる)場合には、適切な変数変換を行い「左右対称な分布にしてから」代表値で要約することを行います。ここまできちんとした、正しいデータ解析を行える人は、たぶんきちんとしたデータサイエンティストでもある、と言っても良いと思います。なおそうでない場合には「代表値が何を意味しているかはあやしい」と思ったほうが良いですから、必ず「元のデータの分布」を見て、その代表値が何を意味しているかは、吟味したほうが良いでしょう。

なお、この授業はあくまで「基礎(というか初歩、あるいは入門)」ですので、以後、一番簡単な「分布が対称であり、かつ、中央当たりが多いひと山の分布」のときを主に扱いますが、実際のデータの場合には、その条件が満たされていない場合も多くありますので気を付けてください。なおこの違いを「意図的に」使うのが、代表的な、統計を使った嘘や詐欺の手法になります。


【平均値の周りのデータの広がり(標準偏差、分散)、メディアンの周りのデータの広がり(四分位数、五数要約、四分位範囲)】

以後「ほぼ左右対称に近い、ひと山の分布の場合」を扱います。それ以外の分布でも「値は計算できますが、その値に、あまり意味は無いかもしれない」ことに気を付けてください。

ほぼ左右対象にに近いひと山の分布の場合には、全てのデータは「1つの値」の近くに集まっていて、そこから遠く離れたものは少ない、という性質になります。その場合には「代表値(平均値やメディアン)」でそのデータの概略をとらえることは、意味があり有用です。しかしその場合でも、代表値に近い値のこともあればある程度離れることもありますので「どの程度集まっているか? どの程度広がっているか?」を知りたい場合が多くあります。

代表値として平均値を使う場合、この場合に「データが平均値の周りにどの程度集まっているのか、広がっているか」を知りたい場合があります。その時に使われる量が「標準偏差」です。式はテキストにありますので省略しますが、「平均値からのずれδx」を偏差と呼び、「偏差の2乗の平均値の平方根」を標準偏差を呼びます。なお「2乗の平均値の平方根」を取るのは、偏差は正も負もあるので、そのまま平均取ると打ち消しあって0になってしまう(何かを読み取る量ではなくなる)ためで、絶対値の平均値をとっても良いのだけど、「絶対値を取るという演算は、数学的にはとっても面倒な問題を引き起こす(グラフで書くと尖った点を持つ=特異点を持つ)ため」です。簡単な演算で「大きさの平均的なもの」を導入するとき「2乗の平均値の平方根」という演算が、常套手段のように使われます。なお平方根を取るのが面倒な場合には、「偏差の2乗の平均値」を使う場合もあります。これを「分散」と呼びます。計算するときには平方根の計算が無いので少しらくですが、「単位がもとのデータと違う」ので、データの広がりを見たい場合には、実用的ではありません。データの広がりを見たい時には分散の平方根を取った標準偏差(データと同じ単位)が使われます。そのような理由で、私の授業ではなるべく分散は使わないで、その平方根である「標準偏差」のみを使うことにします(様々なテキストなどに書いてある「分散」に関する式も、両辺に平方根の記号を書き込み、標準偏差の式として理解することをお勧めします)。

ところで、代表値として「メディアン(中央値)」を使う場合、この場合に「データがメディアン(中央値)の周りにどの程度集まっているのか、広がっているのか」を知りたい場合もあります。メディアンは「大きい順に並べた時の、ちょうど真ん中の人の値」ですから、「一番大きい人(最大値)」「一番小さい人(最小値)」それと「真ん中の人(中央値:メディアン)」があると、「データの人がり」について、ある程度つかめます。しかしとんでもなく大きな値(外れ値)などが1つでもあると最大値はとんでもなく大きくなりますが、「ほかのデータがどの程度集まっているのか広がっているのか」が分からなくなっていまします。そこで、「小きい方から1/4番目のデータの値(第1四分位)」「小きい方から3/4番目のデータの値(第3四分位)」を加え、「最小値、第1四分位、メディアン(=第2四分位)、第3四分位、最大値」の5つの値で、データの広がり方を表すことが行われます。これを「五数要約」と言います。また、5数要約を「視覚でとらえたい」場合に使うのが箱ひげ図です。

つまり、「代表値として平均値を使う場合には、広がりは標準偏差」で、「代表値としてメディアンを使う場合には、広がりは五数要約」で、と捉えればよいと思います。なお「5つも数値使いたくない」という場合には、第3四分位数ー第1四分位数=四分位範囲(IQO)の数値を、(平均値の時の標準偏差みたいな位置づけの数値として)使うこともあります。


【度数分布表とヒストグラム】

 データの性質を大まかにとらえたい時、「代表値(平均値、メディアン)」だけではおおざっぱすぎる場合には、そこからの広がりを知るため「標準偏差、五数要約(=箱ひげ図)」などが使われ、「既に左右対称なひと山分布と言うことが分かっている場合」には、極めて有用です。しかしそうでない場合、たとえばふた山であったり分布がかなり歪んでいる場合などは、ここまでに述べた数値だけではデータの特徴をとらえきれず、誤った判断になることも多くあります。そこで「もっと詳細に、しかしデータ全部をそのまま見るのではない(^^;」程度に適度に要約したしかしある程度詳細なまとめ方が必要になります。その時によく使われるのが「度数分布表とヒストグラム」です。テキストにもありますし多分高校で教わっていると思いますので詳しい説明は省略しますが、「値をある範囲(階級)に分けて、階級に含まれる数(度数)を表にする」ものを「度数分布表」と呼び、度数分布表を棒グラフで表したものをヒストグラムと言います。比較的荒い階級のヒストグラムにより「分布の大体の様子」が分かりますし、比較的細かい階級のヒストグラムにより「分布の詳細」が見えてきます。どのような階級でヒストグラムを書くかが腕の見せ所ですが「R(EZR)でヒストグラムを書く時には、特に指定しなければ、データの様子がそこそこ見やすいように自動で書いてくれる」のが便利です。なお、メディアンや五数要約の流れで「もっと詳細に」と言う場合には、4つに分ける四分位数(quatrile)ではなく100個に分けるパーセンタイル(percentile)とその値をグラフする方法が使われることもありますが、こちらはここでは省略します。

なお、昔はデータを集めた(入力した)後、「度数分布表を作り、ヒストグラムを描くまでが、とても大変」という時代がありましたが、コンピュータを使える現在では「まずヒストグラムを書き、分布の概要を知る」のが当たり前の作業手順になっています。そこで分布が綺麗なひと山なら、平均値や標準偏差でその後の分析や考察を行います。なおここで、ふた山とかなら「まともな解析者なら、複数グループが混在している可能性をチェックし、ひと山のグループに分解」してから、さらなる解析を行います。しかしその力量や分解するためのデータが無ければ「そのまま解析しますが、結果はあまり信用しないで、それなりの推測と、それなりの疑いを持って判断」するのが普通です。なお「統計学の素養が全くない、のんきな人」なら「そのまま解析して、意味の無い結果の数値を信じる」人もいるでしょう(のんきな学生・院生など)。なお「そのまま解析して、意味がないことを知りながら、結果の数値で他人をだます」ことを仕事(職業)にしている人も多くいますので、人間の社会は、注意が必要です。

なお、蛇足ですがテキストP22の「数学の得点分布」について。明らかに2つの集団が混ざっています。これは「低得点者に、ちゃんと数学を教えない(解法丸暗記の算数を、数学と偽って教えている人・教わっている人が、多数いる)」ということが原因です。みんながちゃんと普通に同じように教わっていれば、出来る人できない人が適当にばらつきますが、「まるっきり中身を教わっていない(教わらなければできるはずないです)」という騙された集団が、あれば、こういう分布になります。ですから数学の成績では、平均値はあまり意味がなく、平均値からのずれを点数化する偏差値も殆ど意味がなく.... ちゃんと中身を教えて、少しでも中身がわかると、低得点群から高得点群の集団に移動しますので、得点や偏差値などは一気に上がります。そのような教え方・勉強法が有るにも関わらず、なぜか「低得点集団に入るための勉強法」を信仰して、低得点グループにの方法で教えたり教わったりする人たちが、何故か日本には多い、という結果です。

では次に、Rを使って、ここで述べた量を求めたり図を描いたりする様子を、動画で見てみましょう。サンプルデータも用意しましたので、演習室のPCや自分のPCなどで、これをダウンロードして、実際に行ってみましょう。



5-2. R(EZR)を使った記述統計(代表値、箱ひげ図、ヒストグラム等)

【EZR、使い方入門】


-------------------

【複数項目のデータの扱いと、横並びの箱ひげ図】

参考:サンプルデータhttps://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/c1.xlsx 


-------------------

【身長体重データ(層別データ)の扱い。箱ひげ図】

データのダウンロード、読み込み、処理の練習。

データ:https://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/hw.xlsx


-----------------------------

【身長体重データ(層別データ)の要約とヒストグラム】

サンプルデータhttps://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/hw.xlsx


-------------------

【おまけ。散布図+線形回帰分析】


5-3. まとめ

EZRの使い方の「雰囲気」、なんとなく分かりましたか? 細かい操作方法は、まだ覚えなくてかまいません。次回、もう一度、行いましょう。今は、動画見ながら、同じことを、なんとか自分もできれば良いです。今後もEZRを使っていきますので、使っていくうちに基本的な使い方は自然に覚えるでしょう。大切なことは「データがあれば、計算自体は簡単にできる」ということです。なお、EZRの使い方にかかわる、今回提示した動画、今後提示予定の動画を、復習のためにhttps://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/sample.htmlに入れておきます。ブックマークしておけば、授業が終わった後でも参照できますし、今後も必要があれば更新するつもりです。

しかし、平均値1つとっても、「何かを判断するために、それが代表値として相応しいのか?」などの問題があることを知り、全ての統計計算には「その結果が信用できる(何らかの判断をするのに有用である)ためには、様々な条件を満たしていることが必要」ということを感じていただければ、いまはそれでよいと思っています。

なお、「代表値として、平均値が有用な場合」「代表値としてメディアンが有用な場合」を具体例を挙げて説明することができるように復習すると良いと思います。たぶん「最後に」聞くことがになると思います。

では、今日は、このへんで終わります。