14. Rを用いた統計解析入門(実際の解析)

14-1. 分散の検定と分割表の解析

 テキスト7章まで終了しました。まだテキスト7章まで読み終わっていない方は(分からないところがあっても良いので)7章最後まで一応読んでおいてください。既に授業で説明したりEZRで体験していることが殆ど全てですから、分かりにくいところがあっても、全体的に「何のために何をしているか」は読み取れると思います。

テキスト8章も、P127までは(p-valueに基づいた平均値の検定)ですので、(面倒なお話の部分は除いて)多分分かるのではないかと思います。なお、「平均値が一致すると仮定したとき、今のデータが得られる確率はいくつか?(p-value)」は、EZRでは「独立サンプルt検定」でできます。なおテキストに書いてある式は「等分散を仮定した場合(Studentのt検定)」の式ですが、EZRでは等分散を仮定せずに、もっと一般的に計算できますので(前に紹介した動画ののとおり)、普通は「等分散を仮定しない(Welchのt検定)」で確率計算をすればよいと思います。なお、論文やレポートには、たとえば「Rを用いて、Welch(ウェルチ)のt検定で求めたp値は**であるので」等と書けば、誰にでも意味が通ります。

では、テキストP128[8.1.6 分散の一致を検証する \( \chi^2 \) 検定]あたりから書かれている、特に「(平均値ではなく)分散(標準偏差=平均値(期待値)からのずれ)を使った」検定法を紹介します。母集団が正規分布の時、サンプル分散の分布(サンプルを取りサンプル分散を求める、ということを多数回行った時の分布)は\( \chi^2 \)分布に従うということを、前に(軽く(^^;)紹介しました。丁度、サンプル平均の分布が正規分布(あるいはt分布)に従う、という状況と似ており、これを利用して、母集団からランダムサンプリングにより、今得られたようなサンプルが得られる確率はどのくらいか?(p-value)を求めることができます。その確率に従い、得られたサンプルが、たまたま偶然得られたのか(帰無仮説)それとも、母集団からのランダムサンプリングとは考えられない何らかの傾向があるのか(対立仮説)を、ある程度判定することができます。これを「\( \chi^2 \)検定」と呼んでいます。

この検定は、テキストp133, 8.2.2.の「分割表による検定」で使うことが多いと思います。これは前に条件付き確率のところで学んだ「オッズ、オッズ比」の話です。薬を飲む人(ワクチンを打った人)と、飲まない人(ワクチンを打たない人)、どっちが治る?(どっちがコロナに感染する?どっちがコロナで重症化する?)という話の時に「クロス集計表(=分割表)」を作り、オッズで比較して薬が効きそうかどうかの議論をしました。その時は単に「サンプル(調査した対象)」の傾向としてみていましたが、調査した人だけでなく「一般に」効くのかどうかを知りたいことが殆どでしょう。もちろん「世界中の人全員」を調べるわけにはいきませんから、「世界中の人(母集団)」から、「十分にランダムサンプリングと近似できるサンプルを取ったと仮定したうえで」解析をします。もし「薬を飲んでも飲まなくても変わらない」と仮定したときには、オッズ比は1です。でもたまたまずれることもありますから、現在のサンプルのオッズ比が得られる確率がどのくらいか?(p値)求め、その確率から「たまたまなのか、傾向があるのかどうか」を判断していきます。

なお、EZRで解析する場合には「分割表」の解析になります。既に分割表(クロス集計表)があれば、それを直接入力&解析、もし個々のデータのみでまだ集計が終わっていないなら(Excelでも簡単にできますが)EZRで、集計して分割表を作り解析する、というのを一まとめで

行うと良いでしょう。


【分割表の直接入力と解析( \( \chi^2 \) 検定とFisherの正確検定,odds比の区間推定) 】



【分割表の作成と群間の比率の比較( \( \chi^2 \) 検定とFisherの正確検定、odds比の区間推定))】

サンプルデータ:https://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/b1.xlsx




14-2. 学び続けるために

さて次回で授業は終わりですね。皆さんは、「統計学の基礎」を身に着け、EZRをある程度つかえるようになりはじめたと思います。授業科目に続編(統計学を各分野のさまざまな具体的な問題に応用する方法を体験する授業)があればよいのですが、本学にはありませんので、「今後は自学自習でEZRを利用して正しい統計処理を行い、出力を見て正しく判断できるようになること」が、(大学生として、データ(事実)の基づき、適切な判断をする能力を身につける上で)とても大切なことと思います。

統計学は全ての測定や調査に必要なものですから、どのような分野でも必要になりますし、また、今までに紹介した解析手法だけでなく、様々な解析手法があります。よく使われるものの説明だけでも多分、半年の授業2つ分くらいの時間が必要になりますし、また、(大学によっては)学部レベル(大学4年生まで)では教えきれずに大学院等で扱う内容にすることもあるかもしれません。この授業の内容は、「始まり」であってゴールではありません(ゴールはずっと先です)。そして、「必要があれば自分で資料を見つけ、自分で学んでいく、といいう態度」が、多分、本来の大学生の学び方と思っています。またそれが高校や専門学校と大学の違いとも言えるでしょう。これは簡単なようで結構厳しいことです。しかし現在では、全ての「学ぶべき事柄」はWebで公開されていますので、昔から比べるとずいぶん簡単に自学自習できるようになりました(昔は図書館で本を探して、自分で本を読んで勉強するしか方法がありませんでした)。ですから皆さんには、この授業を通して、統計学の「イメージ」を掴んでいただき、「あとは、自学自習でなんとかなる」というレベルにまで達していただくことを目標としています。

そこでまず、WebでEZRを使った統計解析の仕方を(自分でいろいろ)調べてください。説明文でも動画でもかまいません。たとえば、Web で「EZR 分割表」で検索してみてください。たとえば、Web で「EZR 母平均」で検索してみてください。いろいろなページが見つかると思います。中には難しいものもあるかもしれませんが、ここまでついてきた皆さんなら、既に、結構書いてあることを理解できるのではないかと思います。

Rそのものは汎用的な統計処理ソフトですが、EZRは日本の医師が自分たちが使いやすいようにRコマンダーを改造したものですから(そしてRコマンダーの機能は全て持ちながら医学系でよく使う処理を付加したものですから)、EZRの使い方の説明は、医療系のものが多くなります(しかし医療系以外の分野の幅広い分野の統計処理にも、もちろん使えます)。 医療系の参考資料として、比較的良くまとまっているものとしては、

・EZRによる医学統計入門 https://waidai-csc.jp/updata/2018/11/EZRNyumon.pdf

・深KOKYU シロート統計学講座 https://haru-reha.com/shiroto-statistics-home/  EZRの基本操作  https://haru-reha.com/ezr_basic_operation/

などもあります。例題が医療系に偏っているだけで「データからEZRを用いて、統計解析をする」という点では、どの分野でも同じ内容ですので、統計解析するにあたっての、細かいEZRの操作方法ことはそのような資料などから得て、それを見ながら操作練習をし、そして「(自分が探求する分野の)自分が得たデータ」で実際の解析を行えるようになれば、それで良いと思います。皆さんが使う統計処理は殆ど全て出ていると思いますので、「必要になった時」に、読んで理解し「見ながら真似してできる」ようになっていれば、たぶん、今後統計学で困ることは無いと思います。

それでは例として、「2種類以上のデータの間に関係があるかどうかを調べたい」場合の例(相関や回帰分析)を引き続き学んでいくとしたら... を紹介しましょう。


14-3. 相関と線形回帰、疑似相関

では、自学自習用の例題として、「相関と線形回帰」を挙げておきます。これは、テキストでは第9章(p139-)にある内容です(この授業時間にクリアする必要はありません。「今後の自学自習」に向けた例題とアドバイスと思ってください)。

線形回帰は、EZR では、[統計解析][連続変数の解析] [線形回帰(単回帰、重回帰)] 等で「おおまかな傾向を表す一次式」の係数を得ることができます。実際の操作法は、https://haru-reha.com/ezr-multiple-regression-analysis/ などにあります。

これらのことが「自学自習でできそうか?」という目で見た頂ければ良いと思っています。

------


で、データがあれば簡単にEZRで「相関関係」や回帰直線の式を求めることができます。ここまでは自学自習でも簡単にできるでしょう。問題はそこからです。相関関係が得られたからと言って、そこから「因果関係」があるといえるのでしょうか? 相関に関する判断を行うためには(計算法を知ってるのでは不十分で)、以下のことを知っている必要があります。テキストでも「簡単に」触れられていますが、自学自習だけではなかなかこの重要性に気がつくことが難しいかもしれません。

・因果関係があれば、相関関係があることが多い。

・相関関係があっても、因果関係があるとは限らない。

・本来無関係のものに、相関が現れることがある=疑似相関。

Webで「疑似相関 例」などのキーワードで、いろいろ調べてみてください。「おもしろい疑似相関」で検索したほうが面白いものが見つかるかも?

統計学だけでは「真の相関」と「疑似相関」を区別する方法がありません。ある種の疑似相関(隠れたパラメタによる疑似相関)を取り除く方法(20世紀後半に発展した統計的因果推論、2019,2021年のノーベル経済学賞はこの内容)はありますし、この辺がデータサイエンティストの腕の見せ所なのですが、これが全てではないし万能でもありません(単に、観察・観測による手法でししか探求できない分野で、自然科学における実験と同様の情報を得ることができる、というだけのことです)。実験が可能な自然科学分野でも、因果関係や「真実」を明らかにすることが大変なこと、常識として知っておくことが必要でしょう。 統計的に得られた相関関係は、それだけなら「相関関係がある。ひょっとしたら、因果関係があるかもしれない。でも疑似相関かもしれない」と考えることが必要です。それが疑似相関ではなく真の相関であることを立証する、あるいは因果関係があることを立証していくには、(統計的因果推論も含む)真の「学問の手法」が必要になります。一般に「因果関係」は、「仮定」され、実験などにより「確認」され、その後、数多くの追試や理論的な研究を経て、その分野における学問の進展に伴い、その「確実性が磨かれていく」ものです。そして、「真実」というものは、確実性が増しながらも、永遠に求め続けるもの(確認し続けるもの)です。そのような「学問の基本」を押さえておけば、「疑似相関による、デマ」に振り回されることが少なくなるでしょう。

# 統計的な量を計算し、その計算値(例えば相関係数等)だけから、安易に教科書的な知識だけで「相関がある→関係がある」と判断すると、騙されます。統計学を用いた比較的高度な「騙し方」ですから、統計学の本質を知らず、うわべだけ(あるいは計算方法だけ)知っているという人ほど騙されやすく、また、そのような誤りに気が付きにくいです。

計算の仕方やソフトの使い方だけでなく、このような類のこと(本質)も、「自学自習」により調べて、身に着けていくことができると良いですね。

では、今日は、このへんで終わり、次回は授業全体を振り返りたいと思います。

なお、今回までの講義ノートを、https://www.u-kochi.ac.jp/~kazama/UOKLMS/sta/ に入れておきますので、ブックマークなどして、必要に応じて復習などにご利用ください。