14. Rを用いた統計解析入門(実際の解析)

14-1. 分散の検定と分割表の解析

 テキスト7章まで終了しました。まだテキスト7章まで読み終わっていない方は(分からないところがあっても良いので)7章最後まで一応読んでおいてください。既に授業で説明したりEZRで体験していることが殆ど全てですから、分かりにくいところがあっても、全体的に「何のために何をしているか」は読み取れると思います。

テキスト8章も、P132までは(p-valueに基づいた平均値の検定)ですので、(面倒なお話の部分は除いて)多分分かるのではないかと思います。なお、「平均値が一致すると仮定したとき、今のデータが得られる確率はいくつか?(p-value)」は、EZRでは「独立サンプルt検定」でできます。なおテキストに書いてある式は「等分散を仮定した場合(Studentのt検定)」の式ですが、EZRでは等分散を仮定せずに、もっと一般的に計算できますので(前に紹介した動画ののとおり)、普通は「等分散を仮定しない(Welchのt検定)」で確率計算をすればよいと思います。なお、論文やレポートには、たとえば「R(EZR: 参考文献 Y. Kanda, Investigation of the freely available easy-to use software 'EZR' for medical statistics. Bone Marrow Transplantation 2013: 48, 452-458)を用いて、Welch(ウェルチ)のt検定で求めたp値は**であるので」等と書けば、誰にでも意味が通ります。

では、テキストP132[8.1.6 分散の一致を検証する \( \chi^2 \) 検定]あたりから書かれている、特に「(平均値ではなく)分散(標準偏差=平均値(期待値)からのずれ)を使った」検定法を紹介します。母集団が正規分布の時、サンプル分散の分布(サンプルを取りサンプル分散を求める、ということを多数回行った時の分布)は\( \chi^2 \)分布に従うということを、前に(軽く(^^;)紹介しました。丁度、サンプル平均の分布が正規分布(あるいはt分布)に従う、という状況と似ており、これを利用して、母集団からランダムサンプリングにより、今得られたようなサンプルが得られる確率はどのくらいか?(p-value)を求めることができます。その確率に従い、得られたサンプルが、たまたま偶然得られたのか(帰無仮説)それとも、母集団からのランダムサンプリングとは考えられない何らかの傾向があるのか(対立仮説)を、ある程度判定することができます。これを「\( \chi^2 \)検定」と呼んでいます。

この検定は、テキストp133, 8.2.2.の「分割表による検定」で使うことが多いと思います。これは前に条件付き確率のところで学んだ「オッズ、オッズ比」の話です。薬を飲む人(ワクチンを打った人)と、飲まない人(ワクチンを打たない人)、どっちが治る?(どっちがコロナに感染する?どっちがコロナで重症化する?)という話の時に「クロス集計表(=分割表)」を作り、オッズで比較して薬が効きそうかどうかの議論をしました。その時は単に「サンプル(調査した対象)」の傾向としてみていましたが、調査した人だけでなく「一般に」効くのかどうかを知りたいことが殆どでしょう。もちろん「世界中の人全員」を調べるわけにはいきませんから、「世界中の人(母集団)」から、「十分にランダムサンプリングと近似できるサンプルを取ったと仮定したうえで」解析をします。もし「薬を飲んでも飲まなくても変わらない」と仮定したときには、オッズ比は1です。でもたまたまずれることもありますから、現在のサンプルのオッズ比が得られる確率がどのくらいか?(p値)求め、その確率から「たまたまなのか、傾向があるのかどうか」を判断していきます。

なお、EZRで解析する場合には「分割表」の解析になります。既に分割表(クロス集計表)があれば、それを直接入力&解析、もし個々のデータのみでまだ集計が終わっていないなら(Excelでも簡単にできますが)EZRで、集計して分割表を作り解析する、というのを、ひとまとめで行うと良いでしょう。(なお、下記の動画中、Excel シートで odds をods と間違えて書いてありますが、修正面倒なのでそのままにしておきます。スペルミスは気にしないでください。)


【分割表の直接入力と解析( \( \chi^2 \) 検定とFisherの正確検定,odds比の区間推定) 】



【分割表の作成と群間の比率の比較( \( \chi^2 \) 検定とFisherの正確検定、odds比の区間推定))】

サンプルデータ:https://www.u-kochi.ac.jp/~kazama/UOKLMS/statistics/b1.xlsx




14-2. 学び続けるために

さて次回で授業は終わりですね。皆さんは、「データサイエンス(統計学)の基礎」を身に着け、EZRをある程度つかえるようになりはじめたと思います。授業科目に続編(統計学を各分野のさまざまな具体的な問題に応用する方法を体験する授業)があればよいのですが、本学にはありませんので、「今後は自学自習でEZRを利用して正しい統計処理を行い、出力を見て正しく判断できるようになること」が、(大学生として、データ(事実)の基づき、適切な判断をする能力を身につける上で)とても大切なことと思います。

統計学は全ての測定や調査に必要なものですから、どのような分野でも必要になりますし、また、今までに紹介した解析手法だけでなく、様々な解析手法があります。よく使われるものの説明だけでも多分、半年の授業2つ分くらいの時間が必要になりますし、また、(大学によっては)学部レベル(大学4年生まで)では教えきれずに大学院等で扱う内容にすることもあるかもしれませし、またデータサイエンス(統計学)的な内容をきちんと教えられる教員が居ない学部や大学も多くあります(高校~大学1年生レベルの内容を、専門や大学院で教えている大学もあると思います)。文科省はその問題を大きくとらえ「全国の大学、全学部・学科に、共通科目として、データサイエンス教育を行え」と指示していますが、まだその体制が取れていない大学も多い段階です。この授業の内容は、「始まり」であってゴールではありません(ゴールはずっと先です)。そして、「必要があれば自分で資料を見つけ、自分で学んでいく、といいう態度」が、多分、本来の大学生の学び方と思っています。またそれが高校や専門学校と大学の違いとも言えるでしょう。これは簡単なようで結構厳しいことです。しかし現在では、全ての「学ぶべき事柄」はWebで公開されていますので、昔から比べるとずいぶん簡単に自学自習できるようになりました(昔は図書館で本を探して、自分で本を読んで勉強するしか方法がありませんでした)。ですから皆さんには、この授業を通して、統計学の「イメージ」を掴んでいただき、「あとは、自学自習でなんとかなる」というレベルにまで達していただくことを目標としています。

そこでまず、WebでEZRを使った統計解析の仕方を(自分でいろいろ)調べてください。説明文でも動画でもかまいません。たとえば、Web で「EZR 分割表」で検索してみてください。たとえば、Web で「EZR 母平均」で検索してみてください。いろいろなページが見つかると思います。中には難しいものもあるかもしれませんが、ここまでついてきた皆さんなら、既に、結構書いてあることを理解できるのではないかと思います。

Rそのものは汎用的な統計処理ソフトですが、EZRは日本の医師が自分たちが使いやすいようにRコマンダーを改造したものですから(そしてRコマンダーの機能は全て持ちながら医学系でよく使う処理を付加したものですから)、EZRの使い方の説明は、医療系のものが多くなります(しかし医療系以外の分野の幅広い分野の統計処理にも、もちろん使えます)。 医療系の参考資料として、比較的良くまとまっているものとしては、

・EZRによる医学統計入門 https://waidai-csc.jp/updata/2018/11/EZRNyumon.pdf

・深KOKYU シロート統計学講座 https://haru-reha.com/shiroto-statistics-home/  EZRの基本操作  https://haru-reha.com/ezr_basic_operation/

などもあります。例題が医療系に偏っているだけで「データからEZRを用いて、統計解析をする」という点では、どの分野でも同じ内容ですので、統計解析するにあたっての、細かいEZRの操作方法ことはそのような資料などから得て、それを見ながら操作練習をし、そして「(自分が探求する分野の)自分が得たデータ」で実際の解析を行えるようになれば、それで良いと思います。皆さんが使う統計処理は殆ど全て出ていると思いますので、「必要になった時」に、読んで理解し「見ながら真似してできる」ようになっていれば、たぶん、今後統計学で困ることは無いと思います。なお、「分割表の検定(今回扱ったフィッシャーの正確検定等)」や、「重回帰分析(複数の要因の一次式として近似的に結果を表現しようとすること)」「ロジスティック回帰分析(連続的な値から、*である*でない、という診断に使おうとすること)」などが、「実際の調査・研究などでよく使われる」ものですので、これらの解析が(ネットにある例題を見ながら、見よう見まねで)できれば、あらゆる分野での調査・研究に役に立つでしょう。

それでは例として、「2種類以上のデータの間に関係があるかどうかを調べたい」場合の例(相関や回帰分析)を引き続き学んでいくとしたら... を紹介しましょう。


14-3. 相関と線形回帰、疑似相関

では、自学自習用の例題として、「相関と線形回帰分析」を挙げておきます。これは、テキストでは第9章(p139-)にある内容です(この授業時間にクリアする必要はありません。「今後の自学自習」に向けた例題とアドバイスと思ってください)。

線形回帰は、EZR では、[統計解析][連続変数の解析] [線形回帰(単回帰、重回帰)] 等で「おおまかな傾向を表す一次式」の係数を得ることができます(1つの要因 \( x \) と1つの結果 \( y \) を、1次式で近似しようとするのが単回帰分析 \( y = a x + b \) 、複数の要因 \(x_1, x_2 ... \) と1つの結果 \( y \) を1次式で近似しようとするのが、重回帰分析 \( y = a_1 x_1 + a_2 x_2 ... + b \) で、どちらも同じようなものです(独立変数の数が1か2以上かで違う用語を使う習慣になっているだけです。全ての単語に単数形・複数形がある言語を使う人たちの習慣でしょう)。

なお、「回帰分析って何?? 何が回帰なの?」という疑問を持つ方も多いかもしれませんね(^^; 英語でも「regression」ですから、「英語でも意味不明」でしょう。これは、統計分野によくある「意味不明な言葉」の代表例です(^^;

キーワード「回帰分析 語源」等でWebで調べれば、Wikipedia 回帰分析 やもう少し具体的な説明佐藤俊夫氏のBlog記事等が見つかると思います。そこにも書いてありますが、回帰分析という用語は、「誤解から生まれた用語」で、生物の親と子の大きさの関係が「平均値に近づくように変化している(進化なら差が拡大? それと逆なので退化=回帰)」ことを示す直線という意味で「回帰直線(regression line) 」と名づけました。その用語が、その後、生物の親と子の大きさの関係以外の、2つの量の関係の時にも統計分野で用いられ、その回帰直線を求めることを「回帰分析」と名付けたので、完全に(本来の回帰の意味とは無関係な)意味不明な用語になっています(^^; 本来なら「線形分析」とか「一次式のモデル」とか言うべき内容を「回帰分析」という意味不明な用語が使われているのは、そういう歴史的な理由です。さらに、1変数の1次式を「単回帰」、複数(2変数以上)の1次式を「重回帰」と呼んでいますし、語源(歴史)とは全く無関係に、無理やり回帰の意味を捻じ曲げて再定義して使おうとしたり、目的変数yを説明変数xに「回帰する」(「関係づける」でしょ(^^;)というような、誤用も広まっていますので... 前に述べたように「中身でなく、意味不明な用語で、混乱する人」が多いと思います。まあ、「誤用から生まれた、意味の無い、固有名詞がいろいろある」ということを知っておけば、混乱することが少なくなると思います。

回帰分析の実際の操作法は、https://haru-reha.com/ezr-multiple-regression-analysis/ などにあります。

これらのことが、時間外学習で、「自学自習でできそうか?」という目で見た頂ければ良いと思っています。

------

と、これで終わらせてもよいのですが、一応、この授業のおまけ動画(約35分)も付けておきます。この授業時間内に見て理解する必要はありませんが(だから「おまけ」)、時間外学習として一度見ておくと、実際のデータ解析を行うときの前処理から、(サンプルデータの相関や回帰分析だけでなく)「母集団の、相関や回帰直線」の推定まで紹介しましたので、「実際の解析の流れ」も見通せるようになると思います。調査や実験などを行う場合には、必ず必要になる作業です。今後も、この程度のことができるようになることを目指して、様々な、R(Rコマンダー、EZR)を使った解析法を自学自習で学んでいかれたら良いと思います。



で、データがあれば簡単にEZRで「相関関係」や回帰直線の式を求めることができます。ここまでは自学自習でも簡単にできるでしょう。問題はそこからです。相関関係が得られたからと言って、そこから「因果関係」があるといえるのでしょうか? 相関に関する判断を行うためには(計算法を知ってるのでは不十分で)、以下のことを知っている必要があります。テキストでも「簡単に」触れられていますが、自学自習だけではなかなかこの重要性に気がつくことが難しいかもしれません。

・因果関係があれば、相関関係があることが多い。

・相関関係があっても、因果関係があるとは限らない。

・本来無関係のものに、相関が現れることがある=疑似相関。

Webで「疑似相関 例」などのキーワードで、いろいろ調べてみてください。「おもしろい疑似相関」で検索したほうが面白いものが見つかるかも?

統計学だけでは「真の相関」と「疑似相関」を区別する方法がありません。ある種の疑似相関(交絡因子:隠れたパラメタによる疑似相関)を取り除く方法(20世紀後半に発展した統計的因果推論、2019,2021年のノーベル経済学賞はこの内容)はありますし、この辺がデータサイエンティストの腕の見せ所なのですが、これが全てではないし万能でもありません(単に、観察・観測による手法でしか探求できない分野(介入が制限されている、困難、あるいは禁止されている分野)でも、適切にデータを選び出す手法を付け加えて分析することにより、自然科学における実験と同様の情報を得ることができる場合がある、というだけのことです)。なお交絡因子は「疑似相関を生む1つの原因」ですが、「それがすべてではない」ので、うっかりすること、ここで騙されます。実験が可能な自然科学分野でも、1回実験すれば簡単に確実に真実がわかるわけでも無いですから(実験ミスや実験結果の解釈の仕方のミスもありますし、異なるチームによる実験結果が互いに矛盾していることも多くありますので、少なくとも再現性が求められます)、因果関係や「真実」を明らかにすることがとても大変なことを、常識として知っておくことが必要でしょう(実験できる分野の学問の歴史などを学んでおくとよいです)。 統計的に得られた相関関係は、それだけなら「相関関係がある。ひょっとしたら、因果関係があるかもしれない。でも疑似相関かもしれない」と考えることが必要です。それが疑似相関ではなく真の相関であることを立証する、あるいは因果関係があることを立証していくには、(統計的因果推論も含む)真の「学問の手法」が必要になります。一般に「因果関係」は、「仮定」され、実験などにより「確認」され、その後、数多くの追試(再現性のチェック)や理論的な研究を経て、その分野における学問の進展に伴い、その「確実性が磨かれていく」ものです。そして、「真実」というものは、確実性が増しながらも、永遠に求め続けるもの(確認し続けるもの)です。なお、「実験」という手法は、ガリレオ・ガリレイによって17世紀に発明された探求手法で、それまでの観測・観察のよる探求の時代から一気に近代科学の時代へと発展するきっかけになりました。「実験ができない分野」でも、交絡因子の影響を除去する操作を行うことにより、ようやく「17世紀の(実験の手法を活用した)近代科学」の段階に発展する糸口が見えてきた、ということです。そのような「学問の基本」を、ちゃんと押さえておけば、「疑似相関(特に交絡因子によらない疑似相関)によるウソやデマ」に振り回されることが少なくなるでしょう。

# 観測データなどから統計的な量を計算し、その計算値(例えば相関係数等)だけから、安易に教科書的な知識だけで「相関がある→関係がある」と判断すると、騙されます。統計学を用いた比較的高度な「騙し方」ですから、統計学の本質を知らず、うわべだけ(あるいは計算方法だけ)知っているという人ほど騙されやすく、また、そのような誤りに気が付きにくいです。

余談:前に紹介した梶田君の話、「かなり初期の段階(カミオカンデでの観測)で95%くらいの確率で多分、上下からの数が違うと思ったけど、そんな確率で発表したら世界中の笑いもの。 その後、新しい装置(スーパーカミオカンデ)が完成して(1996年)大量のデータを集めることが可能になったので、本格的に調べ始めて、6σ(P-value:\(10^{-9} \) 以下) を軽く超えたときに、「上下から降り注ぐニュートリノが観測される数が異なり(有意な差があり)、その原因はニュートリノ振動である(ニュートリノ振動の存在を発見=ニュートリノに質量があることの発見)」と発表した(1998年)。でも、発表した当時は疑問も続出で「それが真実である」と世界中が認めるまでには、それから10年以上かかった。そっちのほうがずっと大変で、そこからが本番という感じだった(2015年ノーベル物理学賞)」と言う話を思いだしていただければ良いと思います。「**だと仮定すれば、(実験・観測)結果の説明が付く」と言う段階までは簡単ですが「**でなければ、(実験・観測)結果の説明が付かない(**である可能性しか残らないから、**である)」という段階に持っていくのがとても大変で、これはその時点で得られる世界中の全てのデータや理論などを総動員して、世界中の学者が論理や手法などに穴が無いか理詰めで、詰めていきます(これが世界が認めるまでに10年かかった、という作業の中身です)。観測や実験でデータを得て解析結果を出す、というのはゴールではなく、そこが「真実を解明する出発点」です。それが「学問の基本」というあたりまえのことを、理解しておくとよいでしょう。

なお、最近の話題として、厚労省が公開している「コロナワクチンの接種率」と「超過死亡」の間に相関がある、ことが注目されています。いろいろな意見や予想などがネット上にありますが、「相関関係があるのは多分事実」ですが、真の相関か疑似相関かは、わかりませんし、ましてや因果関係があるのかどうかを検証するために必要なデータも公表されていませんので、わかりません。そのような状況では、デマを信じたり、根拠なく否定したり、先入観で否定や肯定する態度をとることは、あまり合理的な行動では無いでしょう。なお、わからないからこそ「これから調べていこう」というのが、合理的な「科学的態度」です。

計算の仕方やソフトの使い方だけでなく、このような類のこと(本質)も、「自学自習」により調べて、身に着けていくことができると良いですね。

では、今日は、このへんで終わり、次回は授業全体を振り返りたいと思います。

なお、今回までの講義ノートを、https://www.u-kochi.ac.jp/~kazama/UOKLMS/DS/ に入れておきますので、ブックマークなどして、必要に応じて復習などにご利用ください。