1. はじめに

1-1. 教科書・参考書

皆さんが「基礎統計学」の授業を選択したということは「統計について知りたい、使えるようになりたい」ということと思います。ですから「なぜ統計学を学ぶべきか」という話は、後回しにして、まず「学ぶべき教材」の探し方とお勧め教材の紹介をします。

まずはじめに、統計学(データサイエンス)を学ぶための「教科書的な参考教材」の探し方です。まず「統計学 入門」などをキーワードにWebでいろいろ探してみてください。現在では、殆どの課題に対して、様々な教材が見つかります。その中には「初歩的過ぎて意味がない(すべて理解している内容のみ)」のものもあれば、「全く歯がたたない高度なもの」もあります。また、正しいものもあれば誤っているものあります。「徐々に」で構いませんので、その中から「自分の目的に合致した教材」を探すよう、試みる習慣をつけると良いと思います...  と言っても最初ですから、皆さん向けと思われる教材を紹介します。

まず、キーワード「統計学入門 pdf 京都女子大学」等でWeb検索してください。多分表紙に「統計学入門 小波秀雄 Feb.2021」と書かれた本(pdfファイル)が見つかると思います(きちんと探せない方は、2017年度版の方しか見つからないかも? その場合は、下記のリンクから「2021年版」を見つけてください)。これは、小波先生が、京都女子大社会科学系学部の授業にて「数学苦手な文系学生でも、大学生ならこのくらいの内容は知っていてほしい、との願いを込めて、苦労して書かれた教科書」であり、他大学の(数学が苦手な)学生でも「統計学を学びたい人は、自由に使って勉強してほしい」という理由で、現在でも、http://konamih.sakura.ne.jp/ のサイト中の http://konamih.sakura.ne.jp/Stats/Text/ のページで、小波先生自身が無料公開しているものです。

なお私の「基礎統計学の授業」では、毎年これを、「教科書に準じる参考書」として利用しています(著者の小波先生に連絡・了解済みです)。「小波秀雄著 統計学入門 Feb. 2021」は、スマホやタブレットにダウンロードし「電子書籍」として利用するか、あるいは印刷して(約200ページの)本として利用してください。この授業では「テキスト*ページ参照」とかの表現で、参照しますし、基本的にはこの教科書を全て読む(理解できなくても、全て目を通す)ことを前提に進めます。なお、京都女子大学は、高知県立大学の前身高知女子大学とよく似た大学ですし、このテキストは統計に関わることを高校で学んでいない文系学生向けの教科書(この教科書の初期バージョンが書かれたころば、高校数学の統計は必須ではありませんでした)ですので、皆さんが学ぶ上で「丁度良いレベルの教科書」と思いますし、新課程で高校の数学を学ばれた方は、部分的には高校で教わっていることも結構あると思います。

なお、この教科書は、京都女子大だけでなく(理系・文系を問わず)いくつかの大学の授業でも教科書として使われていますし、また、適切なレベル・内容の授業を受けられない(しかし統計学を学びたい)という事情の多くの日本の学生も、(自学自習する為の)自習書として利用しています。内容的には「大学初年度向けの標準的なレベルの、丁寧な教科書」と思います。

では次に、計算などに使う「文明の利器」の紹介です。


1-2. 文明の利器:統計処理システムRとEZR(Easy R)

統計学の計算に使う数学は、結構高度なものが多く「それらを完全に理解して自分で計算をする」というのは、数学が得意な大学生(例えば国立大学理学部数学科の学生)でも数年間の勉強が必要でしょう。ですから昔は「数学が得意な人しか、統計学を使えない」という時代がありました。

しかし現在では大量の計算をする道具(コンピュータ)がありますし、「詳しい人が、プログラムを作り」そのプログラムを利用すれば、計算自体は「詳しくなくても、素人でも子供でも、猿でも」「正しく、マウスとキーボード操作をすることができれば」可能な時代へと進化しています。

統計計算も「SAS、SPSS」等の優れたアプリが生まれ、販売されています。ただ.... これらは「ぼったくりと思えるほど値段が高い!」のが特徴です。それでも売れているのは「FDA(アメリカ食品医薬品局)への薬事申請はSASによる解析でないと受理されなかった」等の事情でもあります。興味のある方は値段を調べ、お金がありすぎて使い方に困っている人は、是非ともSASやSPSSの購入を検討してみてください(^^; なおExcel等でも初歩的な小規模の統計計算はできますが、能力・信頼性の点では多分問題外(少なくとも薬事申請には使えないレベル)です。

ところで、「統計計算」は「特定企業にお金を払うまでもなく」研究者ならだれでも行っていることですし、そもそも統計学の高い知識と技術を持ち、高度のプログラムを作れる人材は、大学や公的な研究所等に山ほどいます。そこで「だれでも無料で使える統計解析ソフトを皆で協力し、手分けして作ろう」ということで、統計処理システム向きの「R言語」という開発システムが生まれ、R言語で様々な「統計計算のプログラム」が書かれ、「R言語システム」は壮大な「統計処理システム」へと進化しました。「ソースリストが全て公開されている」ため、仮に誤りがあっても、だれかが誤りを発見して正す、ということを繰り返し、開発者や利用者が増えるにつれ、極めて信頼性の高い効率的な統計処理システム(2007からFDAへの薬事申請にも利用可)になっています。

広範で高度な統計解析ができる「R」システムですが、元々「コンピュータ言語」としての利用が前提となっているため「システム開発(プログラミング)の経験の無い人には、使いにくい」という欠点がありました。そこで「人間が行う操作をR言語システムに伝え、また、R言語システムが出した答えを見やすく表示する」という「Rシステムと、入出力を媒介するシステム」が、開発されました。

「Rコマンダーのメニューだけで十分であればRコマンダー」「なんでもやるにはR Studio」という使い方が、一般的です(過去の基礎統計学の授業ではR Studioを使いました)。

ところで.... 医療関係の統計をするにはRコマンダーのメニューだけでは不十分、かといってR studioを使うには「一般的な(プログラミング教育を受けていない)医師にとっては」ハードルが高すぎる... ということで、自治医科大学附属さいたま医療センターの神田善伸先生が、Rコマンダーをベースに改造し「EZR(イージーアール=Easy R)」を作りました( http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmed.html)。年々利用者も増え「Rの正式なパッケージ」としても登録公開されています。医療・健康系の学生さんでしたら、まず「EZR」を使うことをお勧めします。そこで、池キャンパス(医療系が多い)の授業ではEZRを使うことにしました。なお、EZRは、R コマンダーの上位互換の拡張版ですから、(メニューの場所がちょっと移動しているだけで)Rコマンダーの機能は全てEZRで使えますし、EZRで覚えた基本的な操作はRコマンダーでも(医療系に特化して拡張された機能でなければ)そのまま使えます。ですから永国寺の授業でも、池での授業と同じく、最初はEZRを使うようにします。後で説明しますが、多分自分のPCにインストールするにも、Rコマンダーを入れるよりはEZRを入れる方が簡単だろう(そして多機能であろう)と思われるからです。なお、「本学の情報演習室のPCには」このEZRも、R Studioも入れておきましたので、皆さんは「情報演習室のPCで」どちらも使えます。

これらは全て「誰でも無料で使えるソフト」ですので、自分のPCにインストールすることもできます。これについては、必要があれば後ほど説明します(授業では、基本は演習室PCで使うことを念頭に置いてください)。

長々と説明しましたが、

ということで、この授業ではまず、EZRを使っていくことにします。

なお、希望があればそのあとで「R Studio(これも演習室PCに入っている)」の使い方も紹介します。プログラミングの経験があり、開発環境に慣れている(あるいはこれから学びたい)という方には、R Studio がお勧めです。


1-3. 何を学び、どのような能力を身に着けるか?

EZRの使い方は後程紹介しますが、少なくとも「EZRがあれば、医師あるいは医療系の研究者が使う程度の標準的な統計処理(集計、作図、推定、検定等)は、(Excel等の)データ入れてやりたいことをメニューから選ぶだけで簡単にできる」という状況は、理解していただけたのではないかと思います。

次回までに、Web で「EZR」について調べてください。また、情報演習室PCを使う機会があれば、ついでにインストールされているEZRを動かす体験をしてみてください(こちらは今回は必須ではありません。後程、一から説明します)。もしWebで調べ自力でEZRを自分のPCにインストールできそうな人は、勝手にインストールしてください(こちらも今は必須ではありません。後ほど、授業の一部として説明します)。もしその上で、自力でEZR 使えそうな人は、どんどんと、授業の進度と関係なく、勝手に学んで、勝手に「統計処理」に使ってください(それが自学自習(^^))。


それでは、統計処理システム(EZR)を使えば(使えれば)、統計学を学ぶ必要は無いのでしょうか????

実は全く逆です。細かい計算方法を知らなくても、EZRを使えばとても簡単に「計算し答えを出せる」のですから「様々な統計解析を使う場面」は増えます。そして、ソフト使えば「答え=大抵の場合『確率』」はいくらでも得られますが、それだけでは何の価値もありません。「それが何を意味するか?」を正しく読み取る能力が必要になります。

ですから「どう計算するのか」ではなく、「何を根拠に何を求めているのか? なぜそうなるのか、その結果は何を意味しているのか?」など「統計学の本質的な事柄」を大まかにでも正しく理解することが大切です。そのために、紹介したテキストが役に立つと思います。

それが無ければ「意味も分からず(公式覚えて)言われたとおりの計算をしただけ」ですし、それは多分、(知的な人間である)あなたがすべきことでは無いと思います(機械の方が早く正確にこなせますし、公式に入れて計算するだけなら子供でもできます)。

便利な道具を知り使いこなすのは、人類の文明の基礎です。機械で簡単にできることは機械に任せればよく、EZRでできる統計処理はEZRに任せればよいです。

また、完全にEZRに任せるなら、いつ何時でも「自分がEZRを使える」環境を整備できることも大切です。たとえば、統計処理が必要な時には常にEZRを入れた自分のノートPCを携帯し、常にそれを使い統計解析できるなら、それば完全に「自分の能力」の一部です。近視の人がメガネという道具を使ったり、歩くのに靴と言う道具を使うこと、殆ど同じでしょう。

このようなことを勘案し、各自「この授業から何を学び、どのような能力を身に着けるべきか」を考えてください。

ところでみなさんは、本来、大学ってどういう場であるか教わっていますか? 本来、大学は「自学自修(自学自習)」の場です。

自学自習とは、

  1. 学ぶべき課題を自ら見つけ
  2. 学ぶべき教材を自ら見つけ
  3. 学ぶべき教材に従って(まねして)、自分の知識を増やし、経験を積み、
  4. その知識や経験を「自分の力」として自覚する(=成長した新たな自分を自覚する)こと
ことと思います。

殆どの授業では3)だけですので、そのことを意識してください。

---  雑談(^^; ---
自学自修:元々はこの漢字が正しいと思いますが、ネットで辞書などを調べると、自学自習もよく使われています。特に初等?中等教育では自学自習が多く、教育学の歴史などでは自学自修が多い(という理由で、私は、皆さんには「自学自習」の方を使っています)。ネットで調べると、両方の字が同じ意味で混在しているページも結構見つかります(京都大メディアセンターのページなど)。両者の意味に違いがあるのか同じかを説明する情報も見つからないです。既に日本では、自学自修(自学自習)する人(できる人)が滅亡し、死語となっているのでしょうか???
--- 雑談終わり ---

「学ぶべきテキスト」を自分で見つけ、「利用すべき道具を入手し、利用法を調べて学ぶ」ことが自力で出来るようになると良いですね。昔は本を図書館で探したり、表を作って全部手計算でやっていました。しかし現在では、コンピュータとWebがありますし、大学学部教育で学ぶべき事柄程度であれば、ほとんど全ての情報はネット上にありますので、「ネットを上手く使う」ことが、自学自習の第一歩と思います。

1-4. まとめ

小波先生のテキスト http://konamih.sakura.ne.jp/ のサイト中の http://konamih.sakura.ne.jp/Stats/Text/ のページで、小波先生自身が無料公開している「統計学入門」入手しましたか?

次回までに時間外学習(単位規定では約90分の時間学習が義務)として、「紹介したテキスト」は、最初のページから「読めるところまで」読んでおいてください。この本が書かれた当時は、最初から大学で初めて学ぶこと(高校までに教わっていないこと)が書かれていましたが、その後の高校数学の指導要領改定により、高校である程度の確率・統計の内容が必修化されましたので、最初の方は皆さんが既に高校で学んだことがほとんどと思います。高校のときに確率や統計が得意だった方は、最初は復習みたいな雰囲気で簡単に読み始められますし、苦手だった方も、このテキストでは「そのような内容を高校で教えていなかった時代に、そのような前提で」書き始められましたので、新たな気持で0から学ぶ気持ちで読めば、読み始められると思います。そして.... もし最後まで自力で読んで内容を理解できれば.... 授業など受ける必要はなく、完全に「自学自習」が出来たことになります(笑)

次回はP25の「確率」の話あたりから始めP35~P50あたりの話題を「PCR あるいは抗体検査で新型コロナ陽性(陰性)となった人が、本当に新型コロナに感染している(いない)確率はどのくらいか?)の話題として」授業で取り上げるつもりです。テキストではベイス定理とそれに関連した話題(P35からP50)として扱っていますが、多分テキストの書き方が複雑ですので、次回から数回に渡って段階的に、最終的に皆さん、この確率計算ができるよう、説明していきたいと思います。

なお、その後、皆さんの(EZRでの)学習環境が整い次第、EZRの使い方を紹介し、記述統計(P1~P23)...の順番を、今のところ想定しています。

では、今日は初回ですので、このへんで終わります。