この授業は、一昨年度まで「基礎統計学」として開講されていた内容を、昨年度より、文部科学省が推奨する「数理・データサイエンス・AI教育プログラム認定制度」に適合すること(必修あるいはそれに準じる科目)を目指して内容に変更を加え「データサイエンス入門」として開講します。なお、必修化を前提としますので、受講対象は全学生、つまり「数学アレルギーの学生から、データサイエンスを使いこなしたい学生まで」になりますので、成績評価などもそれを踏まえた形になります。また、(文科省の指示により)講義的な内容と演習的な内容の両方を含みますので、教室は「情報演習室」を主として使います。また、必修(全員履修)だと受講人数が演習室収容人数を著しく超えますが(演習室定員の3倍程度)、その場合には、講義的内容を遠隔授業の形で行い、演習的内容をグループ分けして演習室で行うようにし、演習室収容人数の数倍程度までの受講人数であれば、適宜対応をします。
情報化社会においては、「明確にはわからないこと(問題)」に対して、データ(事実)に基づいて「ありえそうな可能性の度合い(=確率)」を見い出し、可能性の度合いに基づき、客観的な意志決定や行動を行うことが大切になります。この講義では、高校で数学・確率・統計分野が苦手だった学生から、将来あたりまえのように(調査、観察・観測、実験等の)データ解析を行う分野の学生まで、つまり全学生を対象として、現実的な意思決定に必要なデータサイエンスの基本的な考え方や、統計解析の結果の現実的な判断に必要な確率の考え方を概説します。
また、統計学的内容も、数学(論証の学問)の一分野として学ぶのではなく、「データサイエンス入門」の立場で、特に「意思決定の手段として使う上で必要になる考え方(センス)」を学ぶ授業にする予定です。 また、統計処理システムR(EZR)を用いた実践的なデータ解析の演習も行います。
なお、マーク・トウェインの名言「嘘には三種類ある:嘘、まっかな嘘、そして統計」の意味が良く感じ取れるような例も、正しく統計を用いるために必要なことですので、可能な限り紹介する予定です。なお、新型コロナウィルスに対するデマや誤った対応などの中にもデータサイエンス的視点の大切さを示す実例がたくさんありますので、それらも紹介していきます。
データサイエンス(データを扱う科学)は、新しい学問でもなんでもなく、「自然科学や社会科学などでは、昔から行われている、データ(調査、観察・観測、実験等を通して得られた事実を、(数値化などを行い)まとめたも)を扱つ科学」の総称です。昔は、**統計学とか、**調査法とか、エビデンスに基づいた**とか、各分野で言われていたものが、実は「同じことを分野ごとに名前を変えて読んでいるだけ」であり、データを集める・データを整理する(要約や可視化)・統計解析(確率の推定)・解析結果に基づく判断や行動、という視点で見れば、どの分野でも「同じような、データ処理」を行うことが大前提で、それが「科学的」とか「事実に基づいた」とかいう学問の方法論です。ですから、データサイエンスと言うのは1つの学問分野ではなく「全ての学問分野の前提になるもの」と思っていただければよいと思います(それが、文科省が全大学の全学部学科で必修科目にせよ、と指示している理由です)
「なぜデータサイエンスや統計学を学ぶべきか」という話は、後回しにして、まず「学ぶべき教材」の探し方とお勧め教材の紹介をします。
データサイエンスの中心部分は「統計学(統計処理)」です(名前と位置づけを明確にした名称に変わっただけです)。ですから、「データサイエンス」というタイトルの本だけでなく「統計学」というタイトルの本も、参考書として適切なものが多いです。
まずはじめに、統計学(データサイエンス)を学ぶための「教科書的な参考教材」の探し方です。まず「統計学 入門」などをキーワードにWebでいろいろ探してみてください。現在では、殆どの課題に対して、様々な教材が見つかります。その中には「初歩的過ぎて意味がない(すべて理解している内容のみ)」のものもあれば、「全く歯がたたない高度なもの」もあります。また、正しいものもあれば誤っているものあります。「徐々に」で構いませんので、その中から「自分の目的に合致した教材」を探すよう、試みる習慣をつけると良いと思います... と言っても最初ですから、皆さん向けと思われる教材を紹介します。
まず、キーワード「統計学入門 pdf 京都女子大学」等でWeb検索してください。多分表紙に「統計学入門 小波秀雄 June.2022」と書かれた本(pdfファイル)が見つかると思います(きちんと探せない方は、2017年度版の方しか見つからないかも? その場合は、下記のリンクから「2022年版」を見つけてください)。これは、小波先生が、京都女子大社会科学系学部の授業にて「数学苦手な文系学生でも、大学生ならこのくらいの内容は知っていてほしい、との願いを込めて、苦労して書かれた教科書」であり、他大学の(数学が苦手な)学生でも「統計学を学びたい人は、自由に使って勉強してほしい」という理由で、現在でも、http://konamih.sakura.ne.jp/ のサイト中の http://konamih.sakura.ne.jp/Stats/Text/ のページで、小波先生自身が無料公開しているものです。
なお私の「基礎統計学の授業」では、毎年これを「教科書に準じる参考書」として利用していました(著者の小波先生に連絡・了解済みです)。「小波秀雄著 統計学入門 June. 2022」は、スマホやタブレットにダウンロードし「電子書籍」として利用するか、あるいは印刷して(約200ページの)本として利用してください。この授業では「テキスト*ページ参照」とかの表現で、参照しますし、基本的にはこの教科書を全て読む(理解できなくても、全て目を通す)ことを前提に進めます。なお、京都女子大学は、高知県立大学の前身高知女子大学とよく似た大学ですし、このテキストは「統計に関わることを高校で学んでいない文系学生向けの教科書(この教科書の初期バージョンが書かれたころば、高校数学の統計は必須ではありませんでした)」ですので、皆さんが学ぶ上で「丁度良いレベルの教科書」と思いますし、新課程で高校の数学を学ばれた方は、部分的には高校で教わっていることも結構あると思いますし、旧課程の高校数学しか履修していない方でも、元々そのような学生を念頭に置いて書かれた文系学生用の教科書ですし、ややこしいところは授業でも説明しますので、丁寧に読めば、多分全員、理解できるはずと思います。
なお、この教科書は、京都女子大だけでなく(理系・文系を問わず)いくつかの大学の授業でも教科書として使われていますし、また、適切なレベル・内容の授業を受けられない(しかし統計学を学びたい)という事情の多くの日本の学生も、(自学自習する為の)自習書として利用しています。内容的には「大学初年度向けの標準的なレベルの、丁寧な教科書」と思います。
では次に、計算などに使う「文明の利器」の紹介です。
統計学の計算に使う数学は、結構高度なものが多く「それらを完全に理解して自分で計算をする」というのは、数学が得意な大学生(例えば国立大学理学部数学科の学生)でも数年間の勉強が必要でしょう。ですから昔は「数学が得意な人しか、統計学を使えない」という時代がありました。
しかし現在では大量の計算をする道具(コンピュータ)がありますし、「詳しい人が、プログラムを作り」そのプログラムを利用すれば、計算自体は「詳しくなくても、素人でも子供でも、猿でも」「正しく、マウスとキーボード操作をすることができれば」可能な時代へと進化しています。
統計計算も「SAS、SPSS」等の優れたアプリが生まれ、販売されています。ただ.... これらは「ぼったくりと思えるほど値段が高い!」のが難点です。それでも売れているのは「FDA(アメリカ食品医薬品局)への薬事申請は SAS による解析でないと受理されなかった」等の事情でもあります。興味のある方は値段を調べ、お金がありすぎて使い方に困っている人は、是非とも SAS や SPSS の購入を検討してみてください(^^; なお Excel 等でも(ピボットテーブルを使い)初歩的な小規模の統計処理はできますが、操作性・能力・信頼性の点では多分問題外(少なくとも FDA への薬事申請には使えないレベル)です。
ところで、「統計計算」は「特定企業にお金を払うまでもなく」研究者ならだれでも行っていることですし、そもそも統計学の高い知識と技術を持ち、高度のプログラムを作れる人材は、大学や公的な研究所等に山ほどいます。そこで「だれでも無料で使える統計解析ソフトを皆で協力し、手分けして作ろう」ということで、統計処理システム向きの「R言語」という開発システムが生まれ、R言語で様々な「統計計算のプログラム」が書かれ、「R言語システム」は壮大な「統計処理システム」へと進化しました。「ソースリストが全て公開されている」ため、仮に誤りがあっても、だれかが誤りを発見して正す、ということを繰り返し、開発者や利用者が増えるにつれ、極めて信頼性の高い効率的な統計処理システム(2007 から FDA への薬事申請にも利用可)になっています。
広範で高度な統計解析ができる「R」システムですが、元々「コンピュータ言語」としての利用が前提となっているため「システム開発(プログラミング)の経験の無い人には、使いにくい」という難点がありました。そこで「人間が行う操作をR言語システムに伝え、また、R言語システムが出した答えを見やすく表示する」という「Rシステムと、入出力を媒介するシステム」が、開発されました。
「Rコマンダーのメニューだけで十分であればRコマンダー」「なんでもやるにはR Studio」という使い方が、一般的です(過去の基礎統計学の授業ではR Studioを使いました)。
ところで.... 医療関係の統計処理をするにはRコマンダーのメニューだけでは不十分、かといってR studioを使うには「一般的な(プログラミング教育を受けていない)医師にとっては」ハードルが高すぎる... ということで、自治医科大学附属さいたま医療センターの神田善伸先生が、Rコマンダーをベースに改造し「EZR(イージーアール=Easy R)」を作りました( http://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmed.html)。年々利用者も増え「Rの正式なパッケージ」としても登録公開されています。医療・健康系の学生さんでしたら、まず「EZR」を使うことをお勧めします。そこで、池キャンパス(医療系が多い)の授業ではEZRを使うことにしました。なお、EZRは、R コマンダーの上位互換の拡張版ですから、(メニューの場所がちょっと移動しているだけで)Rコマンダーの機能は全て EZR で使えますし、EZR で覚えた基本的な操作はRコマンダーでも(医療系に特化して拡張された機能でなければ)そのまま使えます。ですから永国寺の授業でも、池での授業と同じく、最初は EZR を使うようにします。後で説明しますが、多分自分の PC にインストールするにも、Rコマンダーを入れるよりは EZR を入れる方が簡単だろう(そして多機能であろう)と思われるからです。なお、「本学の情報演習室のPCには」この EZR も、R Studio も入れておきましたので、皆さんは「情報演習室のPCで」どちらも使えます。
これらは全て「誰でも無料で使えるソフト」ですので、自分のPCにインストールすることもできます。これについては、必要があれば後ほど説明します(授業では、基本は演習室PCで使うことを念頭に置いてください)。
長々と説明しましたが、
なお、希望があればそのあとで「R Studio(これも演習室PCに入っている)」の使い方も紹介します。プログラミングの経験があり、開発環境に慣れている(あるいはこれから学びたい)という方には、R Studio がお勧めです。
なお、最近では、IBM社の高価な統計ソフトである SPSS とよく似た、GNUライセンスのフリーソフト「PSPP」の完成度が(ver.1.0以降急速に)上がってきています(現在 ver.1.6.2)。PSPPの日本語の解説はまだ少ないですが、使い方はSPSSと似ていますのし、ゆくゆくは SPSS完全互換のフリーソフトを目指していますので、SPSSの解説書を参考に、PSPPで練習することもできますし、SPSSを使っている方なら、多分いきなり使えます。ただ利用者がまだ少ないため、結果の信頼性や機能面でやや不十分な点もあるかもしれません。ですが、数年前から急速に充実してきていますので、近い将来には「ある程度、SPSSの代わりとして使える」ものになっていくと思います。もし将来、SPSS を使うあるいは SPSS を教わる機会があれば、そのときにこのことを思い出し、「PSPP」を自分のPCに(無料で)インストールして、SPSS の代わりに使ってみるのもよいでしょう(最初から高価なSPSSを購入する必要は無いでしょう)。
EZRの使い方は後程紹介しますが、少なくとも「EZRがあれば、医師あるいは医療系の研究者が使う程度の標準的な統計処理(集計、作図、推定、検定等)は、(Excel等の)データ入れてやりたいことをメニューから選ぶだけで簡単にできる」という状況は、理解していただけたのではないかと思います。
次回までに、Web で「EZR」について調べてください。また、情報演習室PCを使う機会があれば、ついでにインストールされているEZRを動かす体験をしてみてください(こちらは今回は必須ではありません。後程、一から説明します)。もしWebで調べ自力でEZRを自分のPCにインストールできそうな人は、勝手にインストールしてください(こちらも今は必須ではありません。後ほど、授業の一部として説明します)。もしその上で、自力でEZR 使えそうな人は、どんどんと、授業の進度と関係なく、勝手に学んで、勝手に「統計処理」に使ってください(それが自学自習(^^))。
それでは、統計処理システム(EZR等)を使えば(使えれば)、統計学を学ぶ必要は無いのでしょうか????
実は全く逆です。細かい計算方法を知らなくても、EZRを使えば「とても簡単に、計算し答えを出せる」のですから「様々な統計解析を使う場面」は増えます(昔は難しいから統計処理をしない(できない)人が多くいました)。そして、統計ソフト使えば「答え=大抵の場合『確率』」はいくらでも得られますが、それだけでは何の価値もありません。「それが何を意味するか?」を正しく読み取る能力が必要になります。
ですから「どう計算するのか」ではなく、「何を根拠に何を求めているのか? なぜそうなるのか、その結果は何を意味しているのか?」など「統計学の本質的な事柄」を大まかにでも正しく理解することが大切になります。そのために、紹介したテキストが役に立つと思います。
それが無ければ「意味も分からず(公式覚えて)言われたとおりの計算をしただけ」ですし、それは多分、(知的な人間である)あなたがすべきことでは無いと思います(機械の方が早く正確にこなせますし、公式に入れて計算するだけなら子供でもできます)。
便利な道具を知り使いこなすのは、人類の文明の基礎です。機械で簡単にできることは機械に任せればよく、EZRでできる統計処理はEZRに任せればよいです。
また、計算を完全にEZRに任せるなら、いつ何時でも「自分がEZRを使える」環境を整備できることも大切です。たとえば、統計処理が必要な時には常にEZRを入れた自分のノートPCを携帯し、常にそれを使い統計解析できるなら、それば完全に「自分の能力」の一部です。近視の人がメガネという道具を使ったり、歩くのに靴と言う道具を使うこと、殆ど同じでしょう。
このようなことを勘案し、各自「この授業から何を学び、どのような能力を身に着けるべきか」を考えてください。
ところでみなさんは、本来、大学ってどういう場であるか教わっていますか? 本来、大学は「自学自修(自学自習)」の場です。
自学自習とは、
殆どの授業では3)だけですので、そのことを意識してください。
--- 雑談(^^; ---「学ぶべきテキスト」を自分で見つけ、「利用すべき道具を入手し、利用法を調べて学ぶ」ことが自力で出来るようになると良いですね。昔は本を図書館で探したり、表を作って全部手計算でやっていました。しかし現在では、コンピュータとWebがありますし、大学学部教育で学ぶべき事柄程度であれば、ほとんど全ての情報はネット上にありますので、「ネットを上手く使う」ことが、自学自習の第一歩と思います。
小波先生のテキスト http://konamih.sakura.ne.jp/ のサイト中の http://konamih.sakura.ne.jp/Stats/Text/ のページで、小波先生自身が無料公開している「統計学入門」入手しましたか?
次回までに時間外学習(単位規定では約90分の時間外学習が義務)として、「紹介したテキスト」は、最初のページから「読めるところまで」読んでおいてください。この本が書かれた当時は、最初から大学で初めて学ぶこと(高校までに教わっていないこと)が書かれていましたが、その後の高校数学の指導要領改定により、高校である程度の確率・統計の内容が必修化されましたので、最初の方は皆さんが既に高校で学んだことがほとんどと思います。高校のときに確率や統計が得意だった方は、最初は復習みたいな雰囲気で簡単に読み始められますし、苦手だった方も、このテキストでは「そのような内容を高校で教えていなかった時代に、そのような前提で」書き始められましたので、新たな気持で0から学ぶ気持ちで読めば、読み始められると思います。そして.... もし最後まで自力で読んで内容を理解できれば.... 授業など受ける必要はなく、完全に「自学自習」が出来たことになります(笑)
次回はP25の「確率」の話あたりから始めP35~P50あたりの話題を「PCR あるいは抗体検査で新型コロナ陽性(陰性)となった人が、本当に新型コロナに感染している(いない)確率はどのくらいか?)の話題として」授業で取り上げるつもりです。テキストではベイス定理とそれに関連した話題(P35からP50)として扱っていますが、多分テキストの書き方が複雑ですので、次回から数回に渡って段階的に、最終的に皆さん、この確率計算ができるよう、説明していきたいと思います。
なお、その後、皆さんの(EZRでの)学習環境が整い次第、EZRの使い方を紹介し、記述統計(P1~P23)...の順番を、今のところ想定しています。
では、今日は初回ですので、このへんで終わります。