2. 数学・確率・データサイエンス

2-1. 数学と確率

データ(事実を数値化したものの集まり)が何を意味するかを知るために「統計解析の計算」が行われますが、その結果得られる「答え」は多くの場合「確率」の形で得られます。

多分皆さんは既に高校までで教わっていると思いますが「真偽がはっきりしている問題」は「正しい前提→正しい推論(正しい演繹)→正しい答え」という手法で正しい答えにとたどり着けます。これを「数学」といいます。数学とは「正しい論理」により正しい答えを得ることです(論理の学問)。数学とは、決して計算や数の学問ではありません(^^; なお余談ですが、古くは「そろばん」と言われていた計算技術の寄せ集めは、日本では「算数」と呼ばれます。小学校で「算数」だった科目が、中学から算数ではなく数学になっていますが、「公式や解法のパターンを覚えて、それに当てはめて...」というのは「算数」であり、数学ではありません。数学は「証明(論理の繋がりを明らかにし理解すること)」です。中学や高校の「数学の科目」を「算数」と思って(算数として)学んでいた方も多いかもしれませんね(^^; 算数を受験数学と称して教えている人もいるようですし(^^;

ところで、いくつかの問題は、「数学(論理)」の手法で解決できますが、全ての問題がこの方法で解決できるわけではありません。現実には、「何が正しいかわからない」、そもそも「(その時点での)正解が無い」という問題も数多くあります。そのような問題に、どのように対応するのが良いでしょうか?(それが確率です)

人類は、「わからない」のだから、自分のカンに頼る、占いに頼る... いろいろな方法を生み出し、その結果に基づき決断を下し行動し、試行錯誤を繰り返してきました。結果... 適切な判断だったこともありますが、不適切な判断だっと後でわかることもありました。

そこで「なるべく適切な判断をし、適切な行動をとることはできないか?」人々は考え、17世紀頃、ある賭博師が1人の数学者に相談に行きました。その数学者により「確率(確からしさ)」という概念が発見(発明)され、19世紀頃、「確実ではない=正解はわからないあるいは(その時点での)正解が無い問題」に対する「妥当な(あり得そうな)ことを見出し、より適切な判断し、行動する」技法が生み出され発展し、20世紀コンピュータの登場により、この手法による解析や予想が、現実的・実用的になりました。それが「確率(および統計学)」です。

具体例を念頭に置き、考えていきましょう。例えば、「ボールを持ち上げ、手を離す」と「落下」します。これは何度やっても同じ結果が得られます(再現性があります)から、「正解がある」問題です。この問題は、正しい「落下の法則」に基づき、正しい推論(落下の法則の式に初期条件を入れて正しく計算)をすれば、「いつどこに落ちるかという問題」の「正解」を得ることができます。受け取りたければ、正解の時刻に正解の場所で「受け取る行動」をすれば、確実にボールを受け取れます。このようなものが「正解があり、数学的手法で解決できる問題」です。

では次に、「数学的手法で解決できない問題」の例として、ジャンケンを考えて見ましょう。


2-2. 数学的確率と経験的確率(ジャンケンを例として)

私とあなたでジャンケン勝負です(^^)

「最初はグー!」 ......  あ、発明者の志村さん、ご冥福をお祈りします...

「ジャンケンポン!」

あなたは何を出しますか?

私が何を出すかわからないから、あなたは適当に「カンで」選ぶと思います。また、高校で教わった「場合の数から確率を計算する方法」だと、全て「確率1/3のはずで、どれが有利不利はない」はずです。ですから、「何を出したら良いか」と言う問題は「(その時点では)正解(勝てる選択)の無い問題」です。

私は「チョキ」でした。ですから、正解は(勝つためには)「グー」でしたが、これはジャンケンが終わった後に(行動した後に)、それが正解(勝てる選択)「だった」か否かがわかる問題です。

ではまたジャンケンしましょう。

....

この後、98回(飽きずに(^^;)続けました(合計99回)。

....


では、またジャンケンしましょう。

「ジャンケンポン!」

あなたは何を出しましたか?

私は「チョキ」でした。(合計100回)

....


ところで、この100回のジャンケン「私が何を出したか」の記録(=データ)をみてみましょう。

グー:10回

チョキ:70回

パー:20回
....


では、また私とジャンケンするとしたら、あなたは次に何を出しますか???

私は100回中70回「チョキ」を出してます。グーやパーを出すこともありますが、その頻度はチョキに比べて少ないです。チョキは「3通りのうち1つ」ですから、皆さんが高校で教わった「場合の数から確率を計算する方法」だと、確率1/3のはずですが....

ここで「皆さんが高校で教わった確率」の話には「大前提」があったことを思い出してください。「同等に確からしい、というおまじない(^^;」です。もし、「グーもチョキもパーも、どれを出すか、その確からしさ(確率)に違いがなければ」という大前提の元での話が、高校数学内での話であることに気が付きます。この大前提の元での話を「数学的確率」と呼ぶことにします。

では今回のジャンケンの場合は、どうでしょ?

もし、グー・チョキ・パーが同等に確からしい、つまり「チョキを出す確率が1/3」のとき「100回中70回以上チョキが出る確率」は... 簡単な計算により、\( 10^{-13} \)程度になることがわかります。

---雑談---

「簡単な計算により」と、さらっと言う(書く)のは、公式を使いそのまま計算すれば「試行錯誤せずに、解法に迷うことなく、正解にたどり着けるはず(算数)」という意味です。もちろん公式を知らなかったり計算力がなければ正解はでません。簡単だけどとてもめんどくさい場合もあります。数学者や数学を使う学者(私は元々理論物理学者)などが「簡単な計算により」と言った時にはそういう意味ですので、うっかり騙されないように要注意(^^; この場合「二項検定の公式を用い、その公式に数値を入れて正しく計算し」答え求めます。

だけど、こう言う「簡単な計算」は、Rを使えば、公式覚えていなくても「本当に簡単に」一瞬で答えを出せます。R での命令では次の1行入力するだけです。

binom.test(70,100,1/3)

カッコの中の数字が何を意味するかは、およそ見当がつくと思います。その前の文字列は(二項検定を英語で(ちょっと省略して)綴っただけ)です。詳しくは後ほど説明します。これを入力すれば(これだけ入力すれば)、結果出力の中に

p-value=1.302e-13

と表示されます。コンピュータの世界では「e-13」は「\( \times{10^{-13}} \)」の意味です。Rを使う前提であれば、本当に「簡単な計算(操作)により」ですね(^^)

なお、(Rの一種の)EZR での具体的操作方法は、後ほど説明します。ここでは「この問題の答えは、簡単に求められる」ことだけ知って、「簡単な計算により」が、直ぐにみなさんにとっても「簡単に答えを求められる」ようになる、とだけ「信じて」ください(^^;

Rの使い方に関する説明は、今は「予告編」と思えば良いと思います。R(EZR)の使い方は、後で、一から説明し、その時に皆さんにも実際にやっていただきます。

--------


閑話休題:

では、今回、確率\( 10^{-13} \)程度のことが「たまたまおきた」のでしょうか?

「サマージャンボ宝くじで1等が当たる確率が\( 10^{-7} \)程度」ですから、確率\( 10^{-13} \)程度とは、「2回連続でサマージャンボ宝くじ1等を取る」確率\( 10^{-14} \)と同じくらいの確率です(1桁(10倍)違う?そんな「細かい」ことはどうでも良いでしょう)。これが「たまたま」起きたのでしょうか? 2回連続でサマージャンボ宝くじ1等が当たったら... いいですね?(^^)

... もちろん「『正解は』わかりません」が.... あまりあり得ないことと思いませんか?『たぶん』「グー、チョキ、パー、どれが出るか「同等に確からしい」という仮定が成り立っていない(間違っている。クセがあり偏りがある)」と思いませんか?

 正しいかどうかわからないけど、「チョキを出すことが多い(チョキが出る確率は、1/3ではなく、もっと大きい)」という可能性は、結構あり得そうです。では「チョキの出る確率」はいくつなのでしょう?

数学(正しい論理)では、答えはわかりません。わかりませんが、「100回中70回なら、本当の確率は1/3じゃなく、70/100=7/10程度じゃないか?」と思いませんか? もちろんそれよりちょっと大きいかもしれませんし、それよりちょっと小さいかもしれません。でも1/3ということはあまりあり得なそうに思われます。

詳しい推定の仕方(二項検定)は後に回しますが、ここでは「クセがあり、チョキ出る確率は7/10 くらいであると推定する」ことは、そこそこ妥当なんじゃないかと思っていただけたら良いと思います。

多数回繰り返し「\(A\) 回中 \(B\)回」起こるなら、その確率は\(B/A\) であると「推定」する。回数が多い場合... 理想的には無限回試行することで、定式化することができます。

以後、この授業で使う記号を決めておきましょう。

ジャンケンをする(何かをする)という事象、つまり全体事象を\(\rm S\)と書きます。チョキが出る(注目したことが起きた)という事象、つまり注目する事象を\(\rm A\)と書き、それぞれの事象の回数を\(N\)と書きましょう。つまり\(N({\rm S})\) で全体事象の個数(回数)、\(N({\rm A})\)で\(\rm A\)が起こった回数(事象\( \rm A\)の個数)と書きましょう。

すると、試行回数が十分に多い場合、\(\rm A\)が起こる確率(これを\(P({\rm A})\)と書きましょう)は、 \[P({\rm A})= \frac{N({\rm A})}{N({\rm S})}\] に近いだろう、と推定することは、十分妥当な判断でしょう。

このように「データ=経験=試行から、回数の比率で(本当の確率はこのくらいじゃないかと)推定する確率」を「経験的確率」と呼ぶことにします。

今のジャンケンでは、チョキが出る事象\( = \rm A \)とすると、\(N({\rm S})=100, N({\rm A})=70\)ですから、\[P({\rm A})=\frac{N({\rm A})}{N({\rm S})}=\frac{70}{100}=0.7\] つまり、100回は十分多数回であるという前提で「チョキが出る経験的確率\(P({\rm A})\)はおよそ0.7」ということになります。なら、グーを多く出せば勝てそうですね(^^)


では、またまた、ジャンケンしましょう(^^;;;

「ジャンケンポン!」

さて、あなたは何を出しますか? (笑)



2-3. 「経験的確率」に基づく確率論とデータサイエンス

.....

さて、あなたは何を出しましたか?


私は.... 「パー」でした(笑)


このような確率的推定は「1回の事象」に対しては、当たることもあれば、外れることもあります。しかし、この先ジャンケンを続けていけば、そして私がチョキを出す確率が7/10程度であるという「私のクセ」が変わらなければ、あなたは「グー」を比較的多く出せば、負けることより勝つことが多くなり、トータルでは「あなたの圧勝」になるかもしれません。

実際にやってみなければわかりませんが、「トータルであなたの圧勝」はかなり期待できそうでしょ?(^^)

つまり、「過去の事実(過去のデータ)」から「経験的確率」を推定し、その経験的確率に基づき「今後の行動」を選択し実行すれば、「より望ましい結果」が得られると「期待」できます。これが「データサイエンスの手法」です。

データサイエンスとは「(過去の)データ(事実を数値化したもの)を集め、それを分析し(確率計算)、得られた確率(確からしさ)に基づき、適切な判断なり行動をする」学問です。この手続きは「全ての科学、全ての技術、全ての学問(昔、**統計学と呼ばれていたもの)に置いて当たり前に行われてきたこと」です。近年、コンピュータやネットワーク技術等の進展により、飛躍的に「大量のデータを集める」ことが可能(容易)になってきましたので、その有用性が発揮される場面が飛躍的に拡大しました。そこで、今まで個々の学問分野で行われてきたこと全てを「データサイエンス」という名前で一纏めにして整理し、再びどの個別分野でも使える形に整理し、発展させていこう、というのが「データサイエンス」です。ですから、データサイエンスの中心部は「確率論、統計学、様々な分野で行われてきた統計学・確率論的推定や判断」です。また、現実の事象を扱うと「そもそも、何と何が同等に確からしいの?」という「数学的確率論の前提条件が成り立っているか不明な問題がほとんど」です。そこで「経験的確率」を確率の基本に据え、その上でに今まで培ってきた数学的確率論の知見を乗せて、現実的な確率を推定します。これが「データサイエンス的な見方」になります。そういう意味で「数学(厳密な論理の学問)」の枠を超えた、「理科(=科学=サイエンス=観測・観察・実験を踏まえた学問)」的な、学問になります。理科(科学)の問題は「1回実験すれば、確実に真実がわかるわけではない」ですから、データサイエンスの場合にも、単にデータを集めて解析しても、それだけでは「真実(正解)がわかるわけではない」ことを意識しておくことが必要です。真実かどうかを見極めるには、普通の「科学の手法」と同じで「再現性」、「論理的整合性」等の観点からの検討が必要であり、実験や調査などだけでは「**である可能性」までしか分からない(真実かどうかは、厳密にはわからない)ことは、常に意識しておくことが必要です

また、昔は相当高い数学的能力持つ人が大量の計算をしてしかできなかった統計分析も、今はコンピュータを利用して簡単に行え、また計算結果を見やすい図にして表示することも容易になり、「データをそのまま見たら何も見えない(ゴミの山)」から統計解析の手法を駆使して「潜んでいた有用な事実(貴重な宝)」を見つける作業も、比較的簡単に行えるようになりました。この、(データの)ゴミの山から宝を見つける作業を「データマイニング(データの発掘作業?)」と呼んでいます。


---余談---

そのような意味で、「基礎統計学」の授業は「データサイエンス的な見方で、データサイエンス入門という位置付けで」、行っていましたし、小波先生の「統計学入門」の教科書も当然、データサイエンス入門の位置付けで書かれています(小波先生は元々化学者です)。昔の「(分野名)統計学」という個別分野で扱っていた内容は、現在は「データサイエンスの一部」として位置付けられます。現在全国の大学ではそのように流れに対応するため大学教育課程を再編し、データサイエンスは基本的に全大学の全学部学科で必修化される方向で大学教育改革が進められています。現在はまだ「元々データサイエンスの専門家」という人はいませんので、「諸科学分野の専門家∩数学・統計学を理解し統計処理も行える人∩広い視野を持つ人」がデータサイエンスの方向を目指した教育を行っています。本学では、少なくとも私の基礎統計学の授業は既にその方向で行っていましたので、それをベースに「データサイエンス入門」を開講することになりました。


閑話休題:

では、テキストP25~P30をさっと読んで(大体わかれば良いです。問題は解かなくて構いません)、P31~P34をじっくり読んで(2.2.2)はさっと読む、で構わない)、P35へ進みます。

高校で「条件付き確率」を学んだ方は、「高校とは違う記号」に慣れてください(高校数学での条件付き確率の記号は、日本の高校教育でしか使われません)。事象\(\rm E\)が起こった時に、事象\(\rm A \)が起こる確率は、高校の教科書では\( P_ {\rm E} ({\rm A}) \)と書きますが、ふつうは \( P(\rm A |E) \)と書きます。全事象をあえて\(\rm S\)と明記し、事象\( \rm A \)が起こる確率を、条件付確率の記号で書けば、\( P({\rm A})=P({\rm A|S})\) と書いてもかまいません。経験的確率で定義するなら、\[ P({\rm A|E })= \frac{ N({\rm A∩E}) }{ N(E) } \]\[ P({\rm A})=P({\rm A|S})= \frac{ N({\rm A∩S}) }{ N(S) }=\frac{ N({\rm A}) }{ N(S) } \]です。

P35~P50 にさっと目を通してください(今の段階で理解できなくても構いません。予告編として目を通してください、と言う意味です)。


-- 余談--

なお、P44~P50は、2019年版までにはなく、2020版から新たに付け加わっています(^^; この部分は「テキストに無いから私のオリジナルでやるか(^^)」と2020年の2月末頃(コロナが話題になり始めた頃)思っていたのですが... 2020年度の授業開講前に...小波先生に先にやられました(T_T)。内容的には私が2月末に考えていた内容と殆ど同じです。ありがたいけどちょっと(とても(^^;)悔しい... (T_T)


閑話休題:

では次回、P35の条件付き確率からじっくりと補足説明していきます。ただし、小波先生のテキストとは、多少記号を変えます。

では、今日は、このへんで終わります。