確率モデルの話

以前の記事で「くじ引き型」の確率と書いたが、それでは不正確*1なのできちんと定義すると、おそらく次のようなものになる。

これら2つのモデルは同一ではない。これらの事象は「確率pで当たりを分かる抽選券を引く」モデルで成り立つ。

ある期間内に事象Aがただ一度生起する確率がpであるとするとき、その事象が期間内に生起する確率の分布を「確率pで当たりが一枚入っているくじ引きの箱からくじをひく」というモデルを使って考えてもいい。


このモデルを適用できるとして、以下の問題を考えよう。

問題1
風船が一つある。この風船は60分間の間に確率60%で自然に割れる。この風船が最初の10分で割れる確率と、最初の10分で割れなかったときに次の10分で割れる確率はいくらか。

モデルを適用するなら、まず6枚のくじが入った箱を用意する。この中に当たりくじが入っている確率は60%(そして入っていない確率は40%)だ。最初の10分は最初にひくくじに相当するから、当たる確率は「箱に当たりくじが入っていた確率』と『(箱に当たりくじが入っていた場合)一つ目のくじが当たる確率』のかけ算だ。

 \frac{60}{100} \times \frac16 = \frac{10}{100}

最初のくじが外れである事が確認できた後、次のくじが当たる確率は、

 \frac{60}{100} \times \frac15  = \frac{12}{100}




続いて、以下の問題を考えよう。

問題2
風船が一つある。この風船は30分間の間に確率30%で自然に割れる。この風船が最初の10分で割れる確率と、最初の10分で割れなかったときに次の10分で割れる確率はいくらか。

モデルを適用するなら、まず3枚のくじが入った箱を用意する。この中に当たりくじが入っている確率は30%(そして入っていない確率は70%)だ。最初の10分は最初にひくくじに相当するから、当たる確率は「箱に当たりくじが入っていた確率』と『(箱に当たりくじが入っていた場合)一つ目のくじが当たる確率』のかけ算だ。

 \frac{30}{100} \times \frac13 = \frac{10}{100}

最初のくじが外れである事が確認できた後、次のくじが当たる確率は、

 \frac{30}{100} \times \frac12 = \frac{15}{100}


問題3
風船が一つある。この風船は60分間の間に確率60%で自然に割れる。この風船が最初の30分で割れる確率はいくらか。

モデルを適用するなら、まず2枚のくじが入った箱を用意する。この中に当たりくじが入っている確率は60%(そして入っていない確率は40%)だ。最初の30分は最初にひくくじに相当するから、当たる確率は「箱に当たりくじが入っていた確率』と『(箱に当たりくじが入っていた場合)一つ目のくじが当たる確率』のかけ算だ。

 \frac{60}{100} \times \frac12 = \frac{30}{100}





問題1の風船と、問題3の風船は明らかに同じものだ。問題3の結果から、問題2の風船は問題1や問題3の風船と同じものであるようにも思える。だが、「最初の10分で割れなかったときに次の10分で割れる確率」は問題1の風船と問題2の風船で異なる。これは「このモデルをこの推定に使用するのが不適切である」事を示しているように思える。違いは3%だが、「12%」や「15%」に対する「3%」は無視できないほど大きい。


そもそも、奇妙な点がある。このモデルでは「11分から20分の間に風船が割れる確率は10%」のはずなのだが、「最初の10分で割れなかった確率」と「最初の10分で割れなかったときに次の10分で割れる確率」は掛け合わせても10%ではない。「最初の10分で割れなかった確率」は90%なのだから、条件付き確率は常に90分の100倍にしかならないのが普通であるように思えるが、このモデルではもっと激しく確率が上昇する。それはなぜか?



実は「最初の10分で割れなかった確率は90%」は「そもそも割れるはずがなかった40%」と「割れる可能性があって割れなかった50%」の合成なのだ。割れなかった確率が二つの場合の合成である以上、単純な計算では条件付き確率が出てこないのは当然なのである。*2


モデルを少し変えると、よりいっそうわかりやすい。

ある期間内に事象Aがただ一度生起する確率がpであるとするとき、その事象が期間内に生起する確率の分布を「確率pで当たりになる抽選券が一枚必ず入っているくじ引きの箱からくじをひいて、最終的に抽選券が当たりである」というモデルを使って考えてもいい。


つまり、「先に当たり外れを決定する」のではなく、「当たり外れを決める作業をぎりぎりまで遅らせた」のだ。


この場合、「当たらなかった」という事象が「抽選券が出なかった」事と「抽選券が出たが抽選に外れた」*3という二つの事象に分割されることがはっきり分かる。


このモデルにすると、風船の問題もよく分かる。問題1と3では同じ抽選券が使えるが、問題2では違う抽選券を使わなければならないのだ。つまり、全区間を四つに割った場合(モデルを一回だけ適用した場合)と、二つに割った後それぞれを二つに割った場合(モデルを二回に分けて適用した場合)とでは、各区間の状況が異なってしまう事が分かる。


また、このモデルが「p=1」(入っているのは抽選券ではなく当たり券ということになる)なら、「最初の10分で割れなかった確率」が「割れる可能性があって割れなかった確率」と一致する(確率が合成ではなくなる)ので、自然な条件付き確率になる。


これで解決したかと思ったら、このモデルでは「間に介在する抽選券が観測不能だった場合、そもそも何を観測したのか分からなくなる」という問題があった。

*1:ほんのちょっとした前提の違いで致命的にモデルが変わる恐ろしさに今更気付いた。こう考えると、教科書に載っているような問題というのは誤解が無いよう、どれほどよく考えられているものなのかと感心する。

*2:条件付き確率の計算の仕方がこの事を示しているというのに、それがモデルにおいて何を意味するかを理解するのに何時間もかかるというのは、確率に対するセンスのなさを表しているかもしれない。もっと頭の体操が必要だ。

*3:もしこれが「豪華景品の当たる抽選会」とかであったら、客は大ブーイングだろう…。その場で別のゲームに挑戦するとかではなく、抽選券に最初から外れと書いてあったとすれば、なおさらのことである。最初から当たりは入っていなかったわけだから。どちらにしても、主催者は結構豪華な残念賞ぐらいは用意しておくべきだ(笑) 豪華粗品を進呈します!