確率の話をしてみよう4 (確率分布2)

さて、分娩室の前に戻ろう。


「くじ引き型」モデルを採用した場合、「2時間目に分娩室の前に居るあなた」がこの時間帯に出産に立ち会う確率は「87%の29分の1」だ。一時間待ちぼうけする度にその確率は「28分の1」「27分の1」とだんだん上がっていく。

「確率の話をしてみよう1」に書いたとおり、この計算は間違いだ。それほど単純ではない。

1000本のくじを用意した例では、残りが9971本になっていて、その中に当たりが必ず一本入っている。しかしここで問題が出てくる。最後の130本を別にしているせいで1000本はすぐには全てが同等とはいえない…。*1同等であるといえれば、9971分の29になる。最後の一回は、29/(130+29)になるはずで、これは18.2%ぐらいになる。


条件付き確率を求めるためには「その時間まで待つことになった確率」で「その時間帯に生まれる確率」を割るのである。このモデルでは「その時間帯に生まれる確率」は一定である。「その時間まで待つことになった確率」がだんだん下がっていく以上、条件付き確率は必ず上がっていく。


さて、それはあなたの実感に合っているだろうか?合っていないという人もいるかもしれない。合っているという人もいるかもしれない。では問題を変えてみよう。


「ある30分間の間に子供が生まれる可能性が30分の1である時、15分間に子供が生まれる可能性はいくらか」という問題だ。

この問題でも「くじ引き型として良い」とすると、「最初の15分間」と「最後の15分間」では「分娩室の前で待っているあなたが期待する確率が2倍違う」ということになる。

すでに訂正しているとおり、そこまでは上がらない。60分の1から59分の1にはあがることはいえる。



さて、これはあなたの実感に合っているだろうか?30分の間にそんなに状況は変わるのか?*2




今まで例で我々が「同程度である」と仮定したのは「条件のつかない」確率である。では「条件付き確率」の方が「同程度である」と仮定して計算するとどうなるだろうか?

場合分けに戻ってみよう。


  • 1時間目(最初の時刻から一時間以内を指すとする)に子供が生まれた
  • 2時間目(最初の時刻から一時間経過後、二時間以内とする。以下同様。)に子供が生まれた
  • 3時間目に子供が生まれた
  • 30時間目に子供が生まれた


また、「i時間目に子供が生まれる」確率をb_iとしていた。



「まだ子供が生まれていない条件下でその時間帯に子供が生まれる確率」すなわち「分娩室の前で待機しているあなたがその時間帯に出産に立ち会う確率」をpとし、これがその30時間内は一定で変化しないと仮定しよう。定義から、


b_i = (i時間目までにまだ子供が生まれていない確率)\times p


である。また前提として最初の1時間目の前にはまだ生まれていないから


b_1 = 1 \times p


2時間目にまだ子供が生まれていないという状況が発生している確率を考えてみよう。2時間目にまだ子供が生まれていないということは、すなわち「1時間目には生まれなかった」という事に等しい。その確率は(1-p)である。すると


b_2 = (1-p) \times p


三時間目にまだ子供が生まれていないのは、「1時間目には生まれなかった」という条件下で「2時間目にも生まれなかった」ときのみであるから、


b_3 = (1-p)^2 \times p


後は


b_{30} = (1-p)^{29} \times p


まで同じ調子で続くことがおわかりだろうか?



b_i = (1-p)^{i-1} \times p


である。


\sum_{i=1}^{30} b_i


が計算できるであろうか?pは定数としたので、これは素直に計算すれば「初項p、公比(1-p)の等比数列の和」ということになる。


\sum_{i=1}^{30} b_i= \frac{p(1-(1-p)^{30})}{1-(1-p)} = 1-(1-p)^{30} = 0.87

 (1-p)^{30} = 0.13

 p = 1-0.13^{1/30} = 0.0657464034


(本来は「30乗根」を意味する記号があるのだが、同じ意味になる乗数表示になっているのは単なる作業環境の都合である。1-0.13^(1/30)をgoogle検索すると、googleが計算してくれるので試してみると良い。)

だいたい、6.6%ぐらいということになる。


ところで、式の変形の途中に

1-(1-p)^{30} = 0.87

というものがでている。この式は「30回連続で待ちぼうけをする確率」を1から引いたということを意味している。

これはつまり「87%の内訳を計算する」代わりに「残りの13%と求める確率との関係を考える」ということである。30時間待っても生まれなかった確率をpを使って表すのが簡単であることを経験的に知っている人は多いので、最初からこれを計算することが多い。*3




さて、「条件付き確率が一定」の場合、分娩室の前ではどのようなことが起こるだろうか。


あなたは知らせを聞いて病院にやってきて、分娩室の前で待ち始める。1時間の中に子供が生まれる確率は約6.7%である。あなたがそこで待っている間、その確率はそのままであり続ける。あなたは「1時間あたり6.7%の確率で起こる出産を待っている」か、あるいは「既に新生児室で子供を見ている」事になる。

但し、「この30時間は」という前提の通り、30時間経ってもまだ子供が生まれていなかった場合、あなたは近くの看護婦を捕まえて状況を聞かなければならないことになる。妊娠三ヶ月の時に生まれる確率を聞きに行ったら、多分笑われるだろう。(あるいは、容体が急変したのかと心配されるかもしれない。)


私がもし新生児室の前で待たなければならないとしたら、知りたいのは6.7%の方である。



なお、「30分以内に30分の1のとき、15分間の確率は?」という例は


 p = 1-(1-\frac1{30})^{1/2} = 0.0168079197


になる。ちなみに、「30分の1の半分」はだいたい\frac1{30} \times \frac12 = 0.0166666667であって、最初の15分の確率はほとんど変わらない。だが、(モデルがくじ引き型なら)次の15分の条件付き確率はその二倍の確率になる。

くじのモデルでは60分の1から59分の1に変化する。



「事象が起こる確率が一定(条件付き確率は上がっていく)」というモデルの典型は「箱の中からくじを引いていく」という形で見ると分かりやすいという例を以前に挙げている。


では「条件付き確率が一定(事象が起こる確率は下がっていく)」というモデルはどのような形で見ることが出来るだろうか?

実は、これも「箱からくじを引く」形で表現出来る。唯一の違いは「くじの中身を確認した後、箱の中に戻す」という点である。


「くじ」を戻すのはちょっと気持ち悪い*4ので、通常は「赤い玉、白い玉」を使うかもしれない。取りだした玉が赤ければ当たりというパターンだ。色を確認したら、玉は箱に戻す。


引いたものを箱に戻しているので、次にくじを引いた時もやはり当たる確率は変わらない。


但し、「30回引いて87%あたる」ような箱を用意するのはとても難しい。計算に「累乗根*5」がでてくる事からもよく分かるだろう。「用意した箱で何回引くとどれくらい当たりが出るか?」を計算することの方が多いだろう。

私が計算した結果では「15個に1個当たりがある」ぐらいで87%に近い値になるようだ。

*1:全て区別できる1000本のくじを自由に870本引くなら、その組み合わせは1000の階乗(1000!)を130の階乗で割ったもの(1000!/130!)だ。分割する場合、分割の選び方が1000!/(870!130!)、それぞれについて870!に並べることができるので、場合の数は一致する。分けてから引いても引き残してもバリエーションが同じなら同等といえるはずか。

*2:個人的には最初の例である「30時間」であっても、私の実感には合っていない。予定日なんて数日の単位でずれるものではないのか?と思うからだ。でも私に産婦人科の知識は全くないのでそんなことは分からない。

*3:元の議論でいきなりこの計算をする人が多いのはそういうことだ。経験上、それで計算出来ることを知っているためそうする。

*4:中を確認した後は二度と使えないタイプのくじの方が多い気がするのだ。神社ではおみくじの番号を決めるための筒がよくおいてあるので、アレをイメージするのもよい。

*5:ある回数かけ算を繰り返すとその数になる数。平方根、立方根などはなじみ深いだろう。