ロシアの騎馬兵が馬に蹴られて死んだ数

Twitterのツイートの半分が英語―英語以外では日本語がトップで14%
気になったのは調査の内容ではなくて、以下の部分。

ちなみに、Twitterは今週始めに毎日5千万ツイートを処理していると発表したばかりだ。それからすると300万ツイートというのはそれほど大きな標本ではないかもしれない。しかしそれでも公開タイムラインの分析としては有用であり、....

全数調査をするのでなければ、母集団のサイズと比べて標本サイズがどの程度の割合であるかは意味が無い。無作為抽出になっているか、調査目的の精度を満たすサンプル数かどうかが重要。


大学時代、統計学の講義を週一コマ半年間だけ受けたことがある。その中で聴いたエピソードが面白くて今でも覚えている。
1936年の大統領選挙で、大金を使って大規模に事前調査をしたのに予想が外れてしまったという話。
参考: Crystal Ball ニュースレター(2009.6.24号)
無作為抽出でなかったから。講義で聞いた話では、「全有権者過半数を調査して、それでも予想を間違えた」と言っていたが、上記を読むと過半数ではない。そこは先生が勘違いをしていたのだろうか。

もう一つ覚えているのは、ロシアの騎馬兵が馬に蹴られて死ぬという事故が、数は少ないが毎年起こる。その数の分布がポアソン分布になっているという話。このために、私はポアソン分布という言葉を聞くと、不運なロシアの騎馬兵のことを連想する。