例えば、こんな報道があったとしましょう。*1
「随分高い支持率だな」などと呑気な事を言っているあなた、この数字が
から作られたものだったとしたらどうですか。途端に「何だ、19 人中の 13 人か」と思うでしょう。
本題はここからです。「19 人中 13 人が支持した」という事実から、全体の支持率が大体どのくらいなのか計算できないでしょうか。
まず、「あなたはアメリカの対イラク政策を支持しますか ?」という質問に、Yes か No かのいずれかで答えてもらうことにします。そうしておいて
という確率空間を作り、確率変数 を
で定義します。このとき、全体の対イラク政策支持率を p とすれば 、これはベルヌーイ(Bernoulli)試行です。従って n 人にこの質問をして、「Yes」と答える人の数は
と、二項分布に従うことになります。二項分布の確率は、確率密度関数をうまいこと変形してやることで、F 分布の確率を用いて計算できます。今、第 1 自由度 n , 第 2 自由度 m の F 分布の上側 % 点を で表すことにします。
さて、上記の質問を n 人に行って、x 人が「Yes」と答えたとしましょう。このとき
とすると、信頼係数 95% の信頼限界は
で求められます。n = 19 , x = 13 として計算してみましょう。青木さんのサイト「おしゃべりな部屋」にある CGI で計算してみると
です。従って信頼係数 95% の信頼区間は [0.434,0.874] となります。このようにして作った区間が、本当の支持率 p を含んでいる確率が 95%、というわけです。*2だから、実際の支持率は半分を切っているかもしれませんし、逆に 8 割近い人が支持している可能性もあるわけです。大体、高々 19 人に聞いたくらいで支持率がわかるなら苦労はしません。だから実際には、無作為に選んだ、もっと多くの人に答えてもらって、より信頼できる数字を出そうとするわけです。