大統領選の理論的解

前回までで、大統領選のシミュレーションについて高速化を実施しました。 この大統領選シミュレーションの続きです。 今回はついに 理論解 特に大統領選が理論的にどのような分布を持つのかをお伝えします。

期待値・標準偏差

件の記事ですが、実は理論的計算で以下のように結果が得られます。

各有権者が確率 $p$ でヒラリーに投票するとします。 各州の選挙人を $x_i$ と書くことにしましょう。ただし$i=1, \cdots, 51$として州に割り振った番号を考えます。 また今回の選挙は選挙人数が $\sum x_i = 538$ です。 この $x_i$ それぞれは有限の数ですから、全ての $x_i$ よりも大きくなる数 $\alpha$ があります。こういうのを上界というのでした。 ここで実際に $\alpha$ でそのような上界の1つを示すことにします。

ここまでの記事で紹介した通り、二項分布を使って各州の選挙人がヒラリーに入れる確率を出してよいのでした。 累積確率分布が$0.5$になるのは、二項分布の性質から$p$の位置にありますから、 この部分は大嘘だ。二項分布の累積確率から値を$p$の値は求める必要がある。謹んで訂正いたします。 (しかし本質的に影響はないので、 $p$ を各選挙区で選挙人が選出される確率 $p$ すなわち、二項分布の累積確率が $0.5$ を超える確率 $\hat{p}$ としてください。) これは結局選挙人がヒラリーに入る確率も州ごとに独立で、それぞれ確率 $p$ であることを意味します。

そこで改めて (大文字の) $X_i$ を 「確率$p$ で、$i$ 番目の地域で、その地域の選挙人 $x_i$ を返し、$1-p$ で $0$ を返す確率変数」 と置きます。 $X_i$はつまり、その番号の地域において、ヒラリー側に入った代表人数を示すような確率変数です。

またこの定義から $X = \sum X_i$ が今回求めたい大統領選の結果を示す確率変数となります。

この定義の元で $X$ の平均値 $E[X]$ と分散 $V[X]$ について、以下のような計算を行うことができます。

まず各選挙区$i$についての平均と分散は

$$E[X_i] = p x_i + (1-p) 0 = p x_i$$ $$V[X_i] = p (x_i - E[X_i])^2 + (1 - p)(0 - E[X_i])^2 = p (1-p) x_i^2$$ (これが$x_i$を定数と見た時 $p = 0.5$ で最大を取る二次関数な点にも注意しておくとよい)

となるため、これに注意して $X$ の平均・分散は

$$E[X] = \sum E[X_i] = \sum (p x_i) = p \sum x_i$$ $$V[X] = \sum V[X_i] = \sum p (1-p) x_i^2 = p (1-p) \sum x_i^2$$

となります。

ここで $$\sum x_i^2 = 10366$$ となることを踏まえると

たとえば $p = 0.5$のときには、期待値は $269$, 分散は $2591.4$ (標準偏差は $50.91$)になります。

これはシミュレーションと一致する値ですね!

ただしこの議論だけでは 分布の形が正規分布に法則収束するかわかっていない ので、 ここで 期待値や標準偏差を額面通りに扱ってよいのか が問題になります。

ということで、確率分布はどうなってるのか?

Lyapunovの中心極限定理

そこで以下の定理を用います。


Lyapunovの中心極限定理:

$X_1, X_2, \cdots$ が独立に母平均 $\mu_i$ 母分散 $\sigma_i^2$ に従っているものとする。

ここである $\delta > 0$ が存在して、$s_n^2 := \sum \sigma_i^2$ としたとき $$\lim_{n \to \infty}( (1/s_n)^{2 + \delta} \sum E [ | X_i - \mu_i |^{2 + \delta} ] ) = 0$$ が成り立つならば、 $(1/s_n) \sum (X_i - \mu_i)$ は $N(0,1)$ に法則収束する。


この定理を用いると、以下のように、この問題の設定について法則収束先を明らかに出来ます。

定理: $X$ (大統領選の結果を示す確率変数) を標準化した確率分布は $0 < p < 1$ のとき標準正規分布$N(0, 1)$に法則収束する。

(proof)

$X_i$ や $x_i$ や $X$ の定義は上と変えずに考えます。 また $X$ の平均値 $E[X]$ と分散 $V[X]$ については先ほど求めました。

今 $\delta = 2 (> 0)$ として議論することにすると

$$\lim_{n \to \infty}(1/s_n)^{2 + \delta} \sum E[ |X_i - \mu_i|^{2 + \delta} ] = \lim_{n \to \infty}(1/s_n)^4 \sum E[ |X_i - \mu_i|^4 ]$$

となる。

いま $y_i := X_i - \mu_i$ と定義する。 $\mu_i = E[X_i] = p x_i$ であることに注意すると $y_i$ は 確率$p$ で $x_i - (p x_i)$、 確率 $1-p$ で $0 - (p x_i)$ を取る。

そのため確率変数 $|X_i - \mu_i|^4 (= |y_i|^4)$ は

を取る確率変数となる。

したがって、この確率変数の期待値 $E[ |X_i - \mu_i|^4 ]$ は $$E[ |X_i - \mu_i|^4 ] = p( (1-p) x_i )^4 + (1-p)( p x_i )^4 = p(1-p)((1-p)^3 + p^3)x_i^4 = p(1-p)(1 - 3p + 3p^2)x_i^4$$ となる。

すなわち

$$\sum E[ |X_i - \mu_i|^4 ] = \sum ( p (1-p) (1-3p+3p^2) x_i^4 ) = p (1-p) (1 - 3p + 3p^2) \sum ( x_i^4 ) \cdots (1)$$

ここで、 $s_n^2 = \sum V[X_i]$ なので $$s_n^4 = (s_n^2)^2 = (\sum V[X_i])^2 = ( p (1 - p) \sum x_i^2 )^2 = p^2 (1-p)^2 (\sum x_i^2)^2 \cdots (2)$$ となる。

ここで問題の式は$(1), (2)$により

$$(1/s_n^4) \sum E[ |X_i - \mu_i|^4 ] = { (1 - 3p +3p^2) / ( p (1-p) ) } { (\sum x_i^4) / (\sum x_i^2)^2 }$$

の$n$に関する極限値である事がわかる。そのため $0 < p < 1$のときには $(\sum x_i^4) / (\sum x_i^2)^2$ の部分のみが問題となる。 $(\sum x_i^2)^2 = \sum x_i^4 + 2\sum_{i \neq j} x_i^2 x_j^2$ に注意すると恐らく収束することが分かるが、これを示したい。

そこで、この式の逆数が正の無限大に発散することを見る。

$$(\sum x_i^2)^2 / (\sum x_i^4) > (\sum x_i^2)^2 / \sum x_i^4 > (\sum 1^2)^2 / \sum \alpha^4 = n^2 / n \alpha^4 = n / \alpha^4$$

ここで $\alpha$ は $x_i$ の上界の一つで、定数であるため $\lim_{n \to \infty} \alpha = \alpha$, また $\lim_{n \to \infty} n = + \infty$ なので、 結局このような数列は正の無限大に発散する。

そしてこの逆数であるため、問題の式は $0$ に収束する。

したがって Lyapunovの中心極限定理より、$0 < p < 1$ のとき $X$ (大統領選の結果を示す確率変数) の標準化は標準正規分布$N(0, 1)$に法則収束する。 □

ちなみに実際的には $X_i$ の列の長さ$n$として選挙区数$n=52$ では数が足りてないのではないかと思われるかもしれませんが、一般には $n=30$ 程度から信頼できるとされています。


この結論から言えること

これらを踏まえていくつか言えることがあるのでまとめてみましょう。

1. 分布の形は正規分布に法則収束していることが分かりました

大統領選の結果の分布の形は、正規分布に法則収束していることが分かりました。 したがって、正規分布に関する様々な理論を援用することができます。

2. 理論的に、平均値も、分散(標準偏差)も求めることが出来ることが分かりました。

理論的に、平均値も、分散(標準偏差)も求めることが出来ることが分かりました。 具体的には以下の式に従います。

この分散の値は、$\sum x_i^2$を標準化して $1.0$ としたとき、$p$を$0$から$1$の間で動かすと、次のような二次関数を描きます。

pごとの分散

つまり $p = 0.5$ で分散が最大になるわけですね。(当たり前ではあるんですが。)

3. 理論的に捉えることが出来る対象で あるにも関わらず 統計的推測がうまく行かない場合があることが分かりました。

これらを踏まえると もともとの江端さんの記事 で指摘されているほど、理論上の問題は恐れる必要がありません。

江端さんの元の記事では、以下の2つの問題が大きな焦点として取り上げられていました。

  1. 対象として理論上で捉えることが難しいため、大統領選に対する推測統計は上手く働かない可能性がある事
  2. 大統領選挙制度は強い分散を生じさせる傾向があるため、選挙制度として妥当ではない

1については、理論の構築がこの記事で行えたため(思いのほか)「出来る」ことが分かりました。

ところで大統領選の結果に対する、推測統計の問題はどこにあったのでしょうか?

ここにデータサイエンスのむずかしさが見え隠れしている気がします。 つまり理論的に間違えたというよりも、その前の段階で間違えたのかもしれません。

たとえば仮にこの理論で推測するなら投票確率 $p$ を出すために、電話調査などによるサンプリングが必要です。 これ以外の理論を立てたとしても、様々な意識調査・事前準備を要することでしょう。

今回の調査でトランプ氏の支持者は、マスメディアやエリートが偏向的であるという主張を持っていたと聞いています。(事実かどうかちょっと分かりませんが。) もし本当にそのようなことがあれば、この調査で偏りなく正しく回答をもらうのは難しかった、などの色々の可能性があるので、簡単に何が問題だったのか言うことは出来ないと思います。

もちろん、確率的に拮抗するほど予測が難しくなるのは、今回分散の図で示した通りですので、単に理論通りに間違えた可能性もありますが うまくサンプリングして作った結果であれば、それなりの精度で推測することが出来るであろうことも分かりました。 (ただしまさにその「確率$p$」を見つけるのが一番難しいのです。この理論よりも前の段階にいろいろの課題があることでしょう。)

$2$ については、理論の問題は、実際のところ選挙制度の良さと、つながりが無いのかもしれません。 なぜなら前回の記事へのレスポンスに多様な意見が現れたように 「何が望ましい選挙制度なのか」という点と、これらの統計的な問題は必ずしもつながらないためです。

したがって抑々の問題として、「何が望ましい選挙制度なのか」を決めてから議論を始めなければ、 何とでも言えてしまう と思います。

しかしアメリカ大統領選がどのような制度であるのがよいのか。僕らが語る事かなあ?という印象があります。 つまり今の大統領選の制度は、ある種のアメリカ(という我々にとっては他国)における、政治的発展の中で培われたものです。 その制度は制度として、アメリカの彼らが議論していけばよいことなんだろうなと思っています。

日本の選挙制度については……?それは確かに僕らが真面目に考えないといけないことですね。 統計的な話も当然その議論には表れることでしょう。その中で統計が果たすべき役割は、 どのような投票を行うことが日本社会における正義や自由につながるのかについて、理解を進めるための共有できる道具としてであると思います。 私はそのような価値ある統計的議論が、社会に組み入れられていくことを望みます。

謝辞(acknowledgement)

この記事を書く上で、すうがくぶんか社の内場先生(@utaka233)にたくさんの助言を頂きました。 特に、Lyapunovの中心極限定理を用いるこの記事の根本的なアイディアは内場先生の手によるものです。ありがとうございました。 普段もまざまな数学を教えて頂いており感謝しております。 (いやほんとう「すうがくぶんか社」すごい丁寧に教えてもらえるので助かってます)

追記

この話は各選挙区は全て同じ確率 $p$ で語っていますが、実際には $p_i$ をそれぞれの選挙区にとっても問題ありません。 その場合には以下の期待値・分散を取ります

内側で $p_i$ を計算してる点に注意です。($i$が動くので外に出せない)

また中心極限定理の適用では、$i$が動くので分離できなく感じるかも知れませんが、 $p_i$の式 $p_i(1 - p_i)$の下限、 $p_i(1-p_i)(1-3p_i+3p_i^2)$の上限をつかって不等式評価し、 $p_i$の式たちを定数に置き換えれば元と同じように極限操作を行えます。

See Also