k-takahashi's blog

個人雑記用

ヤバい統計学

ヤバい統計学

ヤバい統計学

統計的な思考とはどんなもので、それは通常の考え方とどのようなズレを生じる考え方なのか。それを具体的なエピソードをもとにしてコンパクトにまとめた一冊。

1.平均化を嫌う不満分子 常に「ばらつき」に注目する
2.間違っているからこそわかること 真実より実用性を優先させる
3.グループ分けのジレンマ 似たもの同士を比べる
4.非対称がもたらす動揺 二種類の間違いの相互作用に注意する
5.「不可能」が起きるとき 稀すぎる事象を信じない
(No. 3171)

ばらつき

扱われているのは、都市交通の渋滞緩和策として導入されたミネソタ州交通局のランプメータリングとディズニーランドのファストパス
全体として処理しきれる量だが、利用者の到着にばらつきがあるため、渋滞や待ち行列ができてしまう。どんなに利用者が増えても大丈夫なように全体のキャパシティを増やすのは効率が悪すぎる(ネットワークやサーバを想像すれば容易に理解できる)。ではどうするか?


解決策は、なんらかの方法でばらつきを平均化すること。
ファストパスは日本でもおなじみだけれど、あれは実は「混雑のピークの時に来た人に対して、列に並ばずに後で来てもらう」という動きになっている。


ランプメータリングというのは、高速道路の渋滞を緩和するためのシステムで、高速道路の流量を維持できるように車の進入数を押さえるシステム。

容易に想像できることだが、このランプメータリングは一部の人にとって非常に不評で、ミネソタでもリチャード・デイという政治屋が人々を煽ってシステムを廃止させようとした。システムの停止実験までやった結果、「なくすと悪化する」という結果が出た(これは予想道理)。

ただ、このような不満が出てきたことについては実は理由があって、システム全体を最適化しようとすると感覚的には不満が増えてしまうことが分かっている。ファストパスも、列制御の観点からは最適化されていない。
この辺りの「感覚」「心理学」の扱いについては、ミネソタ州交通局よりもディズニーの方がうまかった、と。

真実より実用性

O157の感染源を調査した2006年9月の事件を紹介している。
そもそも集団発生はあるのか、感染源は何か、ということを限られた時間内で結論を出さなくてはならない。
集団発生していないのに発生と発表したら、多くの人が迷惑を受ける。
感染源を間違って指定したら、誤って指定された食物は無実の罪で大打撃を受け、一方で感染は止まらないことになる。


このとき、相関から因果をどのように推定するのかという大問題が発生している。


しかし、米国には、因果関係を確認せず、相関関係しか見ていない手法で広く使われているものがある。それがクレジットスコア。これは広く使われていて、業務の効率化、以前にはクレジットを使えなかった人もローンが使えるようになるなどの貢献が認められている。
それでも、このクレジットスコアには批判が絶えない。どういう根拠があってそういう評価をしているのかが不明確だ、というのが大きな理由の一つである。
(ちなみに、先日ソフトバンクが誤った信用情報を審査機関に通知していて、それを黙っていた事件があった。評価の正当性が常に問われるような事柄において、偽情報を入れたのに黙っているのは不誠実としか言いようがなく、犯罪的ですらある。)


感染源特定とクレジットスコアは同じ手法を用いている。これについて本書では

すべてのモデルには間違いがあるが、役に立つモデルもある (No,1350)


この、因果と相関の問題は、有名なロナルド・フィッシャーが癌と喫煙の関係で問題視したことでも知られているように、学問的には奥が深い。
しかし、実用的かどうかという評価は常に行われており、それに耐えたモデルはやはり有用なのである。


似たもの同士を比べる

米国にはSAT(大学進学適性試験)という学力評価試験がある。日本から留学を希望する場合も、この試験のスコアが求められることが多い。
この試験が不公平ではないかという批判がある。典型的なのが「ある問題の正解率を黒人と白人で比較すると、黒人の方が低い。この問題は不公平だ」というものだ。
一見正しい批判に見えるが、この批判は本当に正当だろうか?


批判を受けて正解率に差がある問題の精査が行われた。ところが多くの問題については、差が生じている理由の見当が付かなかった。喜劇的な例としては、女性より男性の方が正答率の高い問題についてその理由をひねり出したところ、実は表記が誤りで、女性の方が正答率が高かったという事件すらあったという。


そこで統計学者は、グループ分けを正しくする、という方法にたどり着いた。
黒人と白人というグループを作りそのスコアを比べるのではなく、同じくらいの能力を持つグループにまず分割し、そのグループの中で黒人と白人に差があるかを見るという方法である。
上述の「因果と相関」の話にも通じるが、少しでも有用なモデルを使うという意味でこちらが正しいというのが現在の解釈となっている。


グループ分けが正しくないと推測を誤るという別の例として、フロリダの保険の例があげられている。
「フロリダに住む人」というグループを作って保険料を設定すると、沿岸部に済む人には割安な、内陸部に住む人には割高な保険料になってしまう。これはちょっと考えれば直ぐに分かるだろう。同じ事が、テストの問題の公平性にも言えるわけだ。

二種類の間違いの相互作用

ここでいう二種類の間違いとは、よく言われる「第一種の過誤」「第二種の過誤」のこと。本書では「間違った警告」「見逃したチャンス」という表現をしている。数学的理由により、この二つを同時に下げることはできない。(検査方法を変えて精度を上げることはできる。)
実用面からの問題は、「非対称性の影響」というところで、本書では、ドーピング検査とテロリストスクリーニングを例として説明している。


ドーピング検査では「間違った警告」のコストが異常に高くなっている。もし、トップアスリートに対して「ドーピングをしている」という「間違った警告」が出たらどうなるか、を考えればそのことは容易に分かる。そのため、第一種の過誤の可能性をできるだけ下げるようにしているのだが、その結果

多くのアスリートがドーピング違反をしても逃げ切っている。この点は、アンチ・ドーピングの世界では異論が無い
(No.2294)

第二種の過誤が大きくなっている。


一方、テロリストのスクリーニングでは、もしテロリストがスクリーニングをくぐり抜けたらという観点から、第二種の過誤の可能性をできるだけ下げるようになる。すると、

無実の人ほど、黙秘権や弁護士を呼ぶことなど自分を守るための権利を放棄する傾向があり
(No.2663)

と、無実の人が疑われるケースが増加する。

稀すぎる事象

非常に稀な事象について人間の直感はあまり正確ではない。本書では、宝くじの当選と飛行機事故の例を用いて、説明している。


飛行機事故について、事故は確かに起こっている。それは単なる不運なのだろうか?
一般の人は事故だけしか見ない。だから、事故について陰謀や犯罪を疑う。しかし、統計学者は「どこで事故が起きたか」ではなく「飛行全体はどのようになっているか」に注目する。そして、その事故が単なる不運であり、陰謀や犯罪の証拠はないと判断する。「通常の運行はどうだったか?」を見てそれと事故を比較するのである。
(面白い知見としては、途上国の航空会社と先進国の航空会社の安全性の比較がある。重大事故について比較するならば、国際線における両者に差は無いのだそうだ。一方、国内線では両者にはっきりした違いが現れる。)


宝くじの例は、販売店の不正を暴く話になる。調査したところ、販売店関係者の当選率が高いことが分かった。これは単なる幸運なのだろうか?
一般の人は「幸運というのはあるものだ」という関係者の説明に納得することが多かった。しかし、統計学者は「一般の人の当選率」と比較することで、関係者の当選率が異常に高いと判断した。結果、厳密な調査が行われ、販売店の不正が幾つも明らかになった。

感想

本書は、統計的手法の詳細な説明ではなく、「どういうものの考え方をするのか」「どういう影響があるのか」を具体例を用いて解説している。


いわゆるビッグデータの扱いとは、繋がるところもあり、異なるところもある。
事例が面白いので、頭に残りやすいし、人に説明するときに使いやすいと思う。