化学同人竹内様より献本御礼。

こんな本を待っていた。

統計思考が重要なことは不透明な時代を見抜く「統計思考力」」を読めばいやでもわかるし、「統計数字を疑う」をよめば統計をそのまま信じようとはしなくなる。

しかしそれでは一体全体統計というものをどう扱えばいいのか。

本書には、それがある。

本書「統計数字を読み解くセンス」は、疫学という、統計を最も実践的に扱う学問の専門家が、統計のどこに目をつけ、どこに注意するのかを実際に統計を処理しながら学んでいく一冊。

目次 - KAGAKUDOJIN BOOKSHELLより
第1章 統計数字はじめの一歩 - データの集計と分析
一 どんなデータがあるのだろう

カテゴリーデータ / 数値データ / 計数データと連続データ / 収集したデータをどう表現するか - データの性質を考慮した統計処理

二 データの分布に現れる法則

市町村の人口の先頭桁の数字 - ベンフォードの法則 / ベンフォードの法則に従うのはどんなデータ? / k番目のものの割合は全体のk分の一に比例する - ジップの法則 / パレート曲線とパレートの法則 / ローレンツ曲線とジニ係数

確率をめぐる話(1) 二個のサイコロの目の和
第2章 平均することでなにがわかるか
一 平均とはどういうことか

実感からずれる平均 / 代表する値はいくら? / トリム平均

二 宝くじ一枚の当選金 - 期待値とはなにか  
確率をめぐる話(2) 確率を具体化するとどういうことになるのだろうか
第3章 偏差値を正しく理解する
一 全体の中での位置を知る

平均値との差を測るモノサシ - 標準偏差 / 標準化得点を求める / 標準化得点でなにがわかるか

二 偏差値はなにを明らかにするか?

偏差値を求める / 偏差値が正しく機能する条件

三 対数正規分布の平均値と標準偏差
確率をめぐる話(3) 宝くじの番号、宝くじに当たりやすい人
第4章 データ集計のコツ
一 集計表の見方とつくり方

クロス集計表とはなにか / クロス集計表のつくり方

二 シンプソンのパラドックス

なぜパラドックスが生じるのか / データの個数に差はないか

確率をめぐる話(4) 誕生日のパラドックス
第5章 相関関係をどう読み取るか
一 ふたつのデータの相関をとらえる

散布図からわかること / 相関の強さはどう決まるか / 直線相関と曲線相関

二 性質の異なる数値をどう扱うか

外れ値の扱い方 / ふたつの性質の異なるデータの扱い方 / 統計学的に意味のある相関係数とは

確率をめぐる話(5) ロト6で出やすい数字はあるのか?
第6章 因果関係を検討する
一 相関関係と因果関係

因果関係の基準はなにか / 後向き調査と前向き調査 / 危険度を測る目安 - 相対危険度 / 相対危険度の近似値 - オッズ比

二 見かけの相関
三 風が吹けば桶屋が儲かるか
確率をめぐる話(6) 薬の有効・無効
第7章 もっともらしい結論に惑わされない - 検定
一 検定とはなにか

帰無仮説と対立仮説 / 観察値と期待値

二 違いの大きさを測る基準

有意確率 / 有意水準 / ふたつの過誤 / 検出力 / 統計量の大きさとサンプルサイズの影響

三 奇妙な一致に統計学はどう答えるか?

生まれ星座で交通事故の危険性が異なる? / スポーツ選手の生まれ月の偏り / 血液型と性格に関係はあるか?

確率をめぐる話(7) 野球選手の打率
第8章 全体の姿を推しはかる - 推定
一 標本とはなにか

標本が満たさなければならない条件 / 偏った標本だとどういうことが起きるか / 標本調査とくらべて、全数調査は本当に有効なのだろうか / どれくらいのデータを集めればよいのだろうか

二 得られた結果をどう判断するか

調査で得られた結果は、母集団を代表するものだろうか / 調査によって得られた比率の確からしさ

三 ペンキの厚さの分布と信頼区間

ペンキの厚さを推定することはできるか / ふたつの独立な測定値の和の平均値と分散

確率をめぐる話(8) エレガントな調査法
第9章 統計による予測は可能か?
一 "回帰"という現象
二 地球は温暖化しているか?

気温の推移はどうなっているか? / 気温はどう変化するか? / 予測の宿命

三 予測の精度を高める方法

二〇〇八年の平均気温 / 重回帰分析 / ダミー変数を使うこと / 外挿と内挿

確率をめぐる話(9) 確率を意思決定に役立てる - 降水確率
第10章 健康な生活を送るための統計学
一 正常と異常の境目

診断基準はいかに決まるか? / 検査結果はどの程度信頼できるのか?

確率をめぐる話(10) 検査結果の確からしさ
二 安全性の判断

発がん動物がゼロ匹なら発がん性はないのか? / 外挿すれば安全な量は出せるか?

目次を見ての通り、本書に出てくるのは身近で、それだけにだまされやすく、そして実際多くの人がだまされている問題ばかりである。そう。多くの人。その中には、プロすら含まれる。

P. 148
一九三六年の米国大統領の選挙において民主党のフランクリン・ルーズベルトと共和党のアルフレッド・ランドンのいずれが大統領になるかについて、リテラリー・ダイジェスト社は二五〇万人規模の世論調査を行い、ランドンが当選するだろうと予測しました。一方、ギャラップ社はわずか二〇〇〇人の調査から、ルーズベルトが再選されるという結果を出しました。選挙の結果はルーズベルトの再選でした。

統計学にとってのこの事件は、建築学にとってのタコマ・ナローズ・ブリッジに相当するほど有名なものなのだが、この事件を知らなかった人、理由はおわかりになるだろうか。

リテラリー・ダイジェスト社が使った方法は、電話。

え?まだわからない?

実は、当時はまだ電話というのは高級品で、電話という手法を取るだけで標本が富裕層側に傾いてしまったのだ。その結果の共和党優位。一方ギャラップの二千人は、本当にランダムに算出した二千人。二千が二百五十万に「勝った」理由が、ここにある。

このエピソード、現代においてはなおのこと意味がある。ネット調査というのは、現代においては当時の電話調査と同じバイアスがかかりはしないか。

しかしこのバイアスこそ、統計思考の最大の敵なのである。その中には、どんな分布を選択するのかという分布選択バイアスすらある。標準分布を何にでもあてはめてしまおうとするのもその一つ。それがどんな結果をもたらしうるかは、「ブラック・スワン」が指摘し、その後にリーマン・ショックが来たのは記憶に新しい。

しかし、それでめげてはいけない。統計には、そのバイアスを見抜く方法もきちんと用意されているのである。それがどんな方法か、本書でぜひご確認していただきたい。

本書に強いて問題が一つあるとすると、縦書きであるにも関わらず横書きの専門書なみに数字と式を詰め込んだこと。これがあるが故に「統計思考力」も「統計数字を疑う」も本書のレベルまで踏み込めなかったとも言え、そんな「常識」を華麗にスルーしてくれた化学同人に拍手を送りたい一方で、しかし読みにくいことは否めず、ここまでやるのであれば横書きも辞さない方がよかったのではないか。

冒頭に「一体全体」という言葉が出てきた。統計とは、まさに「一部を見て全部を知ろう」とする技術である。うまくやれば2,000が250万に勝ち、開票と同時に「当選なう」と自信をもってつぶやける。カミオカンデでニュートリノを見つけたのもまた、統計。微積分、線形代数、に続く、「道具としての数学三種の神器」の三番目にして最も強力なのが統計なのだ。

本書のレベルまで統計が読めれば、だまされることもなくなる、というよりだまされてもすぐに気がつくだろう。繰り返す。プロだってだまされるのが統計である。大事なのはだまされまいと身構えるのではなく、決断に至る前にそうと気がつくことなのだから。

Dan the Black Swan