統計データを取るとき、そこにあるデータを事後的に処理するだけだと、結論が歪むことがある。つまり、統計から嘘が出ることがある。その例を示す。 ──
病気の患者を調べて、事前にワクチンを接種していたかどうかを調べる。すると、次の統計結果が得られたとする。
・ ワクチンを接種 した 人の集団は、病気の罹患率が高い。
・ ワクチンを接種しない人の集団は、病気の罹患率が低い。
この場合、ワクチンは有効ではないのか?
──
単純に見ると、
「ワクチンを接種した方が罹患率が高くなる」
という結論が得られそうだ。しかし、これは成立しない。なぜなら、事前にバイアスがかかっているからだ。次にように。
「病気の罹患率が高くなりそうな人に、ワクチンを接種する」
具体的には、インフルエンザで、学童にワクチンを接種する。学童は罹患率が高いから、学童にワクチンをする。そのあと、事後的に患者を見ると、次のように二分される。
・ 学童 …… ワクチン接種 …… 罹患率が高い。
・ 大人 …… ワクチン非接種 …… 罹患率が低い。
ここでは、母集団がもともと「罹患しやすい人/罹患しにくい人」に分かれてしまっている。これでは統計は無意味だ。
──
では、どうすればいいか? 次のようにすればいい。
「母集団を固定する。そのなかで、ワクチンの接種・非接種を、二重盲検法でこっそり分けてから、罹患率を調べる」
つまり、「学童/大人」という区別をしたあとで調べるのでなく、「学童だけ」または「大人だけ」という母集団のなかで、ワクチンの接種・非接種を二重盲検法でこっそり区別する。……これならば、問題はない。
──
結論。
統計調査をするときには、あらかじめ二重盲検法で、母集団から無差別に標本(サンプル)を選ぶ必要がある。
一方、あらかじめ標本を区別して母集団を切り分けてから、それぞれに対して統計結果を得て、事後的に数字を見ても、本来の目的が達せない。上の例で言えば、「接種・非接種」の区別を調べているつもりなのだが、実際には「罹患しやすい人/罹患しにくい人」の区別を調べていることになる。
統計調査のときには、このように間違えやすいことがある。それゆえ、事後的な統計調査をするときには、意味の間違えやすさがあることに注意しよう。(本来、事後的な調査は、無意味になるので、やっても仕方ない。特に、薬剤の効果を調べるときには。)
[ 付記1 ]
前項の話題も同様だろう。
「季節性インフルエンザのワクチンを接種した人は、豚インフルエンザに感染しやすい」
ということは、統計的には成立すると思う。ただしそれが意味するのは、次のことだ。
「季節性インフルエンザのワクチンを接種した人は、学童なので、もともとインフルエンザに感染しやすい。もちろん、豚インフルエンザにも感染しやすい」
そして、これは、
「季節性インフルエンザのワクチンを接種すると、豚インフルエンザにかかりやすくなる」
ということを、意味しない。統計の意味を勘違いしているだけだ。
たぶん、そういうことだろう、と推察される。(あくまで推察だが。実際にどうかは、調査の詳細が判明していないので、断言できない。)
[ 付記2 ]
本項は、前項の話を補足する意味で、説明した。
ただし、話の内容そのものは、特に新規性があるわけではない。「統計学の基礎」みたいな内容である。「二重盲検法はどうして必要か」というような話とダブる。
とにかく、標本を採るときには、完全に無作為に取る必要がある。標本の母集団に偏りがあったら、以後の統計処理は無効になる。……そういう基本原理がある。
これは「確率と検定」の話ですね。よく理解できていない人が多いので、注意。
( ※ カイ二乗検定なんていう用語や、それをエクセルで使うことは知っていても、その根源の標本の取り方が滅茶苦茶だ、ということもあるわけだ。)
( ※ なお、数式処理の基本について知りたければ → Wikipedia )
【 関連項目 】
似たテーマ。統計処理における誤り。(別のタイプ。)
→ 統計の嘘(タミフル)
2009年09月29日
この記事へのコメント
コメントを書く
過去ログ
