2009年09月29日

◆ 統計の嘘(豚インフル)

 統計データを取るとき、そこにあるデータを事後的に処理するだけだと、結論が歪むことがある。つまり、統計から嘘が出ることがある。その例を示す。 ──

 病気の患者を調べて、事前にワクチンを接種していたかどうかを調べる。すると、次の統計結果が得られたとする。
  ・ ワクチンを接種 した 人の集団は、病気の罹患率が高い
  ・ ワクチンを接種しない人の集団は、病気の罹患率が低い

 この場合、ワクチンは有効ではないのか? 

 ──

 単純に見ると、
 「ワクチンを接種した方が罹患率が高くなる」
 という結論が得られそうだ。しかし、これは成立しない。なぜなら、事前にバイアスがかかっているからだ。次にように。
 「病気の罹患率が高くなりそうな人に、ワクチンを接種する」

 具体的には、インフルエンザで、学童にワクチンを接種する。学童は罹患率が高いから、学童にワクチンをする。そのあと、事後的に患者を見ると、次のように二分される。
  ・ 学童 …… ワクチン接種   …… 罹患率が高い。
  ・ 大人 …… ワクチン非接種 …… 罹患率が低い。

 ここでは、母集団がもともと「罹患しやすい人/罹患しにくい人」に分かれてしまっている。これでは統計は無意味だ。

 ──

 では、どうすればいいか? 次のようにすればいい。
 「母集団を固定する。そのなかで、ワクチンの接種・非接種を、二重盲検法でこっそり分けてから、罹患率を調べる」
 つまり、「学童/大人」という区別をしたあとで調べるのでなく、「学童だけ」または「大人だけ」という母集団のなかで、ワクチンの接種・非接種を二重盲検法でこっそり区別する。……これならば、問題はない。

 ──

 結論。

 統計調査をするときには、あらかじめ二重盲検法で、母集団から無差別に標本(サンプル)を選ぶ必要がある。
 一方、あらかじめ標本を区別して母集団を切り分けてから、それぞれに対して統計結果を得て、事後的に数字を見ても、本来の目的が達せない。上の例で言えば、「接種・非接種」の区別を調べているつもりなのだが、実際には「罹患しやすい人/罹患しにくい人」の区別を調べていることになる。

 統計調査のときには、このように間違えやすいことがある。それゆえ、事後的な統計調査をするときには、意味の間違えやすさがあることに注意しよう。(本来、事後的な調査は、無意味になるので、やっても仕方ない。特に、薬剤の効果を調べるときには。)



 [ 付記1 ]
 前項の話題も同様だろう。
 「季節性インフルエンザのワクチンを接種した人は、豚インフルエンザに感染しやすい」
 ということは、統計的には成立すると思う。ただしそれが意味するのは、次のことだ。
 「季節性インフルエンザのワクチンを接種した人は、学童なので、もともとインフルエンザに感染しやすい。もちろん、豚インフルエンザにも感染しやすい」
 そして、これは、
 「季節性インフルエンザのワクチンを接種すると、豚インフルエンザにかかりやすくなる」
 ということを、意味しない。統計の意味を勘違いしているだけだ。

 たぶん、そういうことだろう、と推察される。(あくまで推察だが。実際にどうかは、調査の詳細が判明していないので、断言できない。)

 [ 付記2 ]
 本項は、前項の話を補足する意味で、説明した。
 ただし、話の内容そのものは、特に新規性があるわけではない。「統計学の基礎」みたいな内容である。「二重盲検法はどうして必要か」というような話とダブる。
 とにかく、標本を採るときには、完全に無作為に取る必要がある。標本の母集団に偏りがあったら、以後の統計処理は無効になる。……そういう基本原理がある。
 これは「確率と検定」の話ですね。よく理解できていない人が多いので、注意。
 ( ※ カイ二乗検定なんていう用語や、それをエクセルで使うことは知っていても、その根源の標本の取り方が滅茶苦茶だ、ということもあるわけだ。)
 ( ※ なお、数式処理の基本について知りたければ → Wikipedia
 


 【 関連項目 】
 似たテーマ。統計処理における誤り。(別のタイプ。)

  → 統計の嘘(タミフル)
posted by 管理人 at 19:28 | Comment(0) |  感染症・コロナ | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

※ブログオーナーが承認したコメントのみ表示されます。
  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ