データの不適切な取り扱いに惑わされないように  ーベイズ統計の応用を―

常日頃から、私自身は医学論文における統計解釈に疑問を感じ、また、国が行なっている各種調査や新聞、テレビのアンケート調査結果の見出しとその内容との齟齬に腹立たしさを感じていました。
ある日、大学生協書店で手にとってみた雑誌「ニュートン」2019年4月号に、「ゼロからわかる統計と確率」という特集で、ベイズ統計について大変分かりやすく説明されており、数学と縁のない人にも興味をもてるように編集されていましたので、是非みなさんにもお勧めしたく思います。
ここでは、あるがん検査の結果を知らされた時にどう判断するかについて紹介したいと思います。
がんと最終診断された患者さん100名のうち、このがん検査で80人が陽性を示し(真陽性率は80%)、20人が陰性でした(偽陰性率が20%)。一方、がんでない人100名についても同様に調べたところ、95名で検査陰性(真陰性率は95%)で、5名で検査陽性者(偽陽性率が5%)でした。
では、あなたが検診でこの検査を受けて陽性であったなら、どのくらいの確率でがん患者の可能性があると考えますか?
医師があなたに告げる、「がん患者の80%の人がこのがん検査で陽性でした。」という言葉だけで、たいていの受診者は自分が極めて高い確率でがんであると錯覚し、絶望的になるのではないでしょうか。しかし、ベイズ統計を用いると、この検査が陽性であっても、がん患者である確率は4.6%に過ぎなのです(国民一般のがん患者の割合を0.3%として計算した場合)。確かに、一般頻度と比べれば15倍ほど高いリスクですが、20人に一人かと思うと少しは安心します。
統計とは、現実の世界で実際に起きている事柄を、数値化、データ化したものであり、確率とはまだ起きていない未来の出来事を数学的に予測するものです。
医師は、統計データの不適切な取り扱いで、患者さんを混乱に陥れないように、くれぐれも注意するようにしなければなりません。人工知能、AIのシステムでは、このベイズ統計の手法が用いられているそうで、この面でも大変注目されています。
問題