ゴミの中の文脈
Biases in electronic health record data due to processes within the healthcare system: retrospective observational study. BMJ 2018;361:k1479
ビッグ・データとやらと,GIGO (Garbage In Garbage Out)については既に説明した.上記の論文は,その,具体的な事例である.この論文のIntroductionには以下のような注意喚起がある.
there is a serious and increasing risk that naive use of Big Data analytical techniques without a full understanding of the complexities and limitations of EHR data is resulting in biased or incorrect medical findings. An easily overlooked aspect of EHRs is that they are observational databases―the data reflect not only the health of the patients, but also patients’ interactions with the healthcare system.
つまり,数字だけを見て,その背景にある,患者とヘルスケアシステムとの相互作用から生まれる文脈を読み込まないと,とんでもない結論が生まれるという警告だ.論より証拠で,図を見てみよう.
この論文中のFigure3は,採血をした日時を横軸に,患者の割合(a, c, e)あるいは3年後の生存率(b, d, f)を縦軸に取り,その関係を白血球数正常群(青),高値群(赤),低値群(茶)別に分けて示したものである.たとえば,Figure 3bは,3年後の患者生存率は白血球の数ではなく,採血時刻の方がはるかに重大な影響を及ぼしていることを示している.白血球数がたとえ正常範囲内であっても,午前4時から5時に採血された患者は,3年後の生存率が60%程度しかないのに対し,午後に採血された患者の3年後の生存率は80%以上ある.
この論文を読んだ患者があなたのところにやってきて,「先生,私が入院した時は,どうか,採血は必ず午後にしてください」と頼み込まれたら,あなたはどう説明するだろうか?いや,冗談を言っているつもりは全く無い.「ビッグ・データ」という言葉の前に,思考停止に陥っている連中はごまんといる.そんな連中がゴミを産生し,そのゴミをまた無批判に垂れ流す○○ジャーナリストもまたごまんといるのだから.
参考:EMAとHMAが報告書 ビッグデータの定義まとめる ミクスオンライン 2019/03/05
→二条河原へ戻る
→目次へ戻る