データマイニング覚書

以下は,某お役所のブレーンのメモである.まだ完成したものではないが,Pharmacovigilanceやらelectronic data capturingを考える上で示唆に富むばかりではなく,データマイニングに関する世間一般の誤解を解くためにも,大いに役立つと思うので,ここに掲載する次第である.日本の役所が,このように優秀な人材を豊富に抱えていることがわかっただけでも,役人をやってみる価値があると私は思っている.

データマイニングについて(Ver 0.2) 2004/5/6
【はじめに;データマイニングの課題】
「コンビニで缶ビールと紙おむつを同時に買う人が多いので並べておいたら売り上げが増えた」という例の場合、データマイニングによる分析結果は、コンビニで客単価を上げるためには有効であるが、コンビニの客を増やすのには有効ではない(「?解釈」に関係する問題)。
 というのは、マイニング対象者データがコンビニに来店する客から得られたデータであり(「?サンプリングスキーム」の問題)、
・元々コンビニに立ち寄らない人々を新たに集められるか否かについてはデータなし
・コンビニとは異なる形態の店舗(例えばスーパーマーケットや高級雑貨店)で缶ビールと紙おむつを並べることでコンビニ同様の売り上げ増が図れるか否かは不明
といった解釈上の困難が生じるためである。

 以上から判るように、結果の解釈はサンプリングスキームにも依存しており、単に分析手法・分析結果だけに着目していても適切な解釈を導くことができない。
そのため、実用化のためには、分析手法だけに着目したプロジェクトの進め方は適切ではないと思われる。

 コンビニ経営者であれば「データマイニングである知恵が得られ、その結果コンビニが儲かる」というスキームを導入するにあたって、データマイニングで得られる情報が、どういう意味で儲けにつながるのかについて考える必要がある。場合によっては、缶ビールの取り扱いを止めて、別の商品を導入し宣伝を行うことで、来店客が増えて、缶ビールと紙おむつを並べるよりも、より高い収益が得られるかもしれない。
 副作用のデータマイニングにおいても、同様の観点からの検討が必要であり、どういう対象について、どういう意味で安全性の向上に繋がる情報が得られるのか? そしてそれは優先度の高い情報といえるのか? これらについて整理をしておく必要がある。
 

【データマイニングの特徴と位置づけ】
・他の目的で収集したデータベース(大規模)を対象に解析し、単純には見いだしがたい、多数の変数間の関係に埋もれている相関関係を抽出することができる

・ただし、精度、妥当性の両面で、事前に目的に添って計画されデータが収集される調査・試験の解析とは性質が異なる。そのため、交絡因子の制御、一般化可能性、検出力については何らの保証がないことを割り切って使うべきアプローチ。

・得ることができる情報は、データベースに含まれる変数の内容(種類・データの保持方法)、データベースに含まれるレコードのサンプリング方法(どのような副作用が報告され、どのような副作用が報告されないのか)に依存する。単純にデータベースの大きさ(データ量)が大きければ良いというわけではない。

・以上のような特性から、データマイニングについては、結論を導くための手法と言うよりも、
「膨大な検討項目の中で精査するものの優先順位をつける」
という位置づけ、つまり、人の目の負担を減らすことを目的とするのは困難であるが、人の目や経験とは違った角度から情報を吟味する手法ととらえるのが自然と考えられる。

【動向】
・生物統計学、疫学関係では、日本薬剤疫学会、製薬協 統計・DM部会、RAD-AR協議会等がすでに検討中(当然人的重複あり)。医療情報関係では別の流れがあると思われるが未確認。

・厚生労働科学研究費補助金 医薬品等医療技術リスク評価研究事業
「医薬品、医療機器等の安全性情報の提供・収集・解析方法及び企業による市販後安全管理のあり方に関する研究」(15201801)

 
【要検討事項】
○管理、入力、結果の取りまとめ、報告、伝達、各々の担当部門の仕分けと運営方法
?データベースの構造とデータの保持形式の整理
?辞書(MedDRA、薬剤名とか)、シソーラスの取り扱い及びこれらのバージョン管理
?サンプリングスキーム(データの集め方)
?分析手法
?解釈
?結果の伝達時期、伝達対象、伝達方法

?、?、?は情報関係の専門家の意見が必要と思われる。?、?、?あたりは生物統計関係の論点。いずれにしても、?だけ検討しても実用に至らない。
 

【参考資料】
・ICH E2E (Pharmacovigilance Planning) Step2

・久保田潔 (2001). 自発報告からのシグナル検出?英国MCA,米国FDA,WHOの新しい方法?. 薬剤疫学 6, 101-108.

・日本製薬工業協会 医薬品評価委員会 統計・DM部会(2003). 重要な安全性情報を早期に検出する仕組み?Signal Detectionの最近の手法について?.

・PMS検討会 (2003). PMS検討会による報告.薬剤疫学 8, 3-34.

目次へ戻る