1-G-3-5 | 第17回医療情報学連合大会 17th JCMI(NOV,.1997) |
○岡本 裕司 , 松村 泰志 , 岡田 武夫 , 桑田
成規 , 中村 考志 , 中野 裕彦 , 武田 裕
大阪大学医学部付属病院医療情報部
A model of acquirement of knowledge from the
clinical database system
the case of clinical laboratory test data
○Yuji Okamoto , Yasushi Matsumura , Takeo
Okada , Shigeki Kuwata , Takasi Nakamura , Hirohiko
Nakano , Hiroshi Takeda
Department of medical Information Science, Osaka University Hospital(okamoto@hp-info.med.osaka-u.ac.jp )
Keywords: database system, hospital information system, acquirement of knowledge
病院情報システムの稼働により、多くのデータがデータベースに蓄積されるようになった。今後、診療データの電子化は、更に広がる傾向にある。この蓄積された大量のデータから診療に有用な情報を抽出することは重要な課題である。今回我々は、ある特質を持つ患者群(例えば、ある疾患を持つ患者)について、比較的得やすい複数の患者データの中に表れる特徴を抽出する方法について検討した。従来、こうした問題には、判別分析法が用いられてきたが、この方法では、データ空間を平面で2分することになり、特徴抽出の方法としては、ややroughとなる可能性がある。我々は、ある特質を有する患者群が、データ空間において比較的小さな領域に特異的集中する場合にも、これを見逃さず、その特徴を抽出する方法について開発を試みている。
我々は、本院の患者データを、解析を専用とするデータベースシステム(診療データベース1))に蓄積してきた。データ抽出を自動化するために、このデータベースから分析に用いるデータを検索し、決められた形式のデータファイルに整えるシステムを合わせて開発した。このモジュールと分析のモジュールを組み合わせることにより、情報(知識)の抽出が自動化される。
このシステムを用い、例題として、鉄欠乏の患者について、末梢血液像のデータの中での特徴抽出を行った。
診療データベースは、ワークステーション上(NEC、EWS4800)に、ORACLE7をデータベースマネージメントシステムに用いて構築されている。、クライアントは、PC9821Xa13(NEC)を用い、Windows95をOSとして採用した。データベースの問い合わせにはKeySQLを用い、DDE通信でマクロを送信することで必要なデータをサーバから獲得した。プログラムの開発にはVisualBasic
5.0を用いた。
検体検査結果のデータは、データ格納効率を上げるために、以下のデータベースファイルに格納されている。即ち、末梢血液、尿検査、頻度の多い生化学検査などのセットで結果が出される検査項目のデータについては、セット毎に作成されたファイル(それぞれの項目がフィールドに割り当てられている)に格納され、それ以外の項目のデータは、データ項目名のフィールドを持つ1つのファイルに格納されている。データ抽出モジュールは、データベースファイルから関心のある項目のデータを抽出し、クライアント側で同一患者、同一日のデータが1レコードとなるように編集する。ここで、一人の患者について複数のレコードが存在する場合は、最初に行われた検査のみを残した。
今回は、患者の特質を規定するデータとして、検体検査データを用いた。患者の特質を規定するデータを目的変数、その特徴抽出の対象となるデータ項目を説明変数と呼ぶことにする。N個の説明変数に対し、まずそれぞれの値が存在する範囲を等間隔の区域に分割する。このN個の各要素の区域に囲まれたN次空間をセルと呼ぶことにする。各セルについて、セル内に含まれる要素の数と、この中である特質を有する要素の比率Rcから、母集団における比率の99%信頼区間(上限値:Uc、下限値:Lc)を求めた。全体の要素の数に対する特質を有する要素の比Rtと、各セルのRc、Lc、Ucの値を比較して、各セルを分類した。即ち、Rt
最初に与えた説明変数の内、全ての変数がこの特質を表すのに有効な意味をもつとは限らない。そこで、最初に使用したN個の説明変数から一つを除いて上記の処理を行い、Lcls,maxを求めた。こうして求められたN個の値の内、最も大きな値をとったものが変数を減らす前の値に対して10%以上低下しない場合に、ここで除かれた変数は意味の無い変数とみなした。このプロセスを繰り返し、最終的に残った説明変数が、この特質をもつ要素の特徴を表すデータ項目、またここで求められたクラスターをその要素が特異的に集まりやすい領域、即ち特徴を表す領域として採用した。
例題として、末梢血液のデータにおける鉄欠乏の患者の特徴を、本法を用いて抽出した。データ抽出モジュールによりWBC、RBC、Hb、Ht、Plt及びFeの検査について同一日に施行された検査データ(患者の重複を除く)を1997年4月から6月までの期間検索し、処理のためのデータファイルを作成した。そのレコード数は1081であった。ここで、Feが正常下限値未満のものを鉄欠乏の患者とした。本法の処理により得られたLcls,maxは、5つの変数の時0.708であった、次に変数を一つ除いて得られたLcls,maxは、
Pltを除いた時に最大値をとり、その値は0.733であった。この値は先の値に対して10%以上の低下がないのでPltは有効な説明変数から除かれた。同様にさらに1つの変数を除いたときにLcls,maxが最大値をとるのはWBCを除いた時であった。その値は0.766となり、先の値に対して10%以上に低下が無いのでWBCは有効な変数から除かれた。次のステップでは、Hbを除いた時Lcls,maxが最大値となるが、値は0.630となり、10%以上低下するため、Hbは有効な変数から除かなかった。結局5つの変数の内、このプロセスで除かれたのはPltとWBCであり、残りのHt、RBC、Hbが鉄欠乏患者の特徴を表す変数として残った。最終的に求められたクラスターの、RBCとHbの平面への投影を図1に示す。Ht、RBC、Hbの変数で構成される1000個のセルの内、データが存在するのは79個のセルであった。また、この内鉄欠乏患者の特徴を表すクラスターを構成するのは16個のセルで、この中に142個の要素が含まれていた。このクラスター内の要素のうち、鉄欠乏患者の要素は119個(83.8%)であった。これは、全体の要素(1081)の内、鉄欠乏の患者(312)が含まれる割合28.9に対し、十分高値であった。このクラスターによる鉄欠乏の有無の推定について、sensitivityは0.38、specificityは0.97であった。
診療データベースから、自動的にある特質を持つ患者の特徴を表すデータを抽出するプログラムを開発した。このシステムを用い、末梢血液像から、鉄欠乏患者の特徴を抽出したところ、従来から言われている小球性小色素性貧血と一致した。このシステムは、任意の特質を持つ患者について検体検査データでの特徴抽出を可能とする。今後、更に、本法の妥当性、適応範囲の普遍性について検討する必要がある。また、未だ発見されていない知識が、このシステムにより得ることができるか、検討していく予定である
説明:クラスターのRBCとHbの平面への投影。黒色はFe欠乏患者の要素が特異的に集まる領域、灰色は患者の要素が存在する領域
1.桑田成規 他:診療支援データベースの構築及びその利用.第15回医療情報学連合大会論文集, 929, 1995