投薬後の遺伝子利用が分かる
「バイオデータマイニング」とは、実験の自動化/ロボット化によるデータの大規模採取が実現され、データベース化が進む生命情報を相手にデータマイニングを行なう分野です。生命情報データベースのデータマイニングを行なうことで、今まで生命科学者のだれもが知らなかった新しい知見の発掘を目指しています。
これまで生命情報データベースでは、DNA配列やたんぱく質配列などの配列データベースが構築されてきましたが、近年は遺伝子工学手法の進歩により、立体構造や顕微鏡画像情報をはじめとする多様なデータベースが構築されています。それらの中でも現在、データ増加率の高いデータベースに「遺伝子発現データベース注1」があります。
遺伝子が細胞内で利用されることを「発現」と言います。近年、約3万のヒト全遺伝子について発現を同時に観測できるデバイス「マイクロアレイ(写真)」が容易に入手可能になったことから、取得される発現情報が急増しています。遺伝子発現データベースはその情報をもとに、さまざまな細胞内における遺伝子の利用頻度分布を格納するものです。
遺伝子発現データの例を、図1(A)に挙げます。このデータは細胞に薬を与えた後、10分刻みで遺伝子の発現を観測した結果です。各折れ線グラフが1つの遺伝子の発現変動を示しており、縦軸は各遺伝子の発現が薬を与える前から何倍に変化したかを示しています。遺伝子1は時間を追うに従って発現が上昇しています。このように、遺伝子は細胞の状態変化に伴って発現量が変化します。
図1(A)では6遺伝子のデータを示しましたが、実際には3万遺伝子が同時に観測できるので、3万個のグラフが観測できることになります。バイオデータマイニングとは、このようなデータから遺伝子の未知なる機能を予測したり、観測した細胞内で何が起こっているのかを推定したりする技術です。