私が「地球丸ごとデータベース」を標榜して久しい。データベースには実世界におけるさまざまな出来事が写し込まれているから、時として実世界を分析するよりもデータベースを分析したほうが世の中で起こっていることを的確に知ることができる。この観点から、本連載でも「世界中から観測可能なバーチャル天文台(第2回、研究紹介:大石雅寿)」や「社会現象の分析手法としてのWebマイニング(第22回、研究紹介:小山直子)」を取り上げてきた。今回は、近年の実験の自動化/ロボット化により、大規模化している生命情報データベースをマイニングすることで、試験管を振らずとも生命科学の新たな知識を発見できる時代に入ったことを示す研究を紹介してもらう。 (DB Magazine 2007年7月号より転載)
投薬後の遺伝子利用が分かる
「バイオデータマイニング」とは、実験の自動化/ロボット化によるデータの大規模採取が実現され、データベース化が進む生命情報を相手にデータマイニングを行なう分野です。生命情報データベースのデータマイニングを行なうことで、今まで生命科学者のだれもが知らなかった新しい知見の発掘を目指しています。
これまで生命情報データベースでは、DNA配列やたんぱく質配列などの配列データベースが構築されてきましたが、近年は遺伝子工学手法の進歩により、立体構造や顕微鏡画像情報をはじめとする多様なデータベースが構築されています。それらの中でも現在、データ増加率の高いデータベースに「遺伝子発現データベース注1」があります。
遺伝子が細胞内で利用されることを「発現」と言います。近年、約3万のヒト全遺伝子について発現を同時に観測できるデバイス「マイクロアレイ(写真)」が容易に入手可能になったことから、取得される発現情報が急増しています。遺伝子発現データベースはその情報をもとに、さまざまな細胞内における遺伝子の利用頻度分布を格納するものです。

遺伝子発現データの例を、図1(A)に挙げます。このデータは細胞に薬を与えた後、10分刻みで遺伝子の発現を観測した結果です。各折れ線グラフが1つの遺伝子の発現変動を示しており、縦軸は各遺伝子の発現が薬を与える前から何倍に変化したかを示しています。遺伝子1は時間を追うに従って発現が上昇しています。このように、遺伝子は細胞の状態変化に伴って発現量が変化します。

図1(A)では6遺伝子のデータを示しましたが、実際には3万遺伝子が同時に観測できるので、3万個のグラフが観測できることになります。バイオデータマイニングとは、このようなデータから遺伝子の未知なる機能を予測したり、観測した細胞内で何が起こっているのかを推定したりする技術です。
この記事は参考になりましたか?
- 日本のデータベース研究最前線連載記事一覧
-
- キーワード入力不要の地図操作によるWeb検索
- 遺伝子間の関連を洗い出すバイオデータマイニング
- 特定時点の地図を生成する時空間GIS
- この記事の著者
-
瀬々 潤(セセ ジュン)
お茶の水女子大学理学部情報科学科准教授。2003年東京大学大学院新領域創成科学研究科博士課程単位取得退学。同年、東京大学生物情報科学学部教育特別プログラム特任助手。2006年4月より現職。博士(科学)。NPO法人数理の翼理事。
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
この記事は参考になりましたか?
この記事をシェア