上流解析に利用できる情報

パスウェイやネットワークに含まれる情報のうち、上流解析に利用できる情報は、下記の4つに分類されます。それぞれの情報は、由来となるデータと、制御関係の方向、構成する要素(遺伝子なのかタンパクなのか)という点で、性質や入手方法が異なります。また、情報の入手しやすさも違います。これらの情報を含むパスウェイまたはネットワークを利用することで、上流解析の情報の制約をクリアできます。

  1. タンパク間相互作用(PPI)
  2. 遺伝子発現制御
  3. 共発現
  4. 文献情報

続きを読む 上流解析に利用できる情報

 

パスウェイの作成方法の違い

パスウェイデータベースによって、パスウェイの作成方法は異なります。

キュレーターによるパスウェイ

KEGG や BIOBASE 、 Ingenuity Pathway Analysis などは、おもに研究者が生化学や医学の文献を読み、そこに文章で記述されていた内容をパスウェイの図として描くことで作成されています。この文献情報をチェックしている研究者は、「キュレーター」と呼ばれます。

例えば、「タンパクAがタンパクBをリン酸化によって活性化している」という記述があれば、AからBへ活性化の矢印を引くというような作業となります。これを1本1本の矢印について行うことで、パスウェイは作成されます。

自然言語処理によるパスウェイ

一方、キュレーターに頼らず、パスウェイを作成する方法もあります。その中の1つが、自然言語処理 (natural language processing) によるものです。これは、 PubMed などに登録された論文の要旨 (Abstract) の記述をコンピューターで処理することで、前述のような表現を抽出して、パスウェイの矢印を作成する方法です。 Agilent 社の GeneSpring や、 Ariadone Genomics 社の Pathway Studio などが、この手法を用いています。

手法による長所と短所

それぞれの手法に一長一短があります。キュレーターによるパスウェイは、人手による作業になるため、抽出される情報は、読まれた論文に依存します。すべての論文の情報がチェックされているとは限りませんが、「整理された情報」である点は魅力です。

自然言語処理は、手作業で作成するよりも網羅的な情報の抽出が可能ですが、コンピューターに完全に文脈が判断できるわけではありません。(一般的にコンピューターは、あいまいな表現が苦手です。)また、大量に情報が取得できる反面、情報量が多すぎて判断に困るということもあります。(大量の情報というのは魅力でもありますが。)