上流解析に利用できる情報

パスウェイやネットワークに含まれる情報のうち、上流解析に利用できる情報は、下記の4つに分類されます。それぞれの情報は、由来となるデータと、制御関係の方向、構成する要素(遺伝子なのかタンパクなのか)という点で、性質や入手方法が異なります。また、情報の入手しやすさも違います。これらの情報を含むパスウェイまたはネットワークを利用することで、上流解析の情報の制約をクリアできます。

  1. タンパク間相互作用(PPI)
  2. 遺伝子発現制御
  3. 共発現
  4. 文献情報

1. タンパク間相互作用 (PPI)

タンパク間相互作用 = Protein-Protein Interaction (PPI) は、文字通り、タンパク質の結合に関する情報です。「どのタンパク質とどのタンパク質が結合するか」ということが分かります。例えば、Xというタンパク質が、Aというタンパク質と結合するのであれば、「X — A」のように表現できます。この場合、矢印に方向はありません。また、X, A は、遺伝子ではなくタンパク質を意味します。(多くのパスウェイやネットワークにおいて、良くも悪くも、遺伝子とタンパク質の区別はあいまいです。)

論文、Y2H や、アミノ酸配列の解析から、PPI の情報は生成されています。データベース化され、公開されており、EBIBioGRID から入手できます。これらのデータベースが無償であることもあり、最も入手しやすい情報です。(X と A が結合するからといって、X が原因と呼べるかどうかは疑問ですが。)

2. 遺伝子発現制御

転写因子 = transcription factor (TF) による遺伝子発現の制御の情報です。その転写因子が結合するモチーフと、さらに、そのモチーフを上流配列に持つ遺伝子の情報が分かれば、制御関係が得られます。例えば、Xという遺伝子は、Aという遺伝子の上流配列(-2k 程度)に結合して転写を活性化するのであれば、 X –> A という制御関係が成り立ちます。矢印に方向があります。また、矢印に活性と抑制の2つの種類があります。(厳密には、Xがタンパク質で、Aが遺伝子の関係です。)

論文、ゲノム配列の解析から、遺伝子発現制御の情報は生成されています。PPI同様にデータベース化され、公開されていますが、多くの場合、商用(有償)です。Ingenuitiy Pathway Analysis (IPA) やバイオベース社の TRANSFAC が有名です。PPI に比べ、 TF の X が見つかれば、原因と呼べるのではないかと思います。一方、PPIに比べ、使いこなすのは難しいと言えるでしょう。(ここでの議論にあるように、無償の情報としては、JASPAR, GSEA (MsigDB の C3) もあります。モチーフ検索としては、Melina, DBTBS などがあります。)

3. 共発現

ともに発現している遺伝子の情報です。遺伝子Aが発現しているときに、遺伝子Xも発現しているのであれば、いっしょに機能している、または、同じような制御を受けている、と推測できるかと思います。PPI と同様に A — X のように表すことができます。矢印に方向はありません。A と X は、遺伝子を意味することが多いです。

論文や複数のマイクロアレイデータにより生成される情報です。PPI同様に、無償で公開されている傾向にあります。 GeneMANIACOXPREsdb から取得できます。

4. 文献情報

論文から、キュレーターまたは自然言語処理によって、抽出される制御関係の情報です。 「遺伝子Xが、遺伝子Aを制御している」と記述があれば、 X –> A と書けます。矢印には方向があります。また、矢印は必ずしも直接的な関係を意味しておらず、間接的に作用する場合もあり得ます(実際には、X と A の間に Y が入り、 X –> Y –> A であるなど)。さらに、X や A は、遺伝子であったり、タンパク質であったり様々です。表記法が統一されていないためです。

「既知の情報」という意味では貴重です。上記のように、間接的な情報も含まれているため、可能性の情報としては有用と思います。(すでに X –> A と報告があるというのであれば、新規性はないかもしれませんが。)

キュレーターによるものとしては、Ingenuitiy Pathway Analysis (IPA) やバイオベース社の TRANSPATH が有名です。自然言語処理を用いたものとしては、 Agilent 社の GeneSpring および、Cytoscape 用の Literature Search、Pathway Studio の MedScan などがあります。Literature Search 以外は、有償です。自然言語処理は、たいていの場合、アブストラクトのみを解析しますし、一度に処理できる論文数も限られています。(すべての論文がオープンアクセスではないことも一因と思います。)

 

投稿者:

Atsushi Doi

株式会社セルイノベーター 取締役、研究開発部部長。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

「上流解析に利用できる情報」への2件のフィードバック

コメントを残す