パスウェイやネットワークの持つ情報の制約

前に、「上流解析には、パスウェイ解析やネットワーク解析を用いる」と述べましたが、どんなパスウェイやネットワーク図であっても、上流解析ができるわけではありません。パスウェイやネットワークの図に含まれる情報には制約があります。「図の中に含まれる遺伝子、を制御している可能性のある遺伝子X」が載っていないのであれば、上流解析はできません。

例えば、KEGGに代表されるような代謝経路の図(マップ)は、代謝される物質と、それを触媒する酵素についてまとめられたマップです。そのため、ほとんどの場合、それらの酵素を制御する遺伝子についての言及はありません。

代謝経路に描かれる情報の範囲。
代謝経路に描かれる情報の範囲。

同様に、TGF-beta のパスウェイなど、既知のシグナル伝達系についてまとめられたパスウェイ(カノニカルパスウェイなどと呼ばれます)についても同様です。多くの場合、「シグナルの流れ」に注目してまとめられているため、「シグナル伝達を行う遺伝子、を制御する遺伝子」は、載っていません。

シグナル伝達系のパスウェイに描かれる情報の範囲。
シグナル伝達系のパスウェイに描かれる情報の範囲。

では、どうやって、Xを探せばよいのでしょうか?

続きます。

 

GO解析とパスウェイ解析の違い

GO解析パスウェイ解析も、解析の原理は同じと以前述べました。どちらの解析方法を使っても、発現変動した遺伝子が、どの機能(パスウェイ)に多く含まれているのか、確認できます。

しかし、この両者には、発現変動した遺伝子どうしの関係が含まれているかどうかという違いがあります。アノテーションのGene Ontology (GO) には、相互作用の情報は存在しません。GOは、アポトーシス促進、抑制といった機能を表す言葉を持ちますが、どの遺伝子がどの遺伝子に対してという from, to の情報を持っていません。(これは、ヒートマップGSEAにも言えることです。)

GO解析のイメージ。アノテーションに同じ機能を持つことが分かっても、相互作用の情報は含まれない。
GO解析のイメージ。アノテーションに同じ機能を持つことが分かっても、相互作用の情報は含まれない。

一方、パスウェイ(またはネットワーク)には、それらの相互作用の情報が含まれています。結合するのか、活性化するのか、抑制するのか、図に含まれる矢印から前後の関係を把握できます。

パスウェイ解析のイメージ。矢印で相互作用の情報が示されている。
パスウェイ解析のイメージ。矢印で相互作用の情報が示されている。
 

マイクロアレイ解析のフローチャート3(上流解析)

マイクロアレイ解析のフローチャート2までの結果として、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」が得られます。典型的なデータの場合、それは、数十から数百個の遺伝子となります。

フローチャート2までに得られた遺伝子群。
フローチャート2までに得られた遺伝子群。

次のステップとしては、いろいろ考えられます。その中でも定番ともいえる手法が、「上流解析」です。上流解析の考え方は、次のようなものです。

フローチャート2までに得られた遺伝子群は、同じ発現変動パターンを示しています。つまり、同じ遺伝子Xによって制御されているのでは?と想像します。もし、そのような遺伝子Xが存在するのであれば、その遺伝子Xの変化こそが、特定の遺伝子群を動かした原因と言えるのではないでしょうか?

特定の遺伝子群を制御するような遺伝子Xの存在。
特定の遺伝子群を制御するような遺伝子Xの存在。

マイクロアレイ解析の結果から、特定の遺伝子群が動いていた、その原因または理由を知りたいときは、この上流解析が1つの手段です。

では、どうやって、この遺伝子Xを探すのでしょうか?まず、遺伝子群をリストとして眺めていたのでは全体のイメージがつかみにくいでしょう。同じ機能を持った遺伝子どうしは、シグナル伝達や転写制御など、何らかの制御関係を持っているはずです。よって、それらの情報とともに見ることで、遺伝子どうしの前後関係がつかみやすくなります。これを行うのが、パスウェイ解析ネットワーク解析と呼ばれる手法です。

変動した遺伝子群をパスウェイネットワークの図に当てはめてみて、そこから、遺伝子Xを探そうというものです。

パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。
パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。

 

 

特定の遺伝子を含むパスウェイの検索

「ある特定の遺伝子が、どのパスウェイに載っているのか?」知りたいことがあると思います。この場合、 NCBI で検索することで、簡単にパスウェイの一覧を得ることができます。

1. NCBI で検索

(1) NCBI のサイトで、対象に “Gene” を選択します。(2) 目的となる遺伝子の名前(Official Gene Symbol など)を入力します。(3) Search をクリックします。

NCBI_Gene_Search
NCBIで検索。

2. 検索結果

検索した遺伝子の候補が表示されます。生物種などを手がかりに、目的の遺伝子を選択します。

NCBI_Search_Result
検索結果、候補の遺伝子。

3. 遺伝子の詳細な情報

目的となる遺伝子の詳細な情報が表示されます。さまざまな情報を確認できますが、画面をずっと下までスクロールさせていくと、”Pathways from BioSystems” という項目があります。

Search_Result_Detail
遺伝子の詳細な情報。

4. Pathways from BioSystems

パスウェイの一覧が見つかります。パスウェイは、各パスウェイデータベースの情報とリンクしています。同じ名前のパスウェイであっても、元となるパスウェイデータベースによって中身が少しずつ異なっています。また、パスウェイとして扱われていても、パスウェイのマップ(ダイアグラム、絵)が描かれていないものも多数あります。KEGGパスウェイデータベースのマップが一番参考になると思います。

Pathways_from_BioSystems
パスウェイの一覧。
 

パスウェイの作成方法の違い

パスウェイデータベースによって、パスウェイの作成方法は異なります。

キュレーターによるパスウェイ

KEGG や BIOBASE 、 Ingenuity Pathway Analysis などは、おもに研究者が生化学や医学の文献を読み、そこに文章で記述されていた内容をパスウェイの図として描くことで作成されています。この文献情報をチェックしている研究者は、「キュレーター」と呼ばれます。

例えば、「タンパクAがタンパクBをリン酸化によって活性化している」という記述があれば、AからBへ活性化の矢印を引くというような作業となります。これを1本1本の矢印について行うことで、パスウェイは作成されます。

自然言語処理によるパスウェイ

一方、キュレーターに頼らず、パスウェイを作成する方法もあります。その中の1つが、自然言語処理 (natural language processing) によるものです。これは、 PubMed などに登録された論文の要旨 (Abstract) の記述をコンピューターで処理することで、前述のような表現を抽出して、パスウェイの矢印を作成する方法です。 Agilent 社の GeneSpring や、 Ariadone Genomics 社の Pathway Studio などが、この手法を用いています。

手法による長所と短所

それぞれの手法に一長一短があります。キュレーターによるパスウェイは、人手による作業になるため、抽出される情報は、読まれた論文に依存します。すべての論文の情報がチェックされているとは限りませんが、「整理された情報」である点は魅力です。

自然言語処理は、手作業で作成するよりも網羅的な情報の抽出が可能ですが、コンピューターに完全に文脈が判断できるわけではありません。(一般的にコンピューターは、あいまいな表現が苦手です。)また、大量に情報が取得できる反面、情報量が多すぎて判断に困るということもあります。(大量の情報というのは魅力でもありますが。)