パスウェイやネットワークの持つ情報の制約

前に、「上流解析には、パスウェイ解析やネットワーク解析を用いる」と述べましたが、どんなパスウェイやネットワーク図であっても、上流解析ができるわけではありません。パスウェイやネットワークの図に含まれる情報には制約があります。「図の中に含まれる遺伝子、を制御している可能性のある遺伝子X」が載っていないのであれば、上流解析はできません。

例えば、KEGGに代表されるような代謝経路の図(マップ)は、代謝される物質と、それを触媒する酵素についてまとめられたマップです。そのため、ほとんどの場合、それらの酵素を制御する遺伝子についての言及はありません。

代謝経路に描かれる情報の範囲。
代謝経路に描かれる情報の範囲。

同様に、TGF-beta のパスウェイなど、既知のシグナル伝達系についてまとめられたパスウェイ(カノニカルパスウェイなどと呼ばれます)についても同様です。多くの場合、「シグナルの流れ」に注目してまとめられているため、「シグナル伝達を行う遺伝子、を制御する遺伝子」は、載っていません。

シグナル伝達系のパスウェイに描かれる情報の範囲。
シグナル伝達系のパスウェイに描かれる情報の範囲。

では、どうやって、Xを探せばよいのでしょうか?

続きます。

 

STRING

STRING は、タンパク質間相互作用 (Protein-Protein Interaction: PPI) のデータベースです。STRING GeneMANIA のようにネットワーク図を得ることができます。

使い方も同様です。(1) タンパク名を入力し、(2) 生物種を選択、 (3) GO ! をクリックするだけです。

STRING: タンパク質間相互作用のデータベース。
STRING: タンパク質間相互作用のデータベース。

ネットワーク図が表示されます。タンパク質をつなぐ線は、色によって、どの情報由来か示されています。例えば、黄緑色は、Textmining によって得られた関係を示します。

ANXA5 で検索した例。
ANXA5 で検索した例。

視覚的なネットワーク図を得られますが、GeneMANIAと比べると、ネットワークの情報量は少なめでしょうか。(+のアイコンをクリックして、拡張することもできます。)

ネットワーク図の例。
ネットワーク図の例。

* STRING v9.1: protein-protein interaction networks, with increased coverage and integration, Nucl. Acids Res. (1 January 2013) 41 (D1): D808-D815. doi: 10.1093/nar/gks1094

 

GO解析とパスウェイ解析の違い

GO解析パスウェイ解析も、解析の原理は同じと以前述べました。どちらの解析方法を使っても、発現変動した遺伝子が、どの機能(パスウェイ)に多く含まれているのか、確認できます。

しかし、この両者には、発現変動した遺伝子どうしの関係が含まれているかどうかという違いがあります。アノテーションのGene Ontology (GO) には、相互作用の情報は存在しません。GOは、アポトーシス促進、抑制といった機能を表す言葉を持ちますが、どの遺伝子がどの遺伝子に対してという from, to の情報を持っていません。(これは、ヒートマップGSEAにも言えることです。)

GO解析のイメージ。アノテーションに同じ機能を持つことが分かっても、相互作用の情報は含まれない。
GO解析のイメージ。アノテーションに同じ機能を持つことが分かっても、相互作用の情報は含まれない。

一方、パスウェイ(またはネットワーク)には、それらの相互作用の情報が含まれています。結合するのか、活性化するのか、抑制するのか、図に含まれる矢印から前後の関係を把握できます。

パスウェイ解析のイメージ。矢印で相互作用の情報が示されている。
パスウェイ解析のイメージ。矢印で相互作用の情報が示されている。
 

マイクロアレイ解析のフローチャート3(上流解析)

マイクロアレイ解析のフローチャート2までの結果として、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」が得られます。典型的なデータの場合、それは、数十から数百個の遺伝子となります。

フローチャート2までに得られた遺伝子群。
フローチャート2までに得られた遺伝子群。

次のステップとしては、いろいろ考えられます。その中でも定番ともいえる手法が、「上流解析」です。上流解析の考え方は、次のようなものです。

フローチャート2までに得られた遺伝子群は、同じ発現変動パターンを示しています。つまり、同じ遺伝子Xによって制御されているのでは?と想像します。もし、そのような遺伝子Xが存在するのであれば、その遺伝子Xの変化こそが、特定の遺伝子群を動かした原因と言えるのではないでしょうか?

特定の遺伝子群を制御するような遺伝子Xの存在。
特定の遺伝子群を制御するような遺伝子Xの存在。

マイクロアレイ解析の結果から、特定の遺伝子群が動いていた、その原因または理由を知りたいときは、この上流解析が1つの手段です。

では、どうやって、この遺伝子Xを探すのでしょうか?まず、遺伝子群をリストとして眺めていたのでは全体のイメージがつかみにくいでしょう。同じ機能を持った遺伝子どうしは、シグナル伝達や転写制御など、何らかの制御関係を持っているはずです。よって、それらの情報とともに見ることで、遺伝子どうしの前後関係がつかみやすくなります。これを行うのが、パスウェイ解析ネットワーク解析と呼ばれる手法です。

変動した遺伝子群をパスウェイネットワークの図に当てはめてみて、そこから、遺伝子Xを探そうというものです。

パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。
パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。

 

 

log fold-change (=logFC or log ratio) の算出方法の確認(解答)

前投稿の解答です。WT と KO に、それぞれ具体的な値を入れてみると、分かりやすいかもしれません。

たとえば、WT = 128, KO = 256 であったとします。ratio = KO/WT なので、 256/128 = 2 となり、通常の ratio は、2 です。つまり、2倍に増加したことになります。では、logFC では、どうでしょうか?

  1. 先に log2 変換するので、式で書くと、 log2(KO) / log2(WT) となります。log2(256) = 8, log2(128) = 7 なので、logFC = 8/7 = 1.142 ?? 間違いです。
  2. 後で log2 変換するので、式で書くと、 log2(KO/WT) となります。 log2(256/128) = log2(2) = 1 で、正しいです。
  3. log2 変換してから、差をとります。式では、 log2(KO) – log2(WT) となります。log2(256) – log2(128) = 8-7 = 1 で、これも正しいです。
  4. 先に差をとってから、log2 変換するので、 log2(KO – WT) と書けます。log2(256 – 128) = log2 (128) = 7 ?? 間違いです。
  5. WT = 128, KO = 256 なら、logFC = 2 ?? WT = 256, KO = 128 なら logFC = -2 ?? 間違いです。

正解は、 2. と 3. です。どちらの計算方法でもよいのですが、log2変換されていれば、割り算ではないことに注意が必要です。

計算に用いているシグナル値が、log2変換された値 (log2-transformed) なのか、log2変換されていない値 (non-log) かを確認しておきましょう。