KEGG パスウェイの色付け:指定したはずの色にならない

KEGG パスウェイの色付けを行う場合は、いくつか注意点があります。特に、パスウェイ上の1つのシンボルに、複数の遺伝子が含まれている状態を考慮する必要があります。

1つのシンボルに複数の遺伝子が含まれる

ファミリーやバリエーションのある遺伝子の場合、KEGGでは、複数の遺伝子を1つのシンボルでまとめて表記している場合があります。例えば、 PI3K などです。PI3K のシンボルには、 PIK3R5, PIK3CA, PIK3CB, … などがまとめられています。

シンボルにどの遺伝子が割り当てられているかは、各シンボルをマウスでポイントする(=カーソルを合わせてしばらく動かさない)ことで確認できます。

シンボルをマウスでポイントすると、含まれている遺伝子名がわかります。
シンボルをマウスでポイントすると、含まれている遺伝子名がわかります。

指定したはずの色にならない

1つのシンボルに、複数の遺伝子が割り当てられている場合、複数の色を指定したとしても、いずれかの遺伝子の色が割り当てられます。

KEGG Mapper で、1つのシンボルに複数の色を指定した例。
KEGG Mapper で、1つのシンボルに複数の色を指定した例。

例えば、 PI3K のシンボルに含まれている 5290 (PIK3CA)23533 (PIK3R5)、に指定した場合、KEGG Mapper の結果において PI3K は、になります。 この場合、 23533 の色のみが使用されています。後に指定したほうが優先されるというわけではなく、ポイントしたときに表示される順が早い遺伝子の色を採用しているようです。(詳しくはわかりません。)

この結果、発現が下がっていたので、く表示したかったとしても、に表示されるというように、指定したはずの色にならないケースがありえます。(矛盾した結果というわけではなく、ファミリーに含まれている遺伝子の変動の向きが一致しないことはしばしばあります。むしろ、全てのファミリーが同じ方向に変動したというデータを見ることが稀のように思います。)

パスウェイを発現変動遺伝子で色付けしたとしても、最終的には、エクセルに戻って、実際の ratio やシグナル値の値を確認するようにしましょう。

 

KEGG パスウェイ色付け (KEGG WebLinks)

KEGG Mapper による色付けでは、1つのシンボルの色は、1色しか指定できません。そのため、解析例1のようなタイムコースのデータの場合、パスウェイ上での色の変化を時系列で観察するには、各タイムポイントの比較結果ごとに色付けを繰り返し行うことになります。

タイムコースデータの色付け

解析例1の場合は、16hr, 24hr, 40hr の3パターンの比較結果があるので、3回色付けを行います。前回は、24hr の結果で色付けを行っていました。このデータの場合、16hr は1つも色がつかない(変動している遺伝子が KEGG の Apoptosis にヒットしない)ので省略します。40hr の変動遺伝子を色付けした結果を下図に示します。

40hr の発現変動遺伝子を色付けした場合。
40hr の発現変動遺伝子を色付けした場合。

24hr の結果と比べると、PKAに色がつかなくなっています。これらの色付けされたパスウェイの図だけを見るならば、 16hr で1つも色がつかず、24hr, 40hr で CASP12 などが増加しているように見えるため、 Apoptosis が活性化しているような印象を与えるかもしれません。(閾値ぎりぎりで、変動ありとなっていない場合もありますので、正確には、エクセルなどでシグナル値をチェックする必要があります。)

KEGG WebLinks の利用

このように、複数のパターンで(or 複数のパスウェイに対して)色付けする必要がある場合は、 KEGG WebLinks を利用するのが便利です。

KEGG WebLinks の書式。
KEGG WebLinks の書式。

URL (リンク)に決まった書式(フォーマット)で、 IDカラーを指定することで、色付けしたパスウェイの結果にアクセスできます。

今回の例であれば、下記のようなアドレスとなります。(詳しい書式は、KEGG WebLinks のページを参照してください。)

http://www.kegg.jp/kegg-bin/show_pathway?map=hsa04210&multi_query=100506742+%23FF6699%2C%23000000%0A23533+%23FF6699%2C%23000000%0A

KEGG WebLinks を利用することで、直接結果にアクセスできるため、前回のようなフォームに入力する手間を省くことができます。

 

マイクロアレイデータの解析例 1.8 (KEGG パスウェイに ratio で色付けする)

発現変動遺伝子を抽出した結果、特定のパスウェイの変動を確認するには、 KEGG パスウェイデータベースを利用できます。

KEGG のパスウェイのうち、「どのパスウェイに発現変動遺伝子が多く含まれるか」は、DAVID の結果からも確認できます。しかし、その場合は、パスウェイ上の発現変動遺伝子が☆印で示されるだけであり、増加しているのか、減少しているのかは、すぐには確認できません。(元のエクセルファイルで ratio をチェックすることになります。)

KEGG パスウェイに ratio で色付けする

KEGG には、 KEGG Mapper というサービスがあります。このサービスを使えば、特定のパスウェイの遺伝子に、増加したものは減少したものは、といった具合に色付けができます。

KEGG Mapper による色付けの指定。
KEGG Mapper による色付けの指定。

KEGG Mapper の Search against に生物種名を指定します。human なら、hsa になります。(mouse は、 mmu)

フィールドの中に、 EntrezGeneIDcolorスペース区切りで入力します。複数の遺伝子に色付けする場合は、さらに , (カンマ)と改行で区切って続けます。

どの遺伝子を、どの色にするかは、発現変動遺伝子のリストを元に ratio の値を確認して、決めてください。上の例では、解析例1の 24hr の比較 (sample2/control2) において増加していた3つの遺伝子を指定しています。(この段階で、色付けしたいパスウェイの名前を指定する必要はありません。)

下部の Exec をクリックすると、検索結果の一覧が表示されます。

パスウェイの検索結果。
パスウェイの検索結果。

前述のフィールドに入力した遺伝子が、多くヒットしたパスウェイの順に検索結果が表示されます。さらに、パスウェイの名前をクリックして、色付けの結果を確認します。

ratio で色付けされたパスウェイの例。
ratio で色付けされたパスウェイの例。

エクセルのデータから確認できるように、このパスウェイ上の遺伝子のうち、変動していたのは3つだけでした。増加していたものがありましたが、減少したものはありません。DAVIDの結果によると、Apoptosis のアノテーションを持つものは 20 個程度あるはずですが、そのうちの3遺伝子が KEGG に登録されていたことになります。(全ての遺伝子がパスウェイ上に表示されるわけではありません。)

この結果からも、アポトーシスが活性化されたというには、今ひとつ説得力に欠けるように思います(数が少ない)。CASP3 につながる CASP12 は増加していますが、 CASP3 は変動していません。ただ、 CASP3 のシグナル値を確認すると、5000程度はあるので、発現していないわけではないと考えられます。タンパクレベルで、活性化されるのであれば、mRNAの変動はなくても説明がつくのかもしれません。

 

Molecular Signatures Database (MSigDB)

「遺伝子セット」のデータベースが、 Molecular Signatures Database (MSigDB) です。Broad institute の GSEA 内にあります。メールアドレスを登録することで閲覧が可能です。

MSigDB top
MSigDB のトップページ。

遺伝子セット

MSigDB の遺伝子セットは、大きく分けて6つのコレクションから構成されています。

  • c1: positional gene sets, 染色体の座標によるもの。
  • c2: curated gene sets, キュレーターが論文から取り出したもの。
  • c3: motif gene sets, 転写制御のモチーフごとのリスト。
  • c4: computational gene sets: がん由来のマイクロアレイデータをコンピューターで分析して作成したリスト
  • c5: GO gene sets, Gene Ontology (GO) から作成したリスト。
  • c6: oncogenic signatures, さまざまな因子の影響下にある、がん細胞のマイクロアレイデータから作成したリスト。

MSigDB の代表的な遺伝子セットとしては、c2 の論文から取得されたリストでしょう。論文に書かれた遺伝子群をキュレーターがチェックして、遺伝子セットとして登録しています。また、この中には、BioCarta, KEGG, Reactome など、パスウェイに関するリストも含まれています。また、 c5 には、GO から得られた遺伝子セットもあります。つまり、GSEA を行うと、パスウェイ解析GO解析も同時に行えるといえます。(パスウェイの色づけはなく、アノテーションが最新とは限らないため、完全な代用にはなりませんが。)

> Subramanian, Tamayo, et al. (2005, PNAS 102, 15545-15550)

 

Gene Set Enrichment Analysis (GSEA)

Gene Set Enrichment Analysis (GSEA) は、GO解析パスウェイ解析、に並んで、よく用いられる解析手法の1つです。

後者の2つの解析は、原理的には、遺伝子発現が増加または減少した遺伝子群を多く含む「特定の遺伝子群」を探すというものでした。この「特定の遺伝子群」が、あるキーワードをアノテーションに持つ遺伝子群であったり(GO解析)、あるパスウェイに載っている遺伝子群であったり(パスウェイ解析)するわけです。

この「特定の遺伝子群」を「遺伝子セット (Gene Set)」として、あらかじめ準備しておき、増加または減少した遺伝子群が、どの「遺伝子セット」に多く含まれているかを調べるのが、Gene Set Enrichment Analysis (GSEA) です。

GSEA
GSEA のサイト。

例えば、GSEA遺伝子セットには、「stem cell で発現が増加していた遺伝子群」があります。これは論文 (Pubmed 12228720) の情報をもとに作成された遺伝子セットです。このような遺伝子セットは、キュレーターによって登録されており、Molecular Signatures Database (MSigDB) と呼ばれるデータベースとして公開されています。

a gene set
遺伝子セットの例。

GSEA の利用、MSigDB の閲覧には、メールアドレスの登録が必要です。

> Subramanian,Tamayo, et al. (2005, PNAS 102, 15545-15550) and Mootha, Lindgren, et al. (2003, Nat Genet 34, 267-273).