KEGG パスウェイの色付け:指定したはずの色にならない

KEGG パスウェイの色付けを行う場合は、いくつか注意点があります。特に、パスウェイ上の1つのシンボルに、複数の遺伝子が含まれている状態を考慮する必要があります。

1つのシンボルに複数の遺伝子が含まれる

ファミリーやバリエーションのある遺伝子の場合、KEGGでは、複数の遺伝子を1つのシンボルでまとめて表記している場合があります。例えば、 PI3K などです。PI3K のシンボルには、 PIK3R5, PIK3CA, PIK3CB, … などがまとめられています。

シンボルにどの遺伝子が割り当てられているかは、各シンボルをマウスでポイントする(=カーソルを合わせてしばらく動かさない)ことで確認できます。

シンボルをマウスでポイントすると、含まれている遺伝子名がわかります。
シンボルをマウスでポイントすると、含まれている遺伝子名がわかります。

指定したはずの色にならない

1つのシンボルに、複数の遺伝子が割り当てられている場合、複数の色を指定したとしても、いずれかの遺伝子の色が割り当てられます。

KEGG Mapper で、1つのシンボルに複数の色を指定した例。
KEGG Mapper で、1つのシンボルに複数の色を指定した例。

例えば、 PI3K のシンボルに含まれている 5290 (PIK3CA)23533 (PIK3R5)、に指定した場合、KEGG Mapper の結果において PI3K は、になります。 この場合、 23533 の色のみが使用されています。後に指定したほうが優先されるというわけではなく、ポイントしたときに表示される順が早い遺伝子の色を採用しているようです。(詳しくはわかりません。)

この結果、発現が下がっていたので、く表示したかったとしても、に表示されるというように、指定したはずの色にならないケースがありえます。(矛盾した結果というわけではなく、ファミリーに含まれている遺伝子の変動の向きが一致しないことはしばしばあります。むしろ、全てのファミリーが同じ方向に変動したというデータを見ることが稀のように思います。)

パスウェイを発現変動遺伝子で色付けしたとしても、最終的には、エクセルに戻って、実際の ratio やシグナル値の値を確認するようにしましょう。

 

よくある疑問・質問 (1): 増殖しているかどうかを判定できますか?

Q: 発現解析(マイクロアレイ解析)で、細胞が増殖しているかどうか、判定できますか?

 

A: マイクロアレイデータだけから、そのサンプルが増殖状態にあるのかどうか判別するのは困難です。「増殖系に影響が出ていること」は分かります。

発現変動遺伝子を DAVID にかけることで、細胞周期 (Cell Cycle) 関連遺伝子が含まれているかどうかのチェックは可能です。しかしながら、こちらでも述べているように、アノテーションの問題から、単純にヒットした遺伝子の「」だけで、結論づけることはできません。(可能性を述べるだけならできます。)

また、DAVID の結果、 Enrichment Score が 1.3 以上あり、有意と判定されたとしても、それは、増殖系の遺伝子が変動していたことを意味するだけであり、細胞数が増えているのか、減っているのかを判別するだけの効果はありません

さらに、増殖系の遺伝子のうち、増加している遺伝子が多い=細胞が増えている減少している遺伝子が多い=細胞が減っているというわけでもありません。Cell Cycle 関連遺伝子といっても、細胞周期停止に関わっている遺伝子が増加すれば、細胞数は増えないでしょうし、その逆もあります。(アノテーションの問題を参照。)

細胞数が増えているかどうかを考慮するには、細胞周期だけではなく、アポトーシスの影響も考慮する必要もあるでしょう。細胞周期の遺伝子以上に、アポトーシス系が活性化されているような状況であれば、細胞数は減ることになるかもしれません。

以上のようなことから、増殖しているかどうか(増えているのか減っているのか)を判定するには、マイクロアレイデータだけではなく、フェノタイプやタンパクの状態などを確認しなければなりません。これはマイクロアレイに限った話ではないと思います。次世代シーケンサーのデータであっても同様の課題を抱えたままです。

これは、マイクロアレイデータが使えないと言っているわけではありません。「増殖状態にあるのに、機能解析の結果、Cell Cycle の遺伝子が数個しかヒットしない」という状況は考えにくいでしょう。細胞数の増減は区別できないとしても、少なくとも、「増殖系に影響が出ている」ということは、マイクロアレイデータから十分わかります。

 

遺伝子名 (Gene Symbol) が変わる??

遺伝子名として、一般的なものは、 NCBI の Official Symbol でしょう。単に Gene Symbol と呼ばれたり、 Gene Name と呼ばれることもあります。

この遺伝子名 (Official Symbol) は、現在でも更新が続けられています。そのため、突然、これまで使用していた遺伝子名が変わってしまうということがありえます。

例えば、MDM2遺伝子は、以前 hdm2 と呼ばれていました。以前の呼び名は、各遺伝子のページの “Also known as” というところに一覧として載せてあります。そのため、以前の呼び名で、NCBIを検索しても見つけることができます。

MDM2遺伝子の別名。
MDM2遺伝子の別名。

どうやら、慣習的によく使われている名前であっても変更されることがあるようです。マイクロアレイ解析の結果においては、遺伝子名として、この Official Symbol を使用しますので、更新されていることに気がつかないと、変動しているはずの遺伝子を見つけられないということにもなります。

ちなみに、 MDM2 とすべて大文字で書いてある場合は、ヒトの遺伝子を示すことが多いです。その遺伝子のマウスのホモログは、 Mdm2 と、先頭だけ大文字にすると対応が取れることが多いです。

 

転写因子を抽出(GOを使って)

マイクロアレイ解析の結果、発現が変動した遺伝子のうち、転写因子を抽出するには、どうすればよいでしょうか?

発現変動遺伝子のリストがエクセルの形式であるならば、アノテーションのうち、GOを検索する方法が考えられます。

何を選ぶ?

では、転写因子を抽出するには、どの GO を選べばよいでしょうか?これは意外に難しい問題でもあります。

まず、どのような用語が GO に登録されているか、AmiGOで探してみます。AmiGOを “transcription facotr” で検索すると、223個もの用語がヒットします。

AmiGO を "transcription factor" で検索した結果。
AmiGO を “transcription factor” で検索した結果。

続きを読む 転写因子を抽出(GOを使って)

 

NF-kB のターゲットとなる遺伝子を調べるには?

マイクロアレイ解析の結果、確認したくなるのは、特定の生物学的な機能を持った遺伝子の変動パターン(増加したか減少したか)だと思います。この特定の機能を持った遺伝子のリストは、GOなどのアノテーションを見れば分かる場合もありますが、そうでない場合もあります。

例えば、転写因子である NF-kB のターゲットとなる遺伝子(制御される遺伝子、下流の遺伝子)は、アノテーションの情報からは知ることができません。このような場合では、インターネット上に公開された情報が役立つことがあります。

続きを読む NF-kB のターゲットとなる遺伝子を調べるには?