転写因子を抽出(GOを使って)

マイクロアレイ解析の結果、発現が変動した遺伝子のうち、転写因子を抽出するには、どうすればよいでしょうか?

発現変動遺伝子のリストがエクセルの形式であるならば、アノテーションのうち、GOを検索する方法が考えられます。

何を選ぶ?

では、転写因子を抽出するには、どの GO を選べばよいでしょうか?これは意外に難しい問題でもあります。

まず、どのような用語が GO に登録されているか、AmiGOで探してみます。AmiGOを “transcription facotr” で検索すると、223個もの用語がヒットします。

AmiGO を "transcription factor" で検索した結果。
AmiGO を “transcription factor” で検索した結果。

続きを読む 転写因子を抽出(GOを使って)

 

NF-kB のターゲットとなる遺伝子を調べるには?

マイクロアレイ解析の結果、確認したくなるのは、特定の生物学的な機能を持った遺伝子の変動パターン(増加したか減少したか)だと思います。この特定の機能を持った遺伝子のリストは、GOなどのアノテーションを見れば分かる場合もありますが、そうでない場合もあります。

例えば、転写因子である NF-kB のターゲットとなる遺伝子(制御される遺伝子、下流の遺伝子)は、アノテーションの情報からは知ることができません。このような場合では、インターネット上に公開された情報が役立つことがあります。

続きを読む NF-kB のターゲットとなる遺伝子を調べるには?

 

マイクロアレイ解析のフローチャート3(その前に)

マイクロアレイ解析のフローチャート2までに得られたのは、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」でした。例えば、「炎症系の遺伝子が増加していた」ということが分かったとしましょう。

次のステップに移る前に、まず、ここで考慮すべきポイントがあります。それは、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」ではない、ということです。

意外に思われる方も少なくないのではないでしょうか?ここにアノテーションの問題があります。

ポイント1

第1に、「炎症系の遺伝子」というアノテーションには、「炎症を活性化する遺伝子」と「炎症を抑制する遺伝子」の両方が含まれています。

GO:0006954: inflammatory response には、 GO:0050728: negative regulation of inflammatory response と GO:0050729: positive regulation of inflammatory response が含まれます。

inflammatory response には、 negative と positive 2つの regulation が含まれる。
inflammatory response には、 negative と positive 2つの regulation が含まれる。

ポイント2

第2に、アノテーションの情報は更新され続けており、完全ではありません。まだ、活性とも抑制とも書かれていないこともありますし、活性抑制のどちらも書かれていることもあります。(おそらくは、ある条件下で逆の働きをすることもあるのでしょう。)例えば、 Angiotensinogen (AGT) は、 negative regulation of neuron apoptotic processpositive regulation of apoptotic process の両方をアノテーションに持ちます。

AGT は、apoptosis に対して抑制と活性のどちらか?
AGT は、apoptosis に対して抑制と活性のどちらか?

ポイント3

第3に生体内の多くの現象が、フィードバックにより恒常性を保っています。よって、ある現象を活性化させる遺伝子の発現が増加したとき、負のフィードバックが働き、その遺伝子を抑制する遺伝子も増加してくることが予想されます。したがって、ある現象を活性化する遺伝子抑制する遺伝子の両方が増加していても、それほど不自然ではないと言えるでしょう。フィードバックループの例としては時計遺伝子がよく知られています。

フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。
フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。

例えば、肝硬変でコラーゲンの産生が過多になっているような組織であれば、コラーゲンの遺伝子である COL1A1 の発現が高く、同時にコラーゲンを分解する MMP の発現も高いという状況が予想されます。MMPによる分解が追いついていないだけと考えれば、矛盾した状態とは言えないでしょう。

以上のようなことから、マイクロアレイデータのみを根拠に、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」と結論づけることは困難と考えられます。

 

GO解析(2)

GO解析の考え方

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)の中に、「特定の用語(機能、キーワード)をアノテーションに持つ遺伝子が多い」ことを述べるには、下記の2つの点を考慮する必要があります。

  1. その用語をアノテーションに持つ遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. について

もともとゲノム中に多く含まれる機能は、当然、発現変動遺伝子群においても見つかりやすいです。たとえば、 GO:0005488 : binding は、ほとんどの遺伝子がこの機能をアノテーションされています。(何らかのタンパクと結合することが考えられますので、当然といえます。)GO:0016020 : membrane などもそうです。ほとんどの遺伝子は、膜系か、それ以外に分類されるためです。

「当たり」が多く含まれている宝くじを引いていることをイメージするとよいでしょう。それでは当たったことが重要にはなりません。

2. について

発現が増加または、減少した遺伝子の数が多い場合、あらゆる機能の遺伝子が見つかりやすくなります。マイクロアレイデータによっては、3000個以上の遺伝子が増加、減少していることもあります。この状態では、ほぼすべての機能の遺伝子が含まれていて当然と考えられます。

宝くじをたくさん引いていることをイメージするとよいでしょう。何度も挑戦することで、当然、当たりやすくなるため、当たったことの重要性は薄れます。

好ましい状態

上記を考慮すると、最も重要性が高くなるのは、次の条件です。

「もともとゲノム中に数少なく見られる機能を持つ遺伝子が、少ない発現変動遺伝子群に数多く含まれている。」

言い換えると、「ゲノム中(4万個)に10個程度しか含まれない遺伝子が、マイクロアレイ解析の結果、変動していた100個の遺伝子群の中に、8個も見つかった」というような状況です。(数字は適当です。)

DAVID の解析結果などに表示されている GO についた p-valueEnrichment Score は、上記の点を考慮して算出されたものです。 p-value < 0.05 であれば、偶然ではないことが主張できます。

 

GO解析 (1)

GO解析とは

マイクロアレイ解析の結果、まず得られるのは、発現が増加または減少した遺伝子(発現変動遺伝子)のリストです。一般的には、エクセルの表の形で扱われることが多いと思います。

そのリストを眺めて(または検索して)いると、「特定のGO用語(機能、キーワード)が多く含まれているようだ」ということが直感的に分かると思います。

例えば、GOの列に GO:0006954 : inflammatory response が多いなぁ、というように。

では、どれくらいの頻度で見つかれば、特定の用語が見つかる頻度が高い(エンリッチされている)と言えるのでしょうか?発現変動遺伝子が100個あったとして、10個見つかれば、いいほうなのでしょうか?何個 “inflammatory response” が見つかれば、「マイクロアレイ解析の結果、炎症系の遺伝子に影響があった」と言えるのでしょうか?

これに答えるのが、「GO解析」です。GO解析(2) へ。