転写因子を抽出(GOを使って)

マイクロアレイ解析の結果、発現が変動した遺伝子のうち、転写因子を抽出するには、どうすればよいでしょうか?

発現変動遺伝子のリストがエクセルの形式であるならば、アノテーションのうち、GOを検索する方法が考えられます。

何を選ぶ?

では、転写因子を抽出するには、どの GO を選べばよいでしょうか?これは意外に難しい問題でもあります。

まず、どのような用語が GO に登録されているか、AmiGOで探してみます。AmiGOを “transcription facotr” で検索すると、223個もの用語がヒットします。

AmiGO を "transcription factor" で検索した結果。
AmiGO を “transcription factor” で検索した結果。

どれを選べばよいか迷ってしまうため、GOの階層構造に注目します。GOに登録された用語は、階層化されており、上位の階層に属している用語を選べば、その下位に属している用語も包括的に扱えるはずです。

上位の用語(ターム)でいいのか?

そこで、上位の階層を探してみると、上から2階層目に、 “GO:0001071 nucleic acid binding transcription factor activity” という用語が見つかります。これをアノテーションに持つ遺伝子は、 825 個(マウスの場合)あるようです。

GO:0001071 nucleic acid binding transcription factor activity
GO:0001071 nucleic acid binding transcription factor activity

 

いっけん、これでよいように思われるかもしれませんが、この用語のコメント欄を確認すると、 “Note that this term is in the subset of terms that should not be used for direct gene product annotation.” と書かれています。つまり、このような解析には、不向きな用語ということになります。

適切な用語は?

転写因子を示す用語としては、 “GO:0006351 transcription, DNA-templated” をお勧めします。名称からはピンとこないかもしれませんが、AmiGOで確認すると、この用語をアノテーションに持つ遺伝子は、2701個(マウスの場合)であることも確認できます。

GO:0006351 transcription, DNA-templated
GO:0006351 transcription, DNA-templated

このようなケースは転写因子に限りません。適切な用語を選択するには、ある程度、GOのクセや構造を理解することが必要となります。

 

投稿者:

Atsushi Doi

株式会社セルイノベーター、主任研究員。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください