Molecular Signatures Database (MSigDB)

「遺伝子セット」のデータベースが、 Molecular Signatures Database (MSigDB) です。Broad institute の GSEA 内にあります。メールアドレスを登録することで閲覧が可能です。

MSigDB top
MSigDB のトップページ。

遺伝子セット

MSigDB の遺伝子セットは、大きく分けて6つのコレクションから構成されています。

  • c1: positional gene sets, 染色体の座標によるもの。
  • c2: curated gene sets, キュレーターが論文から取り出したもの。
  • c3: motif gene sets, 転写制御のモチーフごとのリスト。
  • c4: computational gene sets: がん由来のマイクロアレイデータをコンピューターで分析して作成したリスト
  • c5: GO gene sets, Gene Ontology (GO) から作成したリスト。
  • c6: oncogenic signatures, さまざまな因子の影響下にある、がん細胞のマイクロアレイデータから作成したリスト。

MSigDB の代表的な遺伝子セットとしては、c2 の論文から取得されたリストでしょう。論文に書かれた遺伝子群をキュレーターがチェックして、遺伝子セットとして登録しています。また、この中には、BioCarta, KEGG, Reactome など、パスウェイに関するリストも含まれています。また、 c5 には、GO から得られた遺伝子セットもあります。つまり、GSEA を行うと、パスウェイ解析GO解析も同時に行えるといえます。(パスウェイの色づけはなく、アノテーションが最新とは限らないため、完全な代用にはなりませんが。)

> Subramanian, Tamayo, et al. (2005, PNAS 102, 15545-15550)

 

Gene Set Enrichment Analysis (GSEA)

Gene Set Enrichment Analysis (GSEA) は、GO解析パスウェイ解析、に並んで、よく用いられる解析手法の1つです。

後者の2つの解析は、原理的には、遺伝子発現が増加または減少した遺伝子群を多く含む「特定の遺伝子群」を探すというものでした。この「特定の遺伝子群」が、あるキーワードをアノテーションに持つ遺伝子群であったり(GO解析)、あるパスウェイに載っている遺伝子群であったり(パスウェイ解析)するわけです。

この「特定の遺伝子群」を「遺伝子セット (Gene Set)」として、あらかじめ準備しておき、増加または減少した遺伝子群が、どの「遺伝子セット」に多く含まれているかを調べるのが、Gene Set Enrichment Analysis (GSEA) です。

GSEA
GSEA のサイト。

例えば、GSEA遺伝子セットには、「stem cell で発現が増加していた遺伝子群」があります。これは論文 (Pubmed 12228720) の情報をもとに作成された遺伝子セットです。このような遺伝子セットは、キュレーターによって登録されており、Molecular Signatures Database (MSigDB) と呼ばれるデータベースとして公開されています。

a gene set
遺伝子セットの例。

GSEA の利用、MSigDB の閲覧には、メールアドレスの登録が必要です。

> Subramanian,Tamayo, et al. (2005, PNAS 102, 15545-15550) and Mootha, Lindgren, et al. (2003, Nat Genet 34, 267-273).

 

Mouse Genome Informatics (MGI)

マウスの遺伝子情報のデータベースといえば、 “MGI” です。マウスの株や、ノックアウトの種類、遺伝子のアノテーション (GO) など、 マウスに関する様々な情報が登録されています。

この MGI を使って、特定の組織で発現していることが確認されたマウスの遺伝子を検索できます。

(1) まず、トップページから、 Expression を選択します。

MGI top
MGIのトップページ。Expression を選択

(2) Gene Expression Database (GXD) が表示されます。”Gene Expression Data Query” を選択します。

GXD の画面。Gene Expression Data Query を選択。
GXD の画面。Gene Expression Data Query を選択。

(3) 検索画面が表示されるので、組織の名称を入力します。さらにステージで絞り込むこともできます。

検索画面。組織の名称を入力。
検索画面。組織の名称を入力。

(4) 検索結果が表示されます。GXD では、マイクロアレイに限らず、いろいろな実験で発現を用いて確認された遺伝子の情報があります。主に論文で示された情報が根拠となっています。

MGI Gene Expression Data Query result
検索結果。

 

 

 

COXPRESdb: 共に発現している遺伝子のデータベース

いろいろな組織において、共に発現している遺伝子を調べたデータベースがあります。それが COXPRESdb です。

COXPRESdb
COXPRESdb のホーム画面。

遺伝子名で検索することで、その遺伝子と共に発現していることが多い遺伝子の一覧が取得できます。また、それらの関係をネットワーク図として見ることもできます。

COXPRESdb example
検索結果の例。MDM4と共に発現が見られる遺伝子の情報。

もとになる情報は、GEOに公開されたマイクロアレイデータが中心となっています。また、共に発現している遺伝子の情報に加え、タンパク間相互作用 ( Protein-Protein Interaction) の情報も付加され、確認できるようになっています。

> Obayashi T, Hayashi S, Shibaoka M, Saeki M, Ohta H, Kinoshita K. (2008) COXPRESdb: a database of coexpressed gene networks in mammals. Nucleic Acids Res. 36, D77-D82.

 

GeneMANIA

ある遺伝子について研究していて、「その遺伝子に何らかの関連が報告されている遺伝子をまとめて知りたい」と思ったことはないでしょうか?それをネットワークの図で表してくれるツールが GeneMANIA です。

GeneMANIA
GeneMANIA で検索する例。

トップの画面から、生物種を選択し、遺伝子名を入力するだけで、関連する遺伝子の情報がネットワークの図とともに得られます。データとしては、マイクロアレイデータによる共発現の情報や、Protein-Protein Interaction (PPI) の情報、  BioGRID など、さまざまな情報が元になっています。

GeneMANIA
GeneMANIA のネットワーク図。

どの種類の情報による関係(線)かは、線の色から知ることができます。機械的に生成された情報なので、これまでに知られている関係が整理されて、まとめられているわけではありませんが、便利なツールだと思います。