Molecular Signatures Database (MSigDB)

「遺伝子セット」のデータベースが、 Molecular Signatures Database (MSigDB) です。Broad institute の GSEA 内にあります。メールアドレスを登録することで閲覧が可能です。

MSigDB top
MSigDB のトップページ。

遺伝子セット

MSigDB の遺伝子セットは、大きく分けて6つのコレクションから構成されています。

  • c1: positional gene sets, 染色体の座標によるもの。
  • c2: curated gene sets, キュレーターが論文から取り出したもの。
  • c3: motif gene sets, 転写制御のモチーフごとのリスト。
  • c4: computational gene sets: がん由来のマイクロアレイデータをコンピューターで分析して作成したリスト
  • c5: GO gene sets, Gene Ontology (GO) から作成したリスト。
  • c6: oncogenic signatures, さまざまな因子の影響下にある、がん細胞のマイクロアレイデータから作成したリスト。

MSigDB の代表的な遺伝子セットとしては、c2 の論文から取得されたリストでしょう。論文に書かれた遺伝子群をキュレーターがチェックして、遺伝子セットとして登録しています。また、この中には、BioCarta, KEGG, Reactome など、パスウェイに関するリストも含まれています。また、 c5 には、GO から得られた遺伝子セットもあります。つまり、GSEA を行うと、パスウェイ解析GO解析も同時に行えるといえます。(パスウェイの色づけはなく、アノテーションが最新とは限らないため、完全な代用にはなりませんが。)

> Subramanian, Tamayo, et al. (2005, PNAS 102, 15545-15550)

 

Gene Set Enrichment Analysis (GSEA)

Gene Set Enrichment Analysis (GSEA) は、GO解析パスウェイ解析、に並んで、よく用いられる解析手法の1つです。

後者の2つの解析は、原理的には、遺伝子発現が増加または減少した遺伝子群を多く含む「特定の遺伝子群」を探すというものでした。この「特定の遺伝子群」が、あるキーワードをアノテーションに持つ遺伝子群であったり(GO解析)、あるパスウェイに載っている遺伝子群であったり(パスウェイ解析)するわけです。

この「特定の遺伝子群」を「遺伝子セット (Gene Set)」として、あらかじめ準備しておき、増加または減少した遺伝子群が、どの「遺伝子セット」に多く含まれているかを調べるのが、Gene Set Enrichment Analysis (GSEA) です。

GSEA
GSEA のサイト。

例えば、GSEA遺伝子セットには、「stem cell で発現が増加していた遺伝子群」があります。これは論文 (Pubmed 12228720) の情報をもとに作成された遺伝子セットです。このような遺伝子セットは、キュレーターによって登録されており、Molecular Signatures Database (MSigDB) と呼ばれるデータベースとして公開されています。

a gene set
遺伝子セットの例。

GSEA の利用、MSigDB の閲覧には、メールアドレスの登録が必要です。

> Subramanian,Tamayo, et al. (2005, PNAS 102, 15545-15550) and Mootha, Lindgren, et al. (2003, Nat Genet 34, 267-273).

 

統計処理ソフト R (GNU R)

プログラミング言語の1つとして、 “R” という言語があります。”GNU R” や “R言語” とも呼ばれます。 R はプログラミング言語の中でも統計処理を得意としています。オープンソースという形で公開されていますので、誰でも無料で使用することができます。この “R” についての詳しい解説は、 RjpWikiR-Tips を参考にされるとよいでしょう。

R のメリット

  • 無料である。
  • bioconductor などライブラリ(他人が用意してくれているプログラム)が多い。
  • ボックスプロット、散布図、ヒートマップなどの作図もできる。

R のデメリット

  • コマンドを覚える必要がある。

ボックスプロットは、エクセルでもがんばれば作成することはできます。また、t-検定も行うことは可能です。しかし、大量のサンプルを扱う場合は、コマンドで操作できる R のほうがいいこともありますし、何と言っても bioconductor の存在が大きいです。統計処理ソフトとしては、SPSS, SAS, JMP などがありますが、R であれば、 bioconductor を使ってマイクロアレイデータを比較的簡単に扱うことができます。

 

株式会社セルイノベーターの受託解析でも、解析ツールとして、この Rbioconductor を利用しています。

 

Cytoscape

タンパク間相互作用 (Protein-Protein Interaction) や、遺伝子の制御関係などのネットワークを表示するソフトとして、 Cytoscape があります。操作方法がなかなか難しいと思いますが、多機能なソフトです。ネットワーク図を作成し、そのネットワーク図のレイアウトをグラフ理論のアルゴリズムによって変更し、ネットワーク上の遺伝子の色をマイクロアレイデータの増減に応じて色付けするといったことが可能です。また、 Cytoscape の中から、GeneMANIA を呼び出すということもできます(追加でインストールが必要です)。

cytoscape
Cytoscape のサイト。

インストールするまでが少し大変かもしれません。Cytoscape を実行するには、Java と呼ばれるプログラムが別に必要になります。パソコンに初めからインストールされていることもありますが、ない場合は自分で Java をインストールする必要があります。

無料で使えるソフトですが、LGPLというライセンスに同意しなければなりません。ただ、ネットワーク図を作成したり、表示したりということに関しては、気にする必要はありません。Cytoscape を利用して、新たにプログラムを開発するといった場合に適用されます。

統合tvにも解説があります。

 

Mouse Genome Informatics (MGI)

マウスの遺伝子情報のデータベースといえば、 “MGI” です。マウスの株や、ノックアウトの種類、遺伝子のアノテーション (GO) など、 マウスに関する様々な情報が登録されています。

この MGI を使って、特定の組織で発現していることが確認されたマウスの遺伝子を検索できます。

(1) まず、トップページから、 Expression を選択します。

MGI top
MGIのトップページ。Expression を選択

(2) Gene Expression Database (GXD) が表示されます。”Gene Expression Data Query” を選択します。

GXD の画面。Gene Expression Data Query を選択。
GXD の画面。Gene Expression Data Query を選択。

(3) 検索画面が表示されるので、組織の名称を入力します。さらにステージで絞り込むこともできます。

検索画面。組織の名称を入力。
検索画面。組織の名称を入力。

(4) 検索結果が表示されます。GXD では、マイクロアレイに限らず、いろいろな実験で発現を用いて確認された遺伝子の情報があります。主に論文で示された情報が根拠となっています。

MGI Gene Expression Data Query result
検索結果。