MSigDB からの遺伝子セットの取得

MSigDB から遺伝子セットを検索して、取得する方法を紹介します。

(1) “Search” をクリックして、遺伝子セットの検索を行います。

遺伝子セットの検索。
遺伝子セットの検索。

(2) メールアドレスを登録(入力)して、ログインします。

メールアドレスを入力してログイン。
メールアドレスを入力してログイン。

(3) 検索画面が表示されるので、検索したいキーワードを入力し、Search ボタンをクリックします。右側の項目を選択することで、情報の種類や生物種でフィルターをかけることもできます。

遺伝子セットの検索画面。
遺伝子セットの検索画面。

(4) 検索結果に、見つかった遺伝子セットの一覧が表示されます。リンクをクリックすることで、詳細を表示します。#genes に表示されている数字は、遺伝子セットに含まれる遺伝子の個数を意味しています。

遺伝子セットの検索結果の一覧。
遺伝子セットの検索結果の一覧。

(5) 検索結果の詳細には、元になった論文の情報などが表示されます。なかほどの “Download gene set” の項目から、遺伝子セットをダウンロードできます。遺伝子セットは、複数のフォーマットで用意されています。”text”形式が最もシンプルです。この検索結果の詳細では、画面下の “Show members” の項目をクリックすることで、遺伝子セットを表示して確認することもできます。

遺伝子セットの検索結果の詳細。遺伝子セットをダウンロードできる。
遺伝子セットの検索結果の詳細。遺伝子セットをダウンロードできる。

追記

なぜか、トップ画面の “Search” から検索した結果と、同画面の “Browse” から検索した結果が異なるようです(2012年12月現在)。 例は、 “stemness” で検索した結果ですが、”Search” から検索した場合がたくさんヒットしました。しかし、 “Browse” から検索しないと表示されない遺伝子セットもありました。

 

Molecular Signatures Database (MSigDB)

「遺伝子セット」のデータベースが、 Molecular Signatures Database (MSigDB) です。Broad institute の GSEA 内にあります。メールアドレスを登録することで閲覧が可能です。

MSigDB top
MSigDB のトップページ。

遺伝子セット

MSigDB の遺伝子セットは、大きく分けて6つのコレクションから構成されています。

  • c1: positional gene sets, 染色体の座標によるもの。
  • c2: curated gene sets, キュレーターが論文から取り出したもの。
  • c3: motif gene sets, 転写制御のモチーフごとのリスト。
  • c4: computational gene sets: がん由来のマイクロアレイデータをコンピューターで分析して作成したリスト
  • c5: GO gene sets, Gene Ontology (GO) から作成したリスト。
  • c6: oncogenic signatures, さまざまな因子の影響下にある、がん細胞のマイクロアレイデータから作成したリスト。

MSigDB の代表的な遺伝子セットとしては、c2 の論文から取得されたリストでしょう。論文に書かれた遺伝子群をキュレーターがチェックして、遺伝子セットとして登録しています。また、この中には、BioCarta, KEGG, Reactome など、パスウェイに関するリストも含まれています。また、 c5 には、GO から得られた遺伝子セットもあります。つまり、GSEA を行うと、パスウェイ解析GO解析も同時に行えるといえます。(パスウェイの色づけはなく、アノテーションが最新とは限らないため、完全な代用にはなりませんが。)

> Subramanian, Tamayo, et al. (2005, PNAS 102, 15545-15550)

 

Gene Set Enrichment Analysis (GSEA)

Gene Set Enrichment Analysis (GSEA) は、GO解析パスウェイ解析、に並んで、よく用いられる解析手法の1つです。

後者の2つの解析は、原理的には、遺伝子発現が増加または減少した遺伝子群を多く含む「特定の遺伝子群」を探すというものでした。この「特定の遺伝子群」が、あるキーワードをアノテーションに持つ遺伝子群であったり(GO解析)、あるパスウェイに載っている遺伝子群であったり(パスウェイ解析)するわけです。

この「特定の遺伝子群」を「遺伝子セット (Gene Set)」として、あらかじめ準備しておき、増加または減少した遺伝子群が、どの「遺伝子セット」に多く含まれているかを調べるのが、Gene Set Enrichment Analysis (GSEA) です。

GSEA
GSEA のサイト。

例えば、GSEA遺伝子セットには、「stem cell で発現が増加していた遺伝子群」があります。これは論文 (Pubmed 12228720) の情報をもとに作成された遺伝子セットです。このような遺伝子セットは、キュレーターによって登録されており、Molecular Signatures Database (MSigDB) と呼ばれるデータベースとして公開されています。

a gene set
遺伝子セットの例。

GSEA の利用、MSigDB の閲覧には、メールアドレスの登録が必要です。

> Subramanian,Tamayo, et al. (2005, PNAS 102, 15545-15550) and Mootha, Lindgren, et al. (2003, Nat Genet 34, 267-273).