Molecular Signatures Database (MSigDB)

「遺伝子セット」のデータベースが、 Molecular Signatures Database (MSigDB) です。Broad institute の GSEA 内にあります。メールアドレスを登録することで閲覧が可能です。

MSigDB top
MSigDB のトップページ。

遺伝子セット

MSigDB の遺伝子セットは、大きく分けて6つのコレクションから構成されています。

  • c1: positional gene sets, 染色体の座標によるもの。
  • c2: curated gene sets, キュレーターが論文から取り出したもの。
  • c3: motif gene sets, 転写制御のモチーフごとのリスト。
  • c4: computational gene sets: がん由来のマイクロアレイデータをコンピューターで分析して作成したリスト
  • c5: GO gene sets, Gene Ontology (GO) から作成したリスト。
  • c6: oncogenic signatures, さまざまな因子の影響下にある、がん細胞のマイクロアレイデータから作成したリスト。

MSigDB の代表的な遺伝子セットとしては、c2 の論文から取得されたリストでしょう。論文に書かれた遺伝子群をキュレーターがチェックして、遺伝子セットとして登録しています。また、この中には、BioCarta, KEGG, Reactome など、パスウェイに関するリストも含まれています。また、 c5 には、GO から得られた遺伝子セットもあります。つまり、GSEA を行うと、パスウェイ解析GO解析も同時に行えるといえます。(パスウェイの色づけはなく、アノテーションが最新とは限らないため、完全な代用にはなりませんが。)

> Subramanian, Tamayo, et al. (2005, PNAS 102, 15545-15550)

 

Gene Set Enrichment Analysis (GSEA)

Gene Set Enrichment Analysis (GSEA) は、GO解析パスウェイ解析、に並んで、よく用いられる解析手法の1つです。

後者の2つの解析は、原理的には、遺伝子発現が増加または減少した遺伝子群を多く含む「特定の遺伝子群」を探すというものでした。この「特定の遺伝子群」が、あるキーワードをアノテーションに持つ遺伝子群であったり(GO解析)、あるパスウェイに載っている遺伝子群であったり(パスウェイ解析)するわけです。

この「特定の遺伝子群」を「遺伝子セット (Gene Set)」として、あらかじめ準備しておき、増加または減少した遺伝子群が、どの「遺伝子セット」に多く含まれているかを調べるのが、Gene Set Enrichment Analysis (GSEA) です。

GSEA
GSEA のサイト。

例えば、GSEA遺伝子セットには、「stem cell で発現が増加していた遺伝子群」があります。これは論文 (Pubmed 12228720) の情報をもとに作成された遺伝子セットです。このような遺伝子セットは、キュレーターによって登録されており、Molecular Signatures Database (MSigDB) と呼ばれるデータベースとして公開されています。

a gene set
遺伝子セットの例。

GSEA の利用、MSigDB の閲覧には、メールアドレスの登録が必要です。

> Subramanian,Tamayo, et al. (2005, PNAS 102, 15545-15550) and Mootha, Lindgren, et al. (2003, Nat Genet 34, 267-273).

 

統計処理ソフト R (GNU R)

プログラミング言語の1つとして、 “R” という言語があります。”GNU R” や “R言語” とも呼ばれます。 R はプログラミング言語の中でも統計処理を得意としています。オープンソースという形で公開されていますので、誰でも無料で使用することができます。この “R” についての詳しい解説は、 RjpWikiR-Tips を参考にされるとよいでしょう。

R のメリット

  • 無料である。
  • bioconductor などライブラリ(他人が用意してくれているプログラム)が多い。
  • ボックスプロット、散布図、ヒートマップなどの作図もできる。

R のデメリット

  • コマンドを覚える必要がある。

ボックスプロットは、エクセルでもがんばれば作成することはできます。また、t-検定も行うことは可能です。しかし、大量のサンプルを扱う場合は、コマンドで操作できる R のほうがいいこともありますし、何と言っても bioconductor の存在が大きいです。統計処理ソフトとしては、SPSS, SAS, JMP などがありますが、R であれば、 bioconductor を使ってマイクロアレイデータを比較的簡単に扱うことができます。

 

株式会社セルイノベーターの受託解析でも、解析ツールとして、この Rbioconductor を利用しています。

 

Cytoscape

タンパク間相互作用 (Protein-Protein Interaction) や、遺伝子の制御関係などのネットワークを表示するソフトとして、 Cytoscape があります。操作方法がなかなか難しいと思いますが、多機能なソフトです。ネットワーク図を作成し、そのネットワーク図のレイアウトをグラフ理論のアルゴリズムによって変更し、ネットワーク上の遺伝子の色をマイクロアレイデータの増減に応じて色付けするといったことが可能です。また、 Cytoscape の中から、GeneMANIA を呼び出すということもできます(追加でインストールが必要です)。

cytoscape
Cytoscape のサイト。

インストールするまでが少し大変かもしれません。Cytoscape を実行するには、Java と呼ばれるプログラムが別に必要になります。パソコンに初めからインストールされていることもありますが、ない場合は自分で Java をインストールする必要があります。

無料で使えるソフトですが、LGPLというライセンスに同意しなければなりません。ただ、ネットワーク図を作成したり、表示したりということに関しては、気にする必要はありません。Cytoscape を利用して、新たにプログラムを開発するといった場合に適用されます。

統合tvにも解説があります。

 

Papers

最近では、論文をPDFファイルで配布することが一般的になりました。研究者であれば、コンピューターのハードディスクのあちこちに、大量のPDFを保存していると思います。このPDFを整理できる “Papers” というソフトを紹介します。

Papers のサイトで確認できるように、インターフェース(見た目)は、音楽を管理するソフトの iTunes と似ています。iTunes で曲のプレイリストを作るように、論文のリストを作成することができます。Cancer や Gene Network など、研究テーマごとにリストを作っておくと探しやすくてよいと思います。BibTeX や EndNote 形式で出力できるので、論文執筆時にも助かります。

また、iOS版 (iPhone, iPad)用の Papers もあります。Mac版の Papers とシンクさせることができます。この機能を使うと、iTunes の音楽を iPod に入れて持ち出すように、 iPad に論文を入れて持ち出すことができます。

Mac版は Papers のサイトから、iOS版は App Store から購入可能です。Mac版は、学生割引もあります。

以前は、Mac版のみでしたが、最近、Windowsにも対応したようです。

スクリーンショット。Papers より。