The Cancer Genome Atlas (TCGA)

がんゲノムのデータベースとして、 The Cancer Genome Atlas (TCGA) が利用されるようになりました。

TCGAのサイト。
TCGAのサイト。

TCGA に登録されたデータ

乳癌、肺がん、など、組織ごとに数百サンプルのデータが登録され、公開されています。データには、マイクロアレイをはじめ、メチレーションのデータや、次世代シーケンサーによって取得された配列情報も含まれています。

ガイドラインを守って利用が可能。
ガイドラインを守って利用が可能。

これらのデータは、ガイドラインを守れば、研究目的として利用が可能です。データをダウンロードして取得し、自分で解析することもできます。(追記:2015年12月末以降、全てのデータセットが公開になりました。詳細は、ガイドラインのページをご確認ください。)

制限なく利用できるものもある。
制限なく利用できるものもある。

TCGA のデータは、 cBioPortal を通して閲覧可能

イチから解析せずに、データを見てみたいという場合は、 cBioPortal というサイトを通してデータの閲覧が可能です。一部のデータにはなりますが、各がんについて、変異の多い遺伝子などの情報を確認できます。

cBioPortal のサイト。
cBioPortal のサイト。

以前紹介した、 Cancer Cell Line Encyclopedia (CCLE) のデータも、 TCGA の一部として扱われています。

cBioPortal で扱われているデータ。TCGA の一部。
cBioPortal で扱われているデータ。TCGA の一部。
 

Molecular Signatures Database (MSigDB)

「遺伝子セット」のデータベースが、 Molecular Signatures Database (MSigDB) です。Broad institute の GSEA 内にあります。メールアドレスを登録することで閲覧が可能です。

MSigDB top
MSigDB のトップページ。

遺伝子セット

MSigDB の遺伝子セットは、大きく分けて6つのコレクションから構成されています。

  • c1: positional gene sets, 染色体の座標によるもの。
  • c2: curated gene sets, キュレーターが論文から取り出したもの。
  • c3: motif gene sets, 転写制御のモチーフごとのリスト。
  • c4: computational gene sets: がん由来のマイクロアレイデータをコンピューターで分析して作成したリスト
  • c5: GO gene sets, Gene Ontology (GO) から作成したリスト。
  • c6: oncogenic signatures, さまざまな因子の影響下にある、がん細胞のマイクロアレイデータから作成したリスト。

MSigDB の代表的な遺伝子セットとしては、c2 の論文から取得されたリストでしょう。論文に書かれた遺伝子群をキュレーターがチェックして、遺伝子セットとして登録しています。また、この中には、BioCarta, KEGG, Reactome など、パスウェイに関するリストも含まれています。また、 c5 には、GO から得られた遺伝子セットもあります。つまり、GSEA を行うと、パスウェイ解析GO解析も同時に行えるといえます。(パスウェイの色づけはなく、アノテーションが最新とは限らないため、完全な代用にはなりませんが。)

> Subramanian, Tamayo, et al. (2005, PNAS 102, 15545-15550)

 

Broad-Novartis Cancer Cell Line Encyclopedia (CCLE)

CCLE プロジェクトという、がんのセルラインのデータを収集するプロジェクトがあります。 Broad Institute を中心に行われており、得られたデータが公開されています。 現在、CNV, SNP と mRNA のマイクロアレイデータが公開されています。mRNA のマイクロアレイデータとしては、1000サンプルに近いデータがあります。raw データで 4.7GB と巨大ですが、ダウンロードすれば独自に解析することも可能です。このデータは、 GEO にも

GPL15308 として登録されています。

CCLE home
Cancer Cell Line Encyclopedia (CCLE).