cBioPortal 経由で TCGA のデータを閲覧 (1)

cBioPortal 経由で TCGA のデータを閲覧する例を紹介します。

1. cBioPortal にアクセス

The Cancer Genome Atlas (TCGA) のデータの一部は、 cBioPortal というサイトを経由して閲覧することができます。(TCGAからダウンロードする方法もありますが、主要なデータは cBioPortal 上でダウンロードすることなく、閲覧可能です。)

2. DATA SETS をクリック

cBioPortal の上部のタブから、 “DATA SETS” をクリックします。閲覧可能なデータセットのテーブルが表示されます。

DATA SETS をクリック。
DATA SETS をクリック。

3. データセット (CancerStudy) を選択

データセット (CancerStudy) のテーブルは、がんの種類(組織)ごとにまとめられています。また、それぞれのデータセットに含まれる情報と、そのサンプル数が表示されています。例えば、シークエンス、CNA (Copy Number Alterations)、RNA-Seq、マイクロアレイ、メチレーションなどです。組織ごとにすべての種類のデータが存在するわけではありません。また、取得されているサンプル数も異なります。

目的の情報を含む CancerStudy をクリックします。

データセットのテーブル。閲覧したい CancerStudy を選択。
データセットのテーブル。閲覧したい CancerStudy を選択。

4.  サマリーの表示

データセットを選択すると、そのデータセットのサマリーが表示されます。この画面から、さらに、ミューテーションなどの情報を見ていきます。(続きます。)

CancerStudy のサマリー。
CancerStudy のサマリー。
 

The Cancer Genome Atlas (TCGA)

がんゲノムのデータベースとして、 The Cancer Genome Atlas (TCGA) が利用されるようになりました。

TCGAのサイト。
TCGAのサイト。

TCGA に登録されたデータ

乳癌、肺がん、など、組織ごとに数百サンプルのデータが登録され、公開されています。データには、マイクロアレイをはじめ、メチレーションのデータや、次世代シーケンサーによって取得された配列情報も含まれています。

ガイドラインを守って利用が可能。
ガイドラインを守って利用が可能。

これらのデータは、ガイドラインを守れば、研究目的として利用が可能です。データをダウンロードして取得し、自分で解析することもできます。(追記:2015年12月末以降、全てのデータセットが公開になりました。詳細は、ガイドラインのページをご確認ください。)

制限なく利用できるものもある。
制限なく利用できるものもある。

TCGA のデータは、 cBioPortal を通して閲覧可能

イチから解析せずに、データを見てみたいという場合は、 cBioPortal というサイトを通してデータの閲覧が可能です。一部のデータにはなりますが、各がんについて、変異の多い遺伝子などの情報を確認できます。

cBioPortal のサイト。
cBioPortal のサイト。

以前紹介した、 Cancer Cell Line Encyclopedia (CCLE) のデータも、 TCGA の一部として扱われています。

cBioPortal で扱われているデータ。TCGA の一部。
cBioPortal で扱われているデータ。TCGA の一部。
 

マイクロアレイデータの Gene Expression Omnibus (GEO) への登録

GEOへの登録

最近のジャーナルでは、マイクロアレイデータを用いた論文を投稿する際に、マイクロアレイデータの Gene Expression Omnibus (GEO) への登録を求められることが多いです。GEOは、これまでに多くのマイクロアレイデータが登録されており、自由に閲覧が可能なデータベースです。

GEO にマイクロアレイデータを登録すると、”GSExxxxx” という番号をもらうことができます。他の研究者は、この番号を指定することで、そのマイクロアレイデータを閲覧することが可能です。レビューワーから、このアクセッション番号や、IDという言い方で、求められることもあります。

登録する際に準備するもの

GEOにマイクロアレイデータを登録する際に必要なものは、下記の3点です。(ここでは、GEOarchive という形式の登録方法を紹介します。)

  1. NCBI のアカウント(ユーザー名とパスワード)
  2. メタデータ(論文の要旨や、サンプルの情報など。)
  3. マイクロアレイデータ(CELファイルなどのrawデータを含む。)

1. NCBI のアカウント

NCBIを利用するときのアカウントです。NCBIのサイトで無料で作成できます。左下の “Register for an NCBI account” から先へ進みます。(以前は、GEO専用のアカウントがありましたが、現在は、NCBIアカウントに統合されています。)

アカウント作成後、登録されたメールアドレスに、confirm 用のメールが届きます。そのメールに書かれたリンクをクリックすることで、確認されたことになり、アカウントが有効化されます。(迷惑メールと判断されることもあるようですので、ご注意ください。)

2. メタデータ

論文の要旨や、サンプルの情報を専用のエクセルのフォームに記入します。Affymetrix, Agilent, Illumina ごとに専用のフォームがあります。テンプレートのエクセルファイルをダウンロードして記入します。このテンプレートの3枚目以降のシートに記入例があります。各項目の意味はこちらをご覧ください。

3. マイクロアレイデータ

正規化済みのマイクロアレイデータと、これに加えて、rawデータ(AffymetrixであればCELファイル、AgilentであればFeatureExtractionから出力されるファイル)も必要です。ratioやアノテーションの情報は、必須ではありません。プローブIDと、シグナル値と(あれば)フラグの情報を登録します。

正規化に用いたすべてのサンプルの情報が必要です。「8サンプルで正規化を行って解析した後、論文に使用した4サンプルだけを登録」ということはできません。8サンプルで正規化した場合と、4サンプルで正規化した場合では、若干、シグナル値が変わるためです。上記のような場合は、4サンプルだけで再度、正規化から解析しなおして、登録する必要があります。

 

株式会社セルイノベーターでは、「マイクロアレイデータのGEOへの登録」も受託解析サービスの料金の中に含まれています。登録の際は、ご相談ください