cBioPortal 経由で TCGA のデータを閲覧 (4)

cBioPortal では、データをダウンロードすることもできます。操作は、閲覧するときと同様ですが、最初に “Query” ではなく、 “Download Data” タブを選択してから行います。

データのダウンロード手順。
データのダウンロード手順。

(1) Download Data タブをクリックします。

(2) データセット(がんの種類、 CancerStudy)を選択します。

(3) データの種類を選択します。RNASeq、microRNA、通常のマイクロアレイなどから選択します。 mRNA expression の Z-scores は、 Z-score 化されたシグナル値です。(ratio とは異なります。) コントロールまたは全サンプルの平均値から、標準偏差 (=SD) の何個ぶん離れているかを表したものです。Z-score > 2 (増加)もしくは、 Z-score < -2 (減少)で有意となります。

上図の例では、Z-score ではなく、シグナル値の形式を選択しています。

(4) 取得したい遺伝子名を Official Symbol で入力します。リストから決まった遺伝子群を選択することも可能です。

(5) Submit をクリックすると、タブ区切りのテキスト形式のデータを取得できます。

 

cBioPortal 経由で TCGA のデータを閲覧 (3)

cBioPortal を利用して、特定のがん(データセット、CancerStudy)における、特定の遺伝子群の発現変動を閲覧する方法を紹介します。この操作により、自分のマイクロアレイデータで発現変動していた遺伝子が、TCGAのデータではどう変動しているかチェックすることができます。

cBioPortal のホームには、データセットを選択するための、クエリーを入力する欄があります。ここから、

  1. データセット(がんの種類)
  2. データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )
  3. 見たい遺伝子群(遺伝子の名前)

を選択します。

1. クエリーから、データセットを選択

まず、データセット(がんの種類、 CancerStudy)を選択します。例では、 Lung Adenocarcinoma (TCGA, Nature, in press)を選択しています。

データセットを選択。
データセットを選択。

2. データ形式を選択

データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )を選択します。選んだデータセットによって、利用可能なデータ形式のみ表示されます。すべてのデータ形式があるとは限りません。例では、mRNA =マイクロアレイのデータを選択しています。

(また、必要に応じて、データセットに含まれるサンプルのうち、特定の患者のものだけを選択することも可能。)

データ形式を選択。
データ形式を選択。

3. 見たい遺伝子群の入力

データセットのうち、特定の遺伝子(群)を指定して閲覧できます。ボックスの中に、見たい遺伝子の Official Symbol 公式な遺伝子名)を入力します。あらかじめ、いくつかの有名な遺伝子については、リストが用意されているので、プルダウンメニューから選択してもよいでしょう。例では、Cell Cycle を選択しています。

遺伝子群を入力または選択する。
遺伝子群を入力または選択する。

入力された遺伝子名が見つからない場合は、その旨が表示されます。昔の名前や通称の場合は、NCBIなどで、公式な遺伝子名を確認してください。

入力後に、 Submit をクリックします。

Submit
Submit

4. 結果の表示(OncoPrint)

データを Submit すると、しばらくして、 OncoPrint という画面が表示されます。例では、マイクロアレイデータを選択したので、遺伝子ごとに、その遺伝子の発現が増加している(または減少している)サンプルがハイライトされて表示されます。ここでは、遺伝子発現の増加減少Z-score によって判定されています。ヘルプによると、 Z-score を算出するときのコントロールは、全がんサンプルの場合と、健常者のデータの場合があるようです。どちらが使われているか、個々のデータセットを確認してください。

OncoPrint による遺伝子発現の増減を表示。
OncoPrint による遺伝子発現の増減を表示。
 

cBioPortal 経由で TCGA のデータを閲覧 (2)

各データセット(CancerStudy)のサマリーのページから、各種の情報をたどることができます。例えば、”Mutated Genes” のタブをクリックすると、変異のある遺伝子を確認できます。

データセットのサマリーから、変異のある遺伝子のリストへ。
データセットのサマリーから、変異のある遺伝子のリストへ。

1. 変異のある遺伝子リスト

選択したデータセット(CancerStudy)において、変異のある遺伝子のリストが表示されます。ここを見れば、乳癌に多く変異のある遺伝子はどれか?肺がんに多い変異はどれか?、数百サンプルの情報を元に確認できます。

変異のある遺伝子のリスト。
変異のある遺伝子のリスト。

さらに遺伝子名をクリックすることで、染色体上のどの部分にミューテーション(=変異)があるかが表示されます。下には変異のある検体のリストが表示されます。また、図のピンをマウスでポイントすることで、どの検体に見られる変異なのか対応を確認できます。

さらに、上部のタブをクリックして、ほかの情報を参照できます。

変異のある遺伝子のリスト。
変異の位置と検体の関係。

2. 共発現(遺伝子発現の相関関係)

Co-Expression タブをクリックすると、(現在選択中の)変異のある遺伝子と、遺伝子発現レベルで相関のある遺伝子のリストを表示できます。元となるデータとしては、マイクロアレイや RNASeq のデータがあります。遺伝子名をクリックすると散布図の形で相関関係を確認できます。

共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。
共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。

3. 生存曲線

Survival タブをクリックして、変異と生存曲線の関係を表示することもできます。

変異と生存曲線の関係。
変異と生存曲線の関係。

4. ネットワーク図

Network タブをクリックして、その他の関連する遺伝子をネットワーク図から確認できます。ネットワークの情報は、REACTOME などが用いられています。(表示には、Cytoscape のプラグインを利用。Adobe Flash Player が必要。)

その他の関連する遺伝子を表示したネットワーク図。
その他の関連する遺伝子を表示したネットワーク図。
 

cBioPortal 経由で TCGA のデータを閲覧 (1)

cBioPortal 経由で TCGA のデータを閲覧する例を紹介します。

1. cBioPortal にアクセス

The Cancer Genome Atlas (TCGA) のデータの一部は、 cBioPortal というサイトを経由して閲覧することができます。(TCGAからダウンロードする方法もありますが、主要なデータは cBioPortal 上でダウンロードすることなく、閲覧可能です。)

2. DATA SETS をクリック

cBioPortal の上部のタブから、 “DATA SETS” をクリックします。閲覧可能なデータセットのテーブルが表示されます。

DATA SETS をクリック。
DATA SETS をクリック。

3. データセット (CancerStudy) を選択

データセット (CancerStudy) のテーブルは、がんの種類(組織)ごとにまとめられています。また、それぞれのデータセットに含まれる情報と、そのサンプル数が表示されています。例えば、シークエンス、CNA (Copy Number Alterations)、RNA-Seq、マイクロアレイ、メチレーションなどです。組織ごとにすべての種類のデータが存在するわけではありません。また、取得されているサンプル数も異なります。

目的の情報を含む CancerStudy をクリックします。

データセットのテーブル。閲覧したい CancerStudy を選択。
データセットのテーブル。閲覧したい CancerStudy を選択。

4.  サマリーの表示

データセットを選択すると、そのデータセットのサマリーが表示されます。この画面から、さらに、ミューテーションなどの情報を見ていきます。(続きます。)

CancerStudy のサマリー。
CancerStudy のサマリー。
 

The Cancer Genome Atlas (TCGA)

がんゲノムのデータベースとして、 The Cancer Genome Atlas (TCGA) が利用されるようになりました。

TCGAのサイト。
TCGAのサイト。

TCGA に登録されたデータ

乳癌、肺がん、など、組織ごとに数百サンプルのデータが登録され、公開されています。データには、マイクロアレイをはじめ、メチレーションのデータや、次世代シーケンサーによって取得された配列情報も含まれています。

ガイドラインを守って利用が可能。
ガイドラインを守って利用が可能。

これらのデータは、ガイドラインを守れば、研究目的として利用が可能です。データをダウンロードして取得し、自分で解析することもできます。(追記:2015年12月末以降、全てのデータセットが公開になりました。詳細は、ガイドラインのページをご確認ください。)

制限なく利用できるものもある。
制限なく利用できるものもある。

TCGA のデータは、 cBioPortal を通して閲覧可能

イチから解析せずに、データを見てみたいという場合は、 cBioPortal というサイトを通してデータの閲覧が可能です。一部のデータにはなりますが、各がんについて、変異の多い遺伝子などの情報を確認できます。

cBioPortal のサイト。
cBioPortal のサイト。

以前紹介した、 Cancer Cell Line Encyclopedia (CCLE) のデータも、 TCGA の一部として扱われています。

cBioPortal で扱われているデータ。TCGA の一部。
cBioPortal で扱われているデータ。TCGA の一部。