TCGA の出版ガイドライン

TCGA のデータを用いた研究に対する出版のガイドラインですが、2015年12月に更新があり、全てのデータセットが制限なく利用できるようになっています。

TCGA is a community resource project and data are made available rapidly after generation for community research use. In keeping with the TCGA policy of a defined moratorium on comprehensive analyses of each tumor type, moratoria on all cancer types are now lifted and all data may be used for publication without restrictions or limitations. Please review the below section on TCGA program attribution to properly acknowledge TCGA in publications and presentations; however, the additional information below concerning TCGA publication guidelines is intended for reference purposes, and need not be adhered to for any current or future uses of TCGA data.

 

cBioPortal 経由で TCGA のデータを閲覧 (4)

cBioPortal では、データをダウンロードすることもできます。操作は、閲覧するときと同様ですが、最初に “Query” ではなく、 “Download Data” タブを選択してから行います。

データのダウンロード手順。
データのダウンロード手順。

(1) Download Data タブをクリックします。

(2) データセット(がんの種類、 CancerStudy)を選択します。

(3) データの種類を選択します。RNASeq、microRNA、通常のマイクロアレイなどから選択します。 mRNA expression の Z-scores は、 Z-score 化されたシグナル値です。(ratio とは異なります。) コントロールまたは全サンプルの平均値から、標準偏差 (=SD) の何個ぶん離れているかを表したものです。Z-score > 2 (増加)もしくは、 Z-score < -2 (減少)で有意となります。

上図の例では、Z-score ではなく、シグナル値の形式を選択しています。

(4) 取得したい遺伝子名を Official Symbol で入力します。リストから決まった遺伝子群を選択することも可能です。

(5) Submit をクリックすると、タブ区切りのテキスト形式のデータを取得できます。

 

cBioPortal 経由で TCGA のデータを閲覧 (3)

cBioPortal を利用して、特定のがん(データセット、CancerStudy)における、特定の遺伝子群の発現変動を閲覧する方法を紹介します。この操作により、自分のマイクロアレイデータで発現変動していた遺伝子が、TCGAのデータではどう変動しているかチェックすることができます。

cBioPortal のホームには、データセットを選択するための、クエリーを入力する欄があります。ここから、

  1. データセット(がんの種類)
  2. データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )
  3. 見たい遺伝子群(遺伝子の名前)

を選択します。

1. クエリーから、データセットを選択

まず、データセット(がんの種類、 CancerStudy)を選択します。例では、 Lung Adenocarcinoma (TCGA, Nature, in press)を選択しています。

データセットを選択。
データセットを選択。

2. データ形式を選択

データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )を選択します。選んだデータセットによって、利用可能なデータ形式のみ表示されます。すべてのデータ形式があるとは限りません。例では、mRNA =マイクロアレイのデータを選択しています。

(また、必要に応じて、データセットに含まれるサンプルのうち、特定の患者のものだけを選択することも可能。)

データ形式を選択。
データ形式を選択。

3. 見たい遺伝子群の入力

データセットのうち、特定の遺伝子(群)を指定して閲覧できます。ボックスの中に、見たい遺伝子の Official Symbol 公式な遺伝子名)を入力します。あらかじめ、いくつかの有名な遺伝子については、リストが用意されているので、プルダウンメニューから選択してもよいでしょう。例では、Cell Cycle を選択しています。

遺伝子群を入力または選択する。
遺伝子群を入力または選択する。

入力された遺伝子名が見つからない場合は、その旨が表示されます。昔の名前や通称の場合は、NCBIなどで、公式な遺伝子名を確認してください。

入力後に、 Submit をクリックします。

Submit
Submit

4. 結果の表示(OncoPrint)

データを Submit すると、しばらくして、 OncoPrint という画面が表示されます。例では、マイクロアレイデータを選択したので、遺伝子ごとに、その遺伝子の発現が増加している(または減少している)サンプルがハイライトされて表示されます。ここでは、遺伝子発現の増加減少Z-score によって判定されています。ヘルプによると、 Z-score を算出するときのコントロールは、全がんサンプルの場合と、健常者のデータの場合があるようです。どちらが使われているか、個々のデータセットを確認してください。

OncoPrint による遺伝子発現の増減を表示。
OncoPrint による遺伝子発現の増減を表示。
 

cBioPortal 経由で TCGA のデータを閲覧 (2)

各データセット(CancerStudy)のサマリーのページから、各種の情報をたどることができます。例えば、”Mutated Genes” のタブをクリックすると、変異のある遺伝子を確認できます。

データセットのサマリーから、変異のある遺伝子のリストへ。
データセットのサマリーから、変異のある遺伝子のリストへ。

1. 変異のある遺伝子リスト

選択したデータセット(CancerStudy)において、変異のある遺伝子のリストが表示されます。ここを見れば、乳癌に多く変異のある遺伝子はどれか?肺がんに多い変異はどれか?、数百サンプルの情報を元に確認できます。

変異のある遺伝子のリスト。
変異のある遺伝子のリスト。

さらに遺伝子名をクリックすることで、染色体上のどの部分にミューテーション(=変異)があるかが表示されます。下には変異のある検体のリストが表示されます。また、図のピンをマウスでポイントすることで、どの検体に見られる変異なのか対応を確認できます。

さらに、上部のタブをクリックして、ほかの情報を参照できます。

変異のある遺伝子のリスト。
変異の位置と検体の関係。

2. 共発現(遺伝子発現の相関関係)

Co-Expression タブをクリックすると、(現在選択中の)変異のある遺伝子と、遺伝子発現レベルで相関のある遺伝子のリストを表示できます。元となるデータとしては、マイクロアレイや RNASeq のデータがあります。遺伝子名をクリックすると散布図の形で相関関係を確認できます。

共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。
共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。

3. 生存曲線

Survival タブをクリックして、変異と生存曲線の関係を表示することもできます。

変異と生存曲線の関係。
変異と生存曲線の関係。

4. ネットワーク図

Network タブをクリックして、その他の関連する遺伝子をネットワーク図から確認できます。ネットワークの情報は、REACTOME などが用いられています。(表示には、Cytoscape のプラグインを利用。Adobe Flash Player が必要。)

その他の関連する遺伝子を表示したネットワーク図。
その他の関連する遺伝子を表示したネットワーク図。
 

cBioPortal 経由で TCGA のデータを閲覧 (1)

cBioPortal 経由で TCGA のデータを閲覧する例を紹介します。

1. cBioPortal にアクセス

The Cancer Genome Atlas (TCGA) のデータの一部は、 cBioPortal というサイトを経由して閲覧することができます。(TCGAからダウンロードする方法もありますが、主要なデータは cBioPortal 上でダウンロードすることなく、閲覧可能です。)

2. DATA SETS をクリック

cBioPortal の上部のタブから、 “DATA SETS” をクリックします。閲覧可能なデータセットのテーブルが表示されます。

DATA SETS をクリック。
DATA SETS をクリック。

3. データセット (CancerStudy) を選択

データセット (CancerStudy) のテーブルは、がんの種類(組織)ごとにまとめられています。また、それぞれのデータセットに含まれる情報と、そのサンプル数が表示されています。例えば、シークエンス、CNA (Copy Number Alterations)、RNA-Seq、マイクロアレイ、メチレーションなどです。組織ごとにすべての種類のデータが存在するわけではありません。また、取得されているサンプル数も異なります。

目的の情報を含む CancerStudy をクリックします。

データセットのテーブル。閲覧したい CancerStudy を選択。
データセットのテーブル。閲覧したい CancerStudy を選択。

4.  サマリーの表示

データセットを選択すると、そのデータセットのサマリーが表示されます。この画面から、さらに、ミューテーションなどの情報を見ていきます。(続きます。)

CancerStudy のサマリー。
CancerStudy のサマリー。