マイクロアレイデータの解析例 2.2 (stem cell 関連遺伝子のヒートマップ)

iPS 細胞のデータを正規化したら、何はともあれ、 stem cell 関連遺伝子の発現はどうなっているのかが気になるところだと思います。

このようなときは、アノテーションを元に、 stem cell 関連遺伝子だけを抽出して、クラスタリング処理し、さらにヒートマップで表示するとよいでしょう。(この段階では、ratio や p-value を算出してないので、変動していないものも含めています。)

stem cell 関連遺伝子のヒートマップ

作成したヒートマップの結果を示します。BioGPSのデータを用いたヒートマップでは、 ES細胞に特徴的な遺伝子発現のパターンが見えていましたが、今回のデータではどうでしょうか?

stem cell 関連遺伝子のヒートマップ。

とりあえず、大きく分けると3つのクラスターに分かれているように見えます(あくまで見えているというだけで、以下、決定的な事実というわけではありませんので、注意してください)。

一番左のクラスターには、HepG2 や MCF7 などのがん細胞が含まれています。どうやら、stem cell 関連遺伝子に関しては、 iPS細胞がん細胞で似ていないようです。また、iPS細胞では、がん細胞ほど共通のパターンが見られません。いろいろなバリエーションのiPS細胞がありそうです。

上部のツリーの分かれ方を見ると、iPS 細胞は、さらに大きく2つのグループに分かれるようです。この2つのグループで、はっきり分かれているように見える遺伝子としては、上から3分の1ほどのクラスターに含まれる PSCA, GATA2, CDX2, MSX2, HOXB4 あたりでしょうか。

ヒートマップから読み取れる情報

ヒートマップの色付けは、 median からの距離にしていますので、 色が黒いところ低いというわけではありません。特に、一番下の行のクラスターに含まれている POU5F1 (OCT3) や NANOG は、黒く見えていますが、左側のがん細胞のデータが明るい緑なので、がん細胞よりiPSにおける発現は高いことを意味します。

また、1つのサンプルの遺伝子を1つ取って見ると、それが MCF7 に近いほどであったり、であったりします。個別に見ることには、あまり意味がないかもしれません。例えば、hiPS201B2_p67 の MSX2 や CDX2 の色は、HepG2と同程度の色ですが、これだけを持って何か結論づけることはできません。

MSX2やCDX2の発現が低く見える部分。

繰り返しになりますが、色ではなく、実際の値を確認するほうがよいです。シグナル値が1桁程度のものでも、このような色付け方法では、差が強調されすぎる場合があります。

がん細胞だけではなく、BioGPSのように、いろいろな分化後の組織が混ざっていると、色のパターンが出やすかったかもしれません。(iPS細胞はがん細胞とは違う、ということを確認するという意味ではこれだけでよかったのかもしれませんが。)

 

cBioPortal 経由で TCGA のデータを閲覧 (4)

cBioPortal では、データをダウンロードすることもできます。操作は、閲覧するときと同様ですが、最初に “Query” ではなく、 “Download Data” タブを選択してから行います。

データのダウンロード手順。
データのダウンロード手順。

(1) Download Data タブをクリックします。

(2) データセット(がんの種類、 CancerStudy)を選択します。

(3) データの種類を選択します。RNASeq、microRNA、通常のマイクロアレイなどから選択します。 mRNA expression の Z-scores は、 Z-score 化されたシグナル値です。(ratio とは異なります。) コントロールまたは全サンプルの平均値から、標準偏差 (=SD) の何個ぶん離れているかを表したものです。Z-score > 2 (増加)もしくは、 Z-score < -2 (減少)で有意となります。

上図の例では、Z-score ではなく、シグナル値の形式を選択しています。

(4) 取得したい遺伝子名を Official Symbol で入力します。リストから決まった遺伝子群を選択することも可能です。

(5) Submit をクリックすると、タブ区切りのテキスト形式のデータを取得できます。

 

cBioPortal 経由で TCGA のデータを閲覧 (3)

cBioPortal を利用して、特定のがん(データセット、CancerStudy)における、特定の遺伝子群の発現変動を閲覧する方法を紹介します。この操作により、自分のマイクロアレイデータで発現変動していた遺伝子が、TCGAのデータではどう変動しているかチェックすることができます。

cBioPortal のホームには、データセットを選択するための、クエリーを入力する欄があります。ここから、

  1. データセット(がんの種類)
  2. データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )
  3. 見たい遺伝子群(遺伝子の名前)

を選択します。

1. クエリーから、データセットを選択

まず、データセット(がんの種類、 CancerStudy)を選択します。例では、 Lung Adenocarcinoma (TCGA, Nature, in press)を選択しています。

データセットを選択。
データセットを選択。

2. データ形式を選択

データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )を選択します。選んだデータセットによって、利用可能なデータ形式のみ表示されます。すべてのデータ形式があるとは限りません。例では、mRNA =マイクロアレイのデータを選択しています。

(また、必要に応じて、データセットに含まれるサンプルのうち、特定の患者のものだけを選択することも可能。)

データ形式を選択。
データ形式を選択。

3. 見たい遺伝子群の入力

データセットのうち、特定の遺伝子(群)を指定して閲覧できます。ボックスの中に、見たい遺伝子の Official Symbol 公式な遺伝子名)を入力します。あらかじめ、いくつかの有名な遺伝子については、リストが用意されているので、プルダウンメニューから選択してもよいでしょう。例では、Cell Cycle を選択しています。

遺伝子群を入力または選択する。
遺伝子群を入力または選択する。

入力された遺伝子名が見つからない場合は、その旨が表示されます。昔の名前や通称の場合は、NCBIなどで、公式な遺伝子名を確認してください。

入力後に、 Submit をクリックします。

Submit
Submit

4. 結果の表示(OncoPrint)

データを Submit すると、しばらくして、 OncoPrint という画面が表示されます。例では、マイクロアレイデータを選択したので、遺伝子ごとに、その遺伝子の発現が増加している(または減少している)サンプルがハイライトされて表示されます。ここでは、遺伝子発現の増加減少Z-score によって判定されています。ヘルプによると、 Z-score を算出するときのコントロールは、全がんサンプルの場合と、健常者のデータの場合があるようです。どちらが使われているか、個々のデータセットを確認してください。

OncoPrint による遺伝子発現の増減を表示。
OncoPrint による遺伝子発現の増減を表示。
 

cBioPortal 経由で TCGA のデータを閲覧 (2)

各データセット(CancerStudy)のサマリーのページから、各種の情報をたどることができます。例えば、”Mutated Genes” のタブをクリックすると、変異のある遺伝子を確認できます。

データセットのサマリーから、変異のある遺伝子のリストへ。
データセットのサマリーから、変異のある遺伝子のリストへ。

1. 変異のある遺伝子リスト

選択したデータセット(CancerStudy)において、変異のある遺伝子のリストが表示されます。ここを見れば、乳癌に多く変異のある遺伝子はどれか?肺がんに多い変異はどれか?、数百サンプルの情報を元に確認できます。

変異のある遺伝子のリスト。
変異のある遺伝子のリスト。

さらに遺伝子名をクリックすることで、染色体上のどの部分にミューテーション(=変異)があるかが表示されます。下には変異のある検体のリストが表示されます。また、図のピンをマウスでポイントすることで、どの検体に見られる変異なのか対応を確認できます。

さらに、上部のタブをクリックして、ほかの情報を参照できます。

変異のある遺伝子のリスト。
変異の位置と検体の関係。

2. 共発現(遺伝子発現の相関関係)

Co-Expression タブをクリックすると、(現在選択中の)変異のある遺伝子と、遺伝子発現レベルで相関のある遺伝子のリストを表示できます。元となるデータとしては、マイクロアレイや RNASeq のデータがあります。遺伝子名をクリックすると散布図の形で相関関係を確認できます。

共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。
共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。

3. 生存曲線

Survival タブをクリックして、変異と生存曲線の関係を表示することもできます。

変異と生存曲線の関係。
変異と生存曲線の関係。

4. ネットワーク図

Network タブをクリックして、その他の関連する遺伝子をネットワーク図から確認できます。ネットワークの情報は、REACTOME などが用いられています。(表示には、Cytoscape のプラグインを利用。Adobe Flash Player が必要。)

その他の関連する遺伝子を表示したネットワーク図。
その他の関連する遺伝子を表示したネットワーク図。
 

cBioPortal 経由で TCGA のデータを閲覧 (1)

cBioPortal 経由で TCGA のデータを閲覧する例を紹介します。

1. cBioPortal にアクセス

The Cancer Genome Atlas (TCGA) のデータの一部は、 cBioPortal というサイトを経由して閲覧することができます。(TCGAからダウンロードする方法もありますが、主要なデータは cBioPortal 上でダウンロードすることなく、閲覧可能です。)

2. DATA SETS をクリック

cBioPortal の上部のタブから、 “DATA SETS” をクリックします。閲覧可能なデータセットのテーブルが表示されます。

DATA SETS をクリック。
DATA SETS をクリック。

3. データセット (CancerStudy) を選択

データセット (CancerStudy) のテーブルは、がんの種類(組織)ごとにまとめられています。また、それぞれのデータセットに含まれる情報と、そのサンプル数が表示されています。例えば、シークエンス、CNA (Copy Number Alterations)、RNA-Seq、マイクロアレイ、メチレーションなどです。組織ごとにすべての種類のデータが存在するわけではありません。また、取得されているサンプル数も異なります。

目的の情報を含む CancerStudy をクリックします。

データセットのテーブル。閲覧したい CancerStudy を選択。
データセットのテーブル。閲覧したい CancerStudy を選択。

4.  サマリーの表示

データセットを選択すると、そのデータセットのサマリーが表示されます。この画面から、さらに、ミューテーションなどの情報を見ていきます。(続きます。)

CancerStudy のサマリー。
CancerStudy のサマリー。