ヒートマップについて書いた記事をまとめました。左側のメニューからもたどれます。
タグ: ヒートマップ
マイクロアレイデータの解析例 2.5 (CD抗原、転写因子でクラスタリング、ヒートマップ)
前回に続いて、生物学的な機能で抽出した遺伝子群をクラスタリングして、ヒートマップで表示する例です。
CD抗原でクラスタリング、ヒートマップ
もし、CD抗原の遺伝子をクラスタリングして、iPS細胞の株とがん細胞でクラスターが分かれるようであれば、うまく標識して区別するのに使えるかもしれません。
アノテーションをもとに、CD抗原の遺伝子を抽出して、クラスタリングした結果を示します。

大まかではありますが、クラスターは、iPS細胞とがん細胞で分かれるようです。しかしながら、明確にがん細胞だけに共通に発現している抗原は難しいようです。CD84などを含む一番上のクラスターでは、がん細胞においても2グループに分かれているように見えます。また、いずれの CD 抗原も iPS 細胞の株において、ところどころ赤くなっている(発現が高い)部分があります。
CD200 は、がん細胞では発現が低いように見えます。いくつかの抗原を組み合わせれば、評価できるかもしれません。(CD97の発現が高い、かつ、CD200の発現が低いなど。)
なお、マイクロアレイデータは、mRNA のレベルの結果なので、CD抗原がタンパクレベルで発現しているかどうかは、別途チェックする必要があります。
転写因子でクラスタリング、ヒートマップ
「iPS細胞とがん細胞の間で変動している遺伝子を制御している遺伝子」を探すのであれば、転写因子でクラスタリングしてみるのはどうでしょうか。

ほかの機能で抽出した遺伝子群の場合と同様に、転写因子を抽出してクラスタリングした結果も、iPS細胞とがん細胞で分かれるようです。同じ変動パターンを示すのであれば、転写を制御している可能性は示せるかもしれません。ただ、転写遺伝子の数としては、2000個程度ありますので、マイクロアレイデータだけから候補を絞り込むのは大変かもしれません。
参考
- 転写因子のヒートマップの拡大図。
マイクロアレイデータの解析例 2.4 (機能でクラスタリング、ヒートマップ)
代謝系の遺伝子の発現パターン以外の他の機能でクラスタリングした場合は、どうでしょうか?
アポトーシス関連遺伝子をクラスタリング
アノテーションにアポトーシス関連の用語を持つ遺伝子をクラスタリングした結果です。がん細胞のクラスターに入った iPS 細胞の株はありません。

TGF-beta シグナリング関連遺伝子をクラスタリング
アノテーションに TGF-beta シグナリング関連の用語を持つ遺伝子をクラスタリングした結果です。がん細胞に比較的近いクラスターに入る株がありました。 hiPS_409B2_p52 です。ただ、この情報だけから判断するわけにはいきません。


参考
ヒートマップの拡大図です。
マイクロアレイデータの解析例 2.3 (代謝系の遺伝子をクラスタリング)
ある機能を持った遺伝子だけを抽出してクラスタリングしてみるという手法は、いろいろな場面で使えます。
糖代謝の遺伝子のクラスタリング
アノテーションの情報をもとに、糖代謝 (Glucose metabolic process) の遺伝子を抽出し、クラスタリングしてみました。

Stem cell 関連遺伝子のクラスタリング結果と同様に、がん細胞とiPS細胞のクラスターは分かれる傾向にあるようです。(hiPS2102EP4D3 hEC2102EP4D3の表記を間違えていたため後日修正しました。)
脂質代謝遺伝子のクラスタリング
同様にアノテーションに脂質代謝 (lipid metabolic process) を持つ遺伝子を抽出してクラスタリングしてみました。

やはり、おおよその傾向は同じなのですが、HepG2だけが、がん細胞のクラスターから外れた結果となりました。この脂質代謝は、肝細胞で盛んな機能であることを考えると面白い結果ではないでしょうか。(HepG2は肝癌由来の細胞株です。)

肝細胞に分化させたいのであれば、HepG2と同じクラスターに入った iPS 細胞の株を使うのが効率的かもしれません。
いずれも、マイクロアレイデータだけからは、断言できる結果ではありませんが、「これらのデータは公開されている」という点は注目すべきではないでしょうか。
マイクロアレイデータの解析例 2.2 (stem cell 関連遺伝子のヒートマップ)
iPS 細胞のデータを正規化したら、何はともあれ、 stem cell 関連遺伝子の発現はどうなっているのかが気になるところだと思います。
このようなときは、アノテーションを元に、 stem cell 関連遺伝子だけを抽出して、クラスタリング処理し、さらにヒートマップで表示するとよいでしょう。(この段階では、ratio や p-value を算出してないので、変動していないものも含めています。)
stem cell 関連遺伝子のヒートマップ
作成したヒートマップの結果を示します。BioGPSのデータを用いたヒートマップでは、 ES細胞に特徴的な遺伝子発現のパターンが見えていましたが、今回のデータではどうでしょうか?

とりあえず、大きく分けると3つのクラスターに分かれているように見えます(あくまで見えているというだけで、以下、決定的な事実というわけではありませんので、注意してください)。
一番左のクラスターには、HepG2 や MCF7 などのがん細胞が含まれています。どうやら、stem cell 関連遺伝子に関しては、 iPS細胞とがん細胞で似ていないようです。また、iPS細胞では、がん細胞ほど共通のパターンが見られません。いろいろなバリエーションのiPS細胞がありそうです。
上部のツリーの分かれ方を見ると、iPS 細胞は、さらに大きく2つのグループに分かれるようです。この2つのグループで、はっきり分かれているように見える遺伝子としては、上から3分の1ほどのクラスターに含まれる PSCA, GATA2, CDX2, MSX2, HOXB4 あたりでしょうか。
ヒートマップから読み取れる情報
ヒートマップの色付けは、 median からの距離にしていますので、 色が黒いところが低いというわけではありません。特に、一番下の行のクラスターに含まれている POU5F1 (OCT3) や NANOG は、黒く見えていますが、左側のがん細胞のデータが明るい緑なので、がん細胞よりiPSにおける発現は高いことを意味します。
また、1つのサンプルの遺伝子を1つ取って見ると、それが MCF7 に近いほど赤であったり、緑であったりします。個別に見ることには、あまり意味がないかもしれません。例えば、hiPS201B2_p67 の MSX2 や CDX2 の色は、HepG2と同程度の緑色ですが、これだけを持って何か結論づけることはできません。

繰り返しになりますが、色ではなく、実際の値を確認するほうがよいです。シグナル値が1桁程度のものでも、このような色付け方法では、差が強調されすぎる場合があります。
がん細胞だけではなく、BioGPSのように、いろいろな分化後の組織が混ざっていると、色のパターンが出やすかったかもしれません。(iPS細胞はがん細胞とは違う、ということを確認するという意味ではこれだけでよかったのかもしれませんが。)