マイクロアレイデータの解析例 2.6 (組織が異なる場合の散布図)

クラスタリングされたヒートマップによる表示がいつも効果的とは限りません。ヒートマップからは変動の大きさを実感しにくいと思います。散布図も確認してみましょう。

iPS細胞どうしの散布図

iPS細胞の株どうしの散布図を示します。例として、2つの株を用いています。散布図の広がり方から、変動の大きさをイメージできます。これくらいの広がり方であれば、通常、よくある程度の変動の大きさと思います。解析例1の散布図と見比べてみてください。(つまり、似ているデータではありますが、変動していない=全く同じ、というわけではないということです。)

iPS細胞どうしの散布図。
iPS細胞どうしの散布図。

上記の散布図の色付けは、変動遺伝子を ratio と Z-score (intensity-based) の両方を用いて、判定したものになっています。

由来の異なるがん細胞どうしの散布図

では、異なる組織に由来する細胞の場合は、どれくらい広がって見えるでしょうか。HepG2 と MCF7 で比較してみましょう。

HepG2 と MCF7 を比較した散布図。
HepG2 と MCF7 を比較した散布図。

組織が異なると、散布図はこれほど広がって見えます。つまり、変動しているように見える遺伝子がそれほど多いということです。上の図では、変動遺伝子の色付けに ratio と Z-score の両方を用いているため、厳しめの判定になっています。ratio だけで判定すると、変動していると判定される遺伝子は、数千個になるでしょう。

ヒートマップでは、同じクラスターに入っていて、同じ色付けに見えるサンプルでもこれほど異なることがあります。ヒートマップだけで結果を鵜呑みにしないようにしましょう。

 iPS細胞とがん細胞の散布図

同様に iPS 細胞の株と MCF7 を散布図で比較すると下図のようになります。

iPS細胞と MCF7 の散布図。
iPS細胞と MCF7 の散布図。

由来の異なる組織の散布図と同様に、かなり広がって見えます。遺伝子発現の状態は、大きく異なっていることが推測されます。

 

マイクロアレイデータの解析例 2.5 (CD抗原、転写因子でクラスタリング、ヒートマップ)

前回に続いて、生物学的な機能で抽出した遺伝子群をクラスタリングして、ヒートマップで表示する例です。

CD抗原でクラスタリング、ヒートマップ

もし、CD抗原の遺伝子をクラスタリングして、iPS細胞の株とがん細胞でクラスターが分かれるようであれば、うまく標識して区別するのに使えるかもしれません。

アノテーションをもとに、CD抗原の遺伝子を抽出して、クラスタリングした結果を示します。

CD抗原でクラスタリング、ヒートマップで表示。
CD抗原でクラスタリング、ヒートマップで表示。

大まかではありますが、クラスターは、iPS細胞とがん細胞で分かれるようです。しかしながら、明確にがん細胞だけに共通に発現している抗原は難しいようです。CD84などを含む一番上のクラスターでは、がん細胞においても2グループに分かれているように見えます。また、いずれの CD 抗原も iPS 細胞の株において、ところどころ赤くなっている(発現が高い)部分があります。

CD200 は、がん細胞では発現が低いように見えます。いくつかの抗原を組み合わせれば、評価できるかもしれません。(CD97の発現が高い、かつ、CD200の発現が低いなど。)

なお、マイクロアレイデータは、mRNA のレベルの結果なので、CD抗原がタンパクレベルで発現しているかどうかは、別途チェックする必要があります。

転写因子でクラスタリング、ヒートマップ

「iPS細胞とがん細胞の間で変動している遺伝子を制御している遺伝子」を探すのであれば、転写因子でクラスタリングしてみるのはどうでしょうか。

転写因子をクラスタリングして、ヒートマップで表示。
転写因子をクラスタリングして、ヒートマップで表示。

ほかの機能で抽出した遺伝子群の場合と同様に、転写因子を抽出してクラスタリングした結果も、iPS細胞とがん細胞で分かれるようです。同じ変動パターンを示すのであれば、転写を制御している可能性は示せるかもしれません。ただ、転写遺伝子の数としては、2000個程度ありますので、マイクロアレイデータだけから候補を絞り込むのは大変かもしれません。

参考

  • 転写因子のヒートマップの拡大図
 

マイクロアレイデータの解析例 2.4 (機能でクラスタリング、ヒートマップ)

代謝系の遺伝子の発現パターン以外の他の機能でクラスタリングした場合は、どうでしょうか?

アポトーシス関連遺伝子をクラスタリング

アノテーションにアポトーシス関連の用語を持つ遺伝子をクラスタリングした結果です。がん細胞のクラスターに入った iPS 細胞の株はありません。

アポトーシス関連遺伝子のクラスタリング結果のヒートマップ。
アポトーシス関連遺伝子のクラスタリング結果のヒートマップ。

TGF-beta シグナリング関連遺伝子をクラスタリング

アノテーションに TGF-beta シグナリング関連の用語を持つ遺伝子をクラスタリングした結果です。がん細胞に比較的近いクラスターに入る株がありました。 hiPS_409B2_p52 です。ただ、この情報だけから判断するわけにはいきません。

TGF-beta シグナリング関連遺伝子のクラスタリング結果のヒートマップ。
TGF-beta シグナリング関連遺伝子のクラスタリング結果のヒートマップ。
TGF-beta シグナリングのクラスタリング結果のうち、がん細胞に近いクラスター。
TGF-beta シグナリングのクラスタリング結果のうち、がん細胞に近いクラスター。

参考

ヒートマップの拡大図です。

 

マイクロアレイデータの解析例 2.3 (代謝系の遺伝子をクラスタリング)

ある機能を持った遺伝子だけを抽出してクラスタリングしてみるという手法は、いろいろな場面で使えます。

糖代謝の遺伝子のクラスタリング

アノテーションの情報をもとに、糖代謝 (Glucose metabolic process) の遺伝子を抽出し、クラスタリングしてみました。

糖代謝の遺伝子をクラスタリング。

Stem cell 関連遺伝子のクラスタリング結果と同様に、がん細胞とiPS細胞のクラスターは分かれる傾向にあるようです。(hiPS2102EP4D3 hEC2102EP4D3の表記を間違えていたため後日修正しました。)

脂質代謝遺伝子のクラスタリング

同様にアノテーションに脂質代謝 (lipid metabolic process) を持つ遺伝子を抽出してクラスタリングしてみました。

脂質代謝遺伝子をクラスタリング。縮小図。

やはり、おおよその傾向は同じなのですが、HepG2だけが、がん細胞のクラスターから外れた結果となりました。この脂質代謝は、肝細胞で盛んな機能であることを考えると面白い結果ではないでしょうか。(HepG2は肝癌由来の細胞株です。)

HepG2を含むクラスター。

肝細胞に分化させたいのであれば、HepG2と同じクラスターに入った iPS 細胞の株を使うのが効率的かもしれません。

いずれも、マイクロアレイデータだけからは、断言できる結果ではありませんが、「これらのデータは公開されている」という点は注目すべきではないでしょうか。

 

特定の組織で発現の高い遺伝子を探す(ES細胞だけで発現の高いものは?)

ヒートマップとクラスタリングを応用することで、特定の組織で発現の高い遺伝子を探すことも可能です。

例えば、ES細胞だけで発現の高い遺伝子を探してみましょう。

公開データ (GEO, BioGPS) を利用して、いろいろな組織のデータを取得

まず、データとしては、様々な組織のマイクロアレイデータが必要になります。個々の研究室レベルで揃えようと思うと大変ですが、幸い近年では公開データがあるので、うまく利用しましょう。

いろいろな組織の遺伝子発現を比較したければ、 BioGPS のデータが使えます。心臓、肝臓、肺などの種々の組織、約180サンプルぶんのマイクロアレイデータがあります。

クラスタリングしてヒートマップで表示

データを取得したら、正規化して、クラスタリングを行い、結果をヒートマップで表示します。ここでは、RMA と quantile アルゴリズムによって正規化し、階層的クラスタリングを行いました。

全遺伝子では結果を見るのが大変なので、正規化後、アノテーションを元に stem cell 関連遺伝子だけを抽出しています。また、MeV上で、シグナル値を log2変換して、中央値からの距離に変換しています。クラスタリングは、遺伝子方向、サンプル方向とも階層的クラスタリングで行っています。

結果は下図のようになります。遺伝子が縦に並んでいます(行)。組織(サンプル)が横に並んでいます(列)。

stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。
stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。

ES細胞だけで発現が高い遺伝子

左から3分の1ほどの列に、ES細胞のデータ(4列)が並んでいます。これらの4列だけで、赤くなっている遺伝子があれば、それらが、ES細胞だけで発現が高い遺伝子です。

探してみると、真ん中より少し上にある遺伝子のクラスターに、ちょうど4列だけ赤い部分があります。ハイライトすると下図の部分です。遺伝子名を確認すると、Pou5f1 = Oct3, Nanog など有名な遺伝子が該当しているのが分かります。(見やすいように横方向を縮小しています。)

ES細胞だけで発現の高い遺伝子をハイライト。
ES細胞だけで発現の高い遺伝子をハイライト。

なお、色付けの設定から、「黒=発現していない」ではない、ので注意してください。