ヒートマップの色づけ (2): ratio で色づけ

高いシグナルと、低いシグナルがあるためにうまくいかないのであれば、シグナル値を fold change (ratio) に変換して色づけしてはどうでしょうか?

シグナル値を ratio に変換。
シグナル値を ratio に変換。

ratio の算出

例の場合、WTをコントロールとするので、WTの平均値で、KOのシグナル値を割ると ratio になります。

Gene A の場合は、WT の平均値が 10 なので、 KO の ratio は、10 になります。一方、WTは同じ値で割るので、1になります。(例は、シグナル値がいずれのサンプルも同じ(=ばらつきが全くない)極端なケースです。)

Gene B の場合は、WT の平均値が 1000 なので、 KO の ratio は、2 になります。WTは同じ値で割るので、1になります。

ratio で色づけ

これを色づけしてみます。変動のないところ、つまり、 ratio = 1 の部分を黒、2倍以上 (ratio > 2) を、0.5倍以下 (ratio < 0.5) をに塗るとします。

ratio で色付けした例。
ratio で色付けした例。

結果としては、コントロール群が黒で、実験群が、黒、となるヒートマップが得られます。シグナル値が高いところも低いところも、 ratio が変動していれば、変化は色として確認できます。(この意味では、目的を達成している色づけ方法といえます。)

ただ、コントロール群は、同じ値で割ることになるので、黒以外になりません。よって、ratio で色づけした場合、コントロール群をヒートマップに表示する意味はほとんどありません。

ratio を用いた場合、コントロール群で低いところは、高いところは(実験群はその逆)という、色の変化にはなりません。

 

GSEA 操作ガイド (5): 2サンプルの場合

これまでに紹介した解析方法は、繰り返しサンプルがある場合 (n=3 以上のデータ)です。データが、コントロールと実験の2サンプルしかない場合は、Rank の算出方法を変更しなければなりません。

隠されたパラメーターで、Rankの算出方法を確認。
隠されたパラメーターで、Rankの算出方法を確認。

1. 隠されたパラメーター

Rank の算出方法は、GSEA に設定するパラメーターのうち、隠されている部分にあります。”Show” をクリックして、”Metric for ranking genes” の表示を確認してください。標準の設定では、算出方法は、 “Signal2Noise” となっています。2サンプルでは、標準偏差が算出できませんから、この Rank の算出方法は利用できません。

2. その他の Rank の算出方法

項目をクリックすると、その他の Rank の算出方法が表示されます。2サンプルの場合で、シグナル値がlog変換されていなければ、 “log2_Ratio_of_Classes” を選んでください。ratio を選んでください。例えば、 “Ratio_of_Classes” です。もし、読み込んだデータのシグナル値が、log2変換後の値であれば、 “Diff_of_Classes” でもよいでしょう。

その他の Rank の算出方法。
その他の Rank の算出方法。

Rank として、 ratio を使う場合は、当然、シグナル値の大きさは考慮されません。シグナル値が 10 から 100 に変化した、10倍であっても、1000 から 10000 に変化した10倍も、同じ評価です。

繰り返し実験のばらつきで示したように、どうしてもシグナル値の低い部分で大きな ratio が出やすいため、GSEAの結果として、意味のない動き(ノイズ)を拾ってしまう可能性があります。

ノイズの多いデータかどうか、事前に散布図やMAプロットで確認しておきましょう。

 

繰り返し実験のばらつき(2)

前回は、同じ条件のサンプルを散布図で比較した例を紹介しました。同じデータを MA プロットでも見てみましょう。(見方は、こちらその続きを参照してください。)

繰り返しサンプルのMAプロット。シグナル値が低い部分で変動しているように見える。
繰り返しサンプルのMAプロット。シグナル値が低い部分で変動しているように見える。縦軸、横軸とも対数目盛りで表示。

ほとんどの遺伝子が、 0.5 < ratio < 2 の区間 (-1 < M < 1 の区間) に分布しています。つまり、発現変動していないように見えます(黒い部分)。

一方、一部の遺伝子は、 ratio = 2 または、 ratio = 0.5 のライン(赤線)を超えていることも確認できます。よく見ると、これらの遺伝子は、シグナル値の低い部分に多く見られることが分かります。図ではに色づけされた遺伝子が3300個ほどありますが、このうち、2サンプルのシグナル値の平均値が100以下のものが3100個ほどです。(例えば、WT1=50, WT2=100 で、ratio = 2 のものなど) 続きを読む 繰り返し実験のばらつき(2)

 

MA プロット(シグナル値の高低と ratio の関係)

通常、MAプロットは、log2変換された値を用いて示されます。

MA プロット。縦軸(M)、横軸(A)とも、log2変換された値。
MA プロット。縦軸(M)、横軸(A)とも、log2変換された値。

見慣れないというかたは、次の対数目盛り(2のべき乗)の結果と見比べてみてください。

目盛りを、対数目盛り(2の倍数)で表示した MA プロット図。
目盛りを、対数目盛り(2のべき乗)で表示した MA プロット図。

M = 0 のところが、2の0乗、すなわち、ratio = 1です。また、A = 10 は、2の10乗、すなわち、 1024です。赤い部分は、 ratio > 2 の遺伝子です。青い部分は、 ratio < 0.5 の遺伝子です。

プロット図の左に行くほど、シグナル値は低く、右に行くほど、シグナル値は高いです。赤い部分または青い部分を見ると、大きく変動している遺伝子が多いように見えますが、それらのほとんどが、シグナル値の低い部分に集中していることが実感できるのではないでしょうか?(シグナル値の平均値が 32 以下。)

シグナル値の高低と、ratio の関係。
シグナル値の高低と、ratio の関係。
 

MA プロット (MA Plot)

ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。

MAプロットに用いるデータ

MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。

  • M = log2(実験サンプル) – log2(コントロールサンプル)
  • A =  { log2(実験サンプル) + log2(コントロールサンプル) } / 2

M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。

MAplot
MA プロットの例。

作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: redG: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。

続きを読む MA プロット (MA Plot)