ヒートマップの色づけ (2): ratio で色づけ

高いシグナルと、低いシグナルがあるためにうまくいかないのであれば、シグナル値を fold change (ratio) に変換して色づけしてはどうでしょうか?

シグナル値を ratio に変換。
シグナル値を ratio に変換。

ratio の算出

例の場合、WTをコントロールとするので、WTの平均値で、KOのシグナル値を割ると ratio になります。

Gene A の場合は、WT の平均値が 10 なので、 KO の ratio は、10 になります。一方、WTは同じ値で割るので、1になります。(例は、シグナル値がいずれのサンプルも同じ(=ばらつきが全くない)極端なケースです。)

Gene B の場合は、WT の平均値が 1000 なので、 KO の ratio は、2 になります。WTは同じ値で割るので、1になります。

ratio で色づけ

これを色づけしてみます。変動のないところ、つまり、 ratio = 1 の部分を黒、2倍以上 (ratio > 2) を、0.5倍以下 (ratio < 0.5) をに塗るとします。

ratio で色付けした例。
ratio で色付けした例。

結果としては、コントロール群が黒で、実験群が、黒、となるヒートマップが得られます。シグナル値が高いところも低いところも、 ratio が変動していれば、変化は色として確認できます。(この意味では、目的を達成している色づけ方法といえます。)

ただ、コントロール群は、同じ値で割ることになるので、黒以外になりません。よって、ratio で色づけした場合、コントロール群をヒートマップに表示する意味はほとんどありません。

ratio を用いた場合、コントロール群で低いところは、高いところは(実験群はその逆)という、色の変化にはなりません。

 

MA プロット (MA Plot)

ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。

MAプロットに用いるデータ

MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。

  • M = log2(実験サンプル) – log2(コントロールサンプル)
  • A =  { log2(実験サンプル) + log2(コントロールサンプル) } / 2

M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。

MAplot
MA プロットの例。

作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: redG: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。

続きを読む MA プロット (MA Plot)

 

log fold-change (=logFC or log ratio) の算出方法の確認(解答)

前投稿の解答です。WT と KO に、それぞれ具体的な値を入れてみると、分かりやすいかもしれません。

たとえば、WT = 128, KO = 256 であったとします。ratio = KO/WT なので、 256/128 = 2 となり、通常の ratio は、2 です。つまり、2倍に増加したことになります。では、logFC では、どうでしょうか?

  1. 先に log2 変換するので、式で書くと、 log2(KO) / log2(WT) となります。log2(256) = 8, log2(128) = 7 なので、logFC = 8/7 = 1.142 ?? 間違いです。
  2. 後で log2 変換するので、式で書くと、 log2(KO/WT) となります。 log2(256/128) = log2(2) = 1 で、正しいです。
  3. log2 変換してから、差をとります。式では、 log2(KO) – log2(WT) となります。log2(256) – log2(128) = 8-7 = 1 で、これも正しいです。
  4. 先に差をとってから、log2 変換するので、 log2(KO – WT) と書けます。log2(256 – 128) = log2 (128) = 7 ?? 間違いです。
  5. WT = 128, KO = 256 なら、logFC = 2 ?? WT = 256, KO = 128 なら logFC = -2 ?? 間違いです。

正解は、 2. と 3. です。どちらの計算方法でもよいのですが、log2変換されていれば、割り算ではないことに注意が必要です。

計算に用いているシグナル値が、log2変換された値 (log2-transformed) なのか、log2変換されていない値 (non-log) かを確認しておきましょう。

 

log fold-change (=logFC or log ratio) の算出方法の確認

log fold-change (= logFC or log ratio) の算出方法の確認です。logFC の算出方法として、正しいのは、次のうちどれでしょうか?正解は2つあります。

wild type (WT) と knock out (KO) の2サンプルのシグナル値を比較するものとします。なお、通常の fold-change (ratio) は、以前に紹介したように割り算ですので、KO を WT で割れば(KO/WT)、WTに比べて、何倍になっているか計算できます。

  1. WT と KO の値をlog2変換して、KO を WT で割る
  2. KO を WT で割ってから、算出された値をlog2変換する。
  3. WT と KO の値をlog2変換して、KO から WT を引く
  4. KO から WT を引いてから、算出された値をlog2変換する。
  5. KO を WT で割る。このとき、ratio > 1 なら、そのまま。ratio < 1 なら、逆に WT を KO で割り、ー(マイナス)の符号を付ける。
 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

これまでを振り返り、再度、マイクロアレイ解析の流れについて解説します。

下図にマイクロアレイ解析のフローチャートを示します。まずは、発現変動遺伝子の抽出までの流れです。左側にフローチャートの各ステップで得られるデータの形式を表記しています。右側に各ステップで行われる処理を示しています。

  • (1) ラベリング、ハイブリダイゼーション。
  • (2) スキャン、数値化。
  • (3) 正規化(コントロールを合わせる処理。全体の分布を統計的に合わせるもの (global normalization) が主流。
  • (4) シグナル値の比較。 ratio (fold-change), Z-score, p-value などを算出する。
  • (5) 発現変動遺伝子の抽出。算出された ratio, Z-score, p-value をもとに遺伝子発現が増加減少)した遺伝子をピックアップ。

 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出
マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

 

ここまでの解析ステップが、マイクロアレイの最も基礎的な解析ステップとなります。このステップで、遺伝子発現が増加減少)した遺伝子群のリストが得られます。しかしながら、変動している遺伝子(発現に差のある遺伝子)が、どれか分かっただけであり、その後の解析が必要です。通常、数百個から数千個の遺伝子が発現変動しています。

解析のステップとして、次に何をすべきでしょうか?