ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。
MAプロットに用いるデータ
MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MとAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。
- M = log2(実験サンプル) – log2(コントロールサンプル)
- A = { log2(実験サンプル) + log2(コントロールサンプル) } / 2
M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。
作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: red と G: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。
散布図とヒストグラムに対するMAプロットのイメージ
散布図は、シグナル値のばらつきを確認できます。変動の大きい遺伝子が、シグナル値の低い部分に多そうだと分かります。しかし、増加した遺伝子:ratio > 2 (または減少した遺伝子:ratio < 0.5)がどれくらい存在するかは、縮尺の関係上、少し確認しづらいと思います。
一方、ヒストグラムは、ratio > 2 の遺伝子がどれくらい、または、発現変動していない遺伝子(ratio ほぼ 1 )がどれくらい?を確認することに向いています。しかし、ratio > 2 の遺伝子のシグナル値は、高いのか低いのか分かりません。(シグナル値の高低とは無関係に、 ratio > 2 の遺伝子の数をカウントしています。)
MAプロットは、これらシグナル値のばらつきと、 logFC (fold-change, ratio) の関係を同時に確認できます。
- M > 1 ということは、logFC > 1 つまり、ratio > 2 。(発現増加)
- M = 0 ということは、logFC = 0 つまり、ratio = 1。(変動なし)
- M < -1 ということは、logFC < -1 つまり、ratio < 0.5。(発現減少)
MAプロットを見ると、大部分の遺伝子は発現変動しておらず、かつ、シグナル値の低い部分に、発現増加または減少している遺伝子が多く含まれることが実感できるのではないでしょうか。(発現変動遺伝子をratioのみで判定した場合。)
[1] Dudoit, S, Yang, YH, Callow, MJ, Speed, TP. (2002). Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments. Stat. Sin. 12:1 111-139.
[2] http://en.wikipedia.org/wiki/MA_plot
「MA プロット (MA Plot)」への1件のフィードバック