MA プロット (MA Plot)

ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。

MAプロットに用いるデータ

MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。

  • M = log2(実験サンプル) – log2(コントロールサンプル)
  • A =  { log2(実験サンプル) + log2(コントロールサンプル) } / 2

M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。

MAplot
MA プロットの例。

作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: redG: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。

散布図とヒストグラムに対するMAプロットのイメージ

散布図は、シグナル値のばらつきを確認できます。変動の大きい遺伝子が、シグナル値の低い部分に多そうだと分かります。しかし、増加した遺伝子:ratio > 2  (または減少した遺伝子:ratio < 0.5)がどれくらい存在するかは、縮尺の関係上、少し確認しづらいと思います。

scatter plot
散布図の例。

一方、ヒストグラムは、ratio > 2 の遺伝子がどれくらい、または、発現変動していない遺伝子(ratio ほぼ 1 )がどれくらい?を確認することに向いています。しかし、ratio > 2 の遺伝子のシグナル値は、高いのか低いのか分かりません。(シグナル値の高低とは無関係に、 ratio > 2 の遺伝子の数をカウントしています。)

histogram
ヒストグラムの例。

MAプロットは、これらシグナル値のばらつきと、 logFC (fold-change, ratio) の関係を同時に確認できます。

  • M > 1 ということは、logFC > 1 つまり、ratio > 2 。(発現増加
  • M = 0 ということは、logFC = 0 つまり、ratio = 1。(変動なし)
  • M < -1 ということは、logFC < -1 つまり、ratio < 0.5。(発現減少
MAプロットに増加した遺伝子と減少した遺伝子を図示した例。赤:M > 1を満たす遺伝子。青:M < -1 を満たす遺伝子。
MAプロットに増加した遺伝子と減少した遺伝子を図示した例。赤:M > 1を満たす遺伝子。青:M < -1 を満たす遺伝子。

MAプロットを見ると、大部分の遺伝子は発現変動しておらず、かつ、シグナル値の低い部分に、発現増加または減少している遺伝子が多く含まれることが実感できるのではないでしょうか。(発現変動遺伝子をratioのみで判定した場合。)

[1] Dudoit, S, Yang, YH, Callow, MJ, Speed, TP. (2002). Statistical methods for identifying differentially expressed genes in replicated cDNA microarray experiments. Stat. Sin. 12:1 111-139.

[2] http://en.wikipedia.org/wiki/MA_plot

 

投稿者:

Atsushi Doi

株式会社セルイノベーター 取締役、研究開発部部長。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

「MA プロット (MA Plot)」への1件のフィードバック

コメントを残す