繰り返し実験のばらつき(2)

前回は、同じ条件のサンプルを散布図で比較した例を紹介しました。同じデータを MA プロットでも見てみましょう。(見方は、こちらその続きを参照してください。)

繰り返しサンプルのMAプロット。シグナル値が低い部分で変動しているように見える。
繰り返しサンプルのMAプロット。シグナル値が低い部分で変動しているように見える。縦軸、横軸とも対数目盛りで表示。

ほとんどの遺伝子が、 0.5 < ratio < 2 の区間 (-1 < M < 1 の区間) に分布しています。つまり、発現変動していないように見えます(黒い部分)。

一方、一部の遺伝子は、 ratio = 2 または、 ratio = 0.5 のライン(赤線)を超えていることも確認できます。よく見ると、これらの遺伝子は、シグナル値の低い部分に多く見られることが分かります。図ではに色づけされた遺伝子が3300個ほどありますが、このうち、2サンプルのシグナル値の平均値が100以下のものが3100個ほどです。(例えば、WT1=50, WT2=100 で、ratio = 2 のものなど) 続きを読む 繰り返し実験のばらつき(2)

 

繰り返し実験のばらつき(1)

次の散布図を見てください。これは、GEOから取得した繰り返し実験を含むデータのうち、条件の同じ WT の2サンプルを比較したものです。(散布図の見方は前記事を参照。)

繰り返し実験における散布図の例。
繰り返し実験における散布図の例。

理想的に考えると、同じWTという条件で取得された遺伝子発現データなので、全く同じ結果、つまり、発現が変動している遺伝子が存在しないことが期待されるでしょう。確かに、大部分の遺伝子(4万遺伝子のうち3万以上は)変動していないように見えます。

しかしながら、変動しているように見える複数の遺伝子が、散布図から確認できます。(散布図の左上、または右下の点の存在。)

変動しているように見える遺伝子。
変動しているように見える遺伝子。

これらの遺伝子の変動は、いわゆる、「ばらつき」と考えられます。たまたま、変動したように見えただけで、次に同じ実験をしたら、観察されない変動かもしれません。

さらに、意識すべきポイントは、同じ条件であっても、たまたま変動しているように見えるものがあったということです。よって、WTとKOのように異なる条件で比較した際も、このような点が存在する可能性があるといえるでしょう。

したがって、マイクロアレイ実験の場合、1回しか実験しないことは、あまりおすすめできません。(RNA-seq も同様です。)

In particular, biological replication of each condition is crucial. –Nature Protocols, Vol.7, No.3, 2012, p569.

 

MA プロット(シグナル値の高低と ratio の関係)

通常、MAプロットは、log2変換された値を用いて示されます。

MA プロット。縦軸(M)、横軸(A)とも、log2変換された値。
MA プロット。縦軸(M)、横軸(A)とも、log2変換された値。

見慣れないというかたは、次の対数目盛り(2のべき乗)の結果と見比べてみてください。

目盛りを、対数目盛り(2の倍数)で表示した MA プロット図。
目盛りを、対数目盛り(2のべき乗)で表示した MA プロット図。

M = 0 のところが、2の0乗、すなわち、ratio = 1です。また、A = 10 は、2の10乗、すなわち、 1024です。赤い部分は、 ratio > 2 の遺伝子です。青い部分は、 ratio < 0.5 の遺伝子です。

プロット図の左に行くほど、シグナル値は低く、右に行くほど、シグナル値は高いです。赤い部分または青い部分を見ると、大きく変動している遺伝子が多いように見えますが、それらのほとんどが、シグナル値の低い部分に集中していることが実感できるのではないでしょうか?(シグナル値の平均値が 32 以下。)

シグナル値の高低と、ratio の関係。
シグナル値の高低と、ratio の関係。
 

MA プロット (MA Plot)

ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。

MAプロットに用いるデータ

MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。

  • M = log2(実験サンプル) – log2(コントロールサンプル)
  • A =  { log2(実験サンプル) + log2(コントロールサンプル) } / 2

M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。

MAplot
MA プロットの例。

作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: redG: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。

続きを読む MA プロット (MA Plot)

 

エクセルで log 変換

エクセルで log 変換をする方法です。下図のようなマイクロアレイデータがあったとします。1サンプルのデータが示されています。(遺伝子数は3個)

テーブルの例
テーブルの例

B列に表示されているシグナル値を log10 変換してみます。なお、結果をC列に保存するものとします。

(1) まず、C2のセルに “=log10(B2)” と入力します。”=” を忘れずに入力してください。

log10変換
log10変換

C2のセルに計算結果が表示されます。(この場合は、1)

(2) 次に、このセルをコピーしてください。

結果のコピー
結果のコピー

(3) そして、3行目以降のセルを選択した状態で、ペーストします。これで、3行目以降も同様の計算が行われ、計算結果が表示されます。

計算結果のペースト
計算結果のペースト

計算結果が表示されます。底が 10 の変換なので “=log(B2, 10)” でも同じ結果を得られます。 log2変換したい場合は、 “=log(B2, 2)” と入力します。

計算結果の表示
計算結果の表示