マイクロアレイデータの解析例 2.6 (組織が異なる場合の散布図)

クラスタリングされたヒートマップによる表示がいつも効果的とは限りません。ヒートマップからは変動の大きさを実感しにくいと思います。散布図も確認してみましょう。

iPS細胞どうしの散布図

iPS細胞の株どうしの散布図を示します。例として、2つの株を用いています。散布図の広がり方から、変動の大きさをイメージできます。これくらいの広がり方であれば、通常、よくある程度の変動の大きさと思います。解析例1の散布図と見比べてみてください。(つまり、似ているデータではありますが、変動していない=全く同じ、というわけではないということです。)

iPS細胞どうしの散布図。
iPS細胞どうしの散布図。

上記の散布図の色付けは、変動遺伝子を ratio と Z-score (intensity-based) の両方を用いて、判定したものになっています。

由来の異なるがん細胞どうしの散布図

では、異なる組織に由来する細胞の場合は、どれくらい広がって見えるでしょうか。HepG2 と MCF7 で比較してみましょう。

HepG2 と MCF7 を比較した散布図。
HepG2 と MCF7 を比較した散布図。

組織が異なると、散布図はこれほど広がって見えます。つまり、変動しているように見える遺伝子がそれほど多いということです。上の図では、変動遺伝子の色付けに ratio と Z-score の両方を用いているため、厳しめの判定になっています。ratio だけで判定すると、変動していると判定される遺伝子は、数千個になるでしょう。

ヒートマップでは、同じクラスターに入っていて、同じ色付けに見えるサンプルでもこれほど異なることがあります。ヒートマップだけで結果を鵜呑みにしないようにしましょう。

 iPS細胞とがん細胞の散布図

同様に iPS 細胞の株と MCF7 を散布図で比較すると下図のようになります。

iPS細胞と MCF7 の散布図。
iPS細胞と MCF7 の散布図。

由来の異なる組織の散布図と同様に、かなり広がって見えます。遺伝子発現の状態は、大きく異なっていることが推測されます。

 

マイクロアレイデータの解析例 1.3 (散布図、正規化の影響)

ボックスプロットを確認したら、次は散布図 (scatter plot) も確認してみましょう。

散布図

例として、 control2 と sample2 を比較した場合の散布図を示します。 ratio > 2 のプローブ(=遺伝子)を、 ratio < 0.5 の遺伝子をに色づけしています。正規化後データを用いています。

正規化後データの散布図。
正規化後データの散布図。

散布図の広がり方から、平均的なデータのように見えます。(がんのサンプルや、変動が大きいデータでは、もっと点が全体に散らばって見えます。)

正規化の影響

rawとして、正規化前のデータの散布図も作成しました。

raw データの散布図。シグナル値の分布に偏りが見られる。
raw データの散布図。シグナル値の分布に偏りが見られる。

よく見ると、rawデータと、正規化後のデータでは、(ratio で判定した場合)変動ありと判定される遺伝子に異なる部分があることがわかります。特にシグナル値の高い部分です。

散布図の左下から右上に引かれた赤線は、 y=x を意味しています。raw データの散布図は、集団が y=x より下に膨らんで見えています。そのため、rawデータをそのまま用いると、sample2で減少した遺伝子が多く見つかり、増加した遺伝子は少なく見つかることになります。

一方、正規化後データの散布図では、点の中心が y=x 上に載っていることが分かります。(=ほとんどの遺伝子が変動していない。偏りがない。)

このように散布図を確認すると、raw, 正規化前のデータに偏り(バイアス)がないか、また、正規化後のデータから偏りが解消されているのか確認できます。

スコアだけで判断して、結果を誤って解釈しないよう、散布図を必ずチェックするようにしましょう。

 

MA プロット(シグナル値の高低と ratio の関係)

通常、MAプロットは、log2変換された値を用いて示されます。

MA プロット。縦軸(M)、横軸(A)とも、log2変換された値。
MA プロット。縦軸(M)、横軸(A)とも、log2変換された値。

見慣れないというかたは、次の対数目盛り(2のべき乗)の結果と見比べてみてください。

目盛りを、対数目盛り(2の倍数)で表示した MA プロット図。
目盛りを、対数目盛り(2のべき乗)で表示した MA プロット図。

M = 0 のところが、2の0乗、すなわち、ratio = 1です。また、A = 10 は、2の10乗、すなわち、 1024です。赤い部分は、 ratio > 2 の遺伝子です。青い部分は、 ratio < 0.5 の遺伝子です。

プロット図の左に行くほど、シグナル値は低く、右に行くほど、シグナル値は高いです。赤い部分または青い部分を見ると、大きく変動している遺伝子が多いように見えますが、それらのほとんどが、シグナル値の低い部分に集中していることが実感できるのではないでしょうか?(シグナル値の平均値が 32 以下。)

シグナル値の高低と、ratio の関係。
シグナル値の高低と、ratio の関係。
 

MA プロット (MA Plot)

ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。

MAプロットに用いるデータ

MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。

  • M = log2(実験サンプル) – log2(コントロールサンプル)
  • A =  { log2(実験サンプル) + log2(コントロールサンプル) } / 2

M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。

MAplot
MA プロットの例。

作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: redG: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。

続きを読む MA プロット (MA Plot)

 

マイクロアレイデータを見てみよう (4): 散布図

発現変動のある遺伝子が、どの程度存在しているか、大まかに把握したい場合は、「散布図」を用います。散布図は、ボックスプロットヒストグラムと違い、1つの散布図を作成するのに、2サンプルのデータが必要です。横軸、縦軸とも、シグナル値を表します。横軸に1つのサンプルのシグナル値を用い、縦軸にもう一方のサンプルのシグナル値を用います。また、ボックスプロットやヒストグラムと同様に、見やすくするため、マイクロアレイデータでは対数目盛を用います。



散布図の例

図:左は普通の目盛。右は対数目盛。普通の目盛は、等間隔であるため、シグナル値の低い部分が見づらい。マイクロアレイデータでは、散布図に右のような対数目盛を用いる。同じデータを使用*[1]。

2サンプルのデータを用いるので、特定のプローブ(遺伝子)に対して、シグナル値は2個あります。その2個のシグナル値の一方を横軸(=x軸)の値として使用し、もう一方を縦軸(=y軸)の値として使用します。つまり、2個シグナル値を、x座標とy座標として、1つの点としてプロットします。例えば、WTとKOの2つのサンプルがあり、遺伝子AのWTのシグナル値が100で、KOのシグナル値が200なら、(x, y) = (100, 200) という座標に点を1つ書きます。したがって、4万個の遺伝子について、同様のことを行うと、4万個の点が書けます。この点のパターンを見るのが散布図です。

遺伝子Aのテーブル。

ProbeID(Gene) WT KO
A 100 200

シグナル値と座標の関係から分かるように、同一サンプルで散布図を作成すると、y=x に沿った線ができます。(xとyが、4万個の遺伝子で常に同じだからです。)つまり、発現変動していない遺伝子は、xとyの大きさが近いため、y=x付近にプロットされることになります。実際に、異なる2サンプルの散布図を見ると、左下から右上にかけて(y=x)、プロットされているように見えます。したがって、「ほとんどの遺伝子が発現変動していない」ということが、視覚的に確認できます。どのメーカーのマイクロアレイを使用しても、散布図の形状は、おおむねこのような形状となります。

同一サンプル、繰り返しサンプルの散布図。



図:左、同一サンプルの散布図。右、繰り返しサンプルの散布図。

散布図は、ボックスプロットやヒストグラムに比べ、エクセルでも比較的簡単に書くことができます(対数目盛にもできます)。ほかの2つが書けない場合でも、散布図だけは見ておいたほうがいいでしょう。

散布図から分かること

上記の例の遺伝子Aのように、一方のサンプルで高い(または低い)遺伝子は、y=xから外れたところにプロットされます。場所としては、左上や右下に位置します。左上にプロットされた遺伝子は、横軸としたサンプルで低く、縦軸としたサンプルで高いことを意味します。逆に、右下にプロットされた遺伝子は、横軸としたサンプルで高く、縦軸としたサンプルで低いということです。
使用する2サンプルのマイクロアレイデータの分布が異なる場合、左上と右下のどちらかに偏って、点が分布していることが多いです。通常、正規化されたデータであれば、その偏りは見られません。(増加した遺伝子と減少した遺伝子の数がほぼ同じ。)
正規化後であっても、点の分布に著しく偏りがある場合は、サンプルのクオリティが疑われることもあります。

また、同一サンプルの場合、直線になることから、繰り返しサンプル(n=3など)の2サンプルで散布図を作成した場合、細いほうが理想的と言えます。太ければ、繰り返しサンプル内で、発現変動している遺伝子が数多く存在するということです。

対照的に、がん患者のサンプルのように、個体差も大きく、細胞の状態も異なると考えられる2サンプルで散布図を作成すると、太く、全体的に広がった散布図が得られます。

散布図から分からないこと

点の数が4万個と多いため、重なって表示される点も多いです。そのため、ある点がどの遺伝子を指すのか、散布図から特定するのは難しいです。また、発現変動している遺伝子の数が、具体的に何個か数えることも大変です。

まとめ

まとめると図のようになります。

散布図の表すもの。


[1] GSM830131, GSM830137