発現変動のある遺伝子が、どの程度存在しているか、大まかに把握したい場合は、「散布図」を用います。散布図は、ボックスプロットやヒストグラムと違い、1つの散布図を作成するのに、2サンプルのデータが必要です。横軸、縦軸とも、シグナル値を表します。横軸に1つのサンプルのシグナル値を用い、縦軸にもう一方のサンプルのシグナル値を用います。また、ボックスプロットやヒストグラムと同様に、見やすくするため、マイクロアレイデータでは対数目盛を用います。


図:左は普通の目盛。右は対数目盛。普通の目盛は、等間隔であるため、シグナル値の低い部分が見づらい。マイクロアレイデータでは、散布図に右のような対数目盛を用いる。同じデータを使用*[1]。
2サンプルのデータを用いるので、特定のプローブ(遺伝子)に対して、シグナル値は2個あります。その2個のシグナル値の一方を横軸(=x軸)の値として使用し、もう一方を縦軸(=y軸)の値として使用します。つまり、2個シグナル値を、x座標とy座標として、1つの点としてプロットします。例えば、WTとKOの2つのサンプルがあり、遺伝子AのWTのシグナル値が100で、KOのシグナル値が200なら、(x, y) = (100, 200) という座標に点を1つ書きます。したがって、4万個の遺伝子について、同様のことを行うと、4万個の点が書けます。この点のパターンを見るのが散布図です。
遺伝子Aのテーブル。
ProbeID(Gene) | WT | KO |
A | 100 | 200 |
シグナル値と座標の関係から分かるように、同一サンプルで散布図を作成すると、y=x に沿った線ができます。(xとyが、4万個の遺伝子で常に同じだからです。)つまり、発現変動していない遺伝子は、xとyの大きさが近いため、y=x付近にプロットされることになります。実際に、異なる2サンプルの散布図を見ると、左下から右上にかけて(y=x)、プロットされているように見えます。したがって、「ほとんどの遺伝子が発現変動していない」ということが、視覚的に確認できます。どのメーカーのマイクロアレイを使用しても、散布図の形状は、おおむねこのような形状となります。


図:左、同一サンプルの散布図。右、繰り返しサンプルの散布図。
散布図は、ボックスプロットやヒストグラムに比べ、エクセルでも比較的簡単に書くことができます(対数目盛にもできます)。ほかの2つが書けない場合でも、散布図だけは見ておいたほうがいいでしょう。
散布図から分かること
上記の例の遺伝子Aのように、一方のサンプルで高い(または低い)遺伝子は、y=xから外れたところにプロットされます。場所としては、左上や右下に位置します。左上にプロットされた遺伝子は、横軸としたサンプルで低く、縦軸としたサンプルで高いことを意味します。逆に、右下にプロットされた遺伝子は、横軸としたサンプルで高く、縦軸としたサンプルで低いということです。
使用する2サンプルのマイクロアレイデータの分布が異なる場合、左上と右下のどちらかに偏って、点が分布していることが多いです。通常、正規化されたデータであれば、その偏りは見られません。(増加した遺伝子と減少した遺伝子の数がほぼ同じ。)
正規化後であっても、点の分布に著しく偏りがある場合は、サンプルのクオリティが疑われることもあります。
また、同一サンプルの場合、直線になることから、繰り返しサンプル(n=3など)の2サンプルで散布図を作成した場合、細いほうが理想的と言えます。太ければ、繰り返しサンプル内で、発現変動している遺伝子が数多く存在するということです。
対照的に、がん患者のサンプルのように、個体差も大きく、細胞の状態も異なると考えられる2サンプルで散布図を作成すると、太く、全体的に広がった散布図が得られます。
散布図から分からないこと
点の数が4万個と多いため、重なって表示される点も多いです。そのため、ある点がどの遺伝子を指すのか、散布図から特定するのは難しいです。また、発現変動している遺伝子の数が、具体的に何個か数えることも大変です。
まとめ
まとめると図のようになります。


[1] GSM830131, GSM830137
「マイクロアレイデータを見てみよう (4): 散布図」への4件のフィードバック