ratioのヒストグラム

シグナル値そのものを書く以外に、ヒストグラムには便利な使い方があります。それは、ratio のヒストグラムです。まず、2サンプルのシグナル値から、ratio を計算します。対応するプローブ(遺伝子)ごとに、実験群のシグナル値をコントロールのシグナル値で割ることで算出できます。そして、シグナル値の代わりに、算出された ratio でヒストグラムを作成してみましょう。横軸に ratio の大きさ、縦軸に一定の区間のratioとなる遺伝子の個数を表します。また、横軸は対数目盛とします。シグナル値の場合と異なり、ratioのヒストグラムの形状としては、真ん中に高い山があり、左右の端にかけて、低くなる形状となります。

ratio のヒストグラム

真ん中の山は、ratio が1に近いことを表します。左右に分布しているのは、ratio が1以上、または、1以下ということですから、どちらかのサンプルでシグナル値が高いか、または低いということです。真ん中の山が高いことから、ほとんどの遺伝子で ratio が1付近、つまり、発現変動していない、ということが分かります。また、左右につれて山が低くなることから、大きく増減する遺伝子ほど、存在する数が少ないということが分かります。

さらに、真ん中付近の山の度数を足すと、どれくらいの遺伝子が発現変動していないか分かります。サンプルにも依りますが、ほとんどのケースで、3万個以上の遺伝子において、発現変動が見られない(0.5 < ratio < 2)ことが多いです。発現変動したと判定される遺伝子は、たかだか数千個です。

 

マイクロアレイデータを見てみよう (4): 散布図

発現変動のある遺伝子が、どの程度存在しているか、大まかに把握したい場合は、「散布図」を用います。散布図は、ボックスプロットヒストグラムと違い、1つの散布図を作成するのに、2サンプルのデータが必要です。横軸、縦軸とも、シグナル値を表します。横軸に1つのサンプルのシグナル値を用い、縦軸にもう一方のサンプルのシグナル値を用います。また、ボックスプロットやヒストグラムと同様に、見やすくするため、マイクロアレイデータでは対数目盛を用います。



散布図の例

図:左は普通の目盛。右は対数目盛。普通の目盛は、等間隔であるため、シグナル値の低い部分が見づらい。マイクロアレイデータでは、散布図に右のような対数目盛を用いる。同じデータを使用*[1]。

2サンプルのデータを用いるので、特定のプローブ(遺伝子)に対して、シグナル値は2個あります。その2個のシグナル値の一方を横軸(=x軸)の値として使用し、もう一方を縦軸(=y軸)の値として使用します。つまり、2個シグナル値を、x座標とy座標として、1つの点としてプロットします。例えば、WTとKOの2つのサンプルがあり、遺伝子AのWTのシグナル値が100で、KOのシグナル値が200なら、(x, y) = (100, 200) という座標に点を1つ書きます。したがって、4万個の遺伝子について、同様のことを行うと、4万個の点が書けます。この点のパターンを見るのが散布図です。

遺伝子Aのテーブル。

ProbeID(Gene) WT KO
A 100 200

シグナル値と座標の関係から分かるように、同一サンプルで散布図を作成すると、y=x に沿った線ができます。(xとyが、4万個の遺伝子で常に同じだからです。)つまり、発現変動していない遺伝子は、xとyの大きさが近いため、y=x付近にプロットされることになります。実際に、異なる2サンプルの散布図を見ると、左下から右上にかけて(y=x)、プロットされているように見えます。したがって、「ほとんどの遺伝子が発現変動していない」ということが、視覚的に確認できます。どのメーカーのマイクロアレイを使用しても、散布図の形状は、おおむねこのような形状となります。

同一サンプル、繰り返しサンプルの散布図。



図:左、同一サンプルの散布図。右、繰り返しサンプルの散布図。

散布図は、ボックスプロットやヒストグラムに比べ、エクセルでも比較的簡単に書くことができます(対数目盛にもできます)。ほかの2つが書けない場合でも、散布図だけは見ておいたほうがいいでしょう。

散布図から分かること

上記の例の遺伝子Aのように、一方のサンプルで高い(または低い)遺伝子は、y=xから外れたところにプロットされます。場所としては、左上や右下に位置します。左上にプロットされた遺伝子は、横軸としたサンプルで低く、縦軸としたサンプルで高いことを意味します。逆に、右下にプロットされた遺伝子は、横軸としたサンプルで高く、縦軸としたサンプルで低いということです。
使用する2サンプルのマイクロアレイデータの分布が異なる場合、左上と右下のどちらかに偏って、点が分布していることが多いです。通常、正規化されたデータであれば、その偏りは見られません。(増加した遺伝子と減少した遺伝子の数がほぼ同じ。)
正規化後であっても、点の分布に著しく偏りがある場合は、サンプルのクオリティが疑われることもあります。

また、同一サンプルの場合、直線になることから、繰り返しサンプル(n=3など)の2サンプルで散布図を作成した場合、細いほうが理想的と言えます。太ければ、繰り返しサンプル内で、発現変動している遺伝子が数多く存在するということです。

対照的に、がん患者のサンプルのように、個体差も大きく、細胞の状態も異なると考えられる2サンプルで散布図を作成すると、太く、全体的に広がった散布図が得られます。

散布図から分からないこと

点の数が4万個と多いため、重なって表示される点も多いです。そのため、ある点がどの遺伝子を指すのか、散布図から特定するのは難しいです。また、発現変動している遺伝子の数が、具体的に何個か数えることも大変です。

まとめ

まとめると図のようになります。

散布図の表すもの。


[1] GSM830131, GSM830137