マイクロアレイデータを見てみよう (4): 散布図

発現変動のある遺伝子が、どの程度存在しているか、大まかに把握したい場合は、「散布図」を用います。散布図は、ボックスプロットヒストグラムと違い、1つの散布図を作成するのに、2サンプルのデータが必要です。横軸、縦軸とも、シグナル値を表します。横軸に1つのサンプルのシグナル値を用い、縦軸にもう一方のサンプルのシグナル値を用います。また、ボックスプロットやヒストグラムと同様に、見やすくするため、マイクロアレイデータでは対数目盛を用います。



散布図の例

図:左は普通の目盛。右は対数目盛。普通の目盛は、等間隔であるため、シグナル値の低い部分が見づらい。マイクロアレイデータでは、散布図に右のような対数目盛を用いる。同じデータを使用*[1]。

2サンプルのデータを用いるので、特定のプローブ(遺伝子)に対して、シグナル値は2個あります。その2個のシグナル値の一方を横軸(=x軸)の値として使用し、もう一方を縦軸(=y軸)の値として使用します。つまり、2個シグナル値を、x座標とy座標として、1つの点としてプロットします。例えば、WTとKOの2つのサンプルがあり、遺伝子AのWTのシグナル値が100で、KOのシグナル値が200なら、(x, y) = (100, 200) という座標に点を1つ書きます。したがって、4万個の遺伝子について、同様のことを行うと、4万個の点が書けます。この点のパターンを見るのが散布図です。

遺伝子Aのテーブル。

ProbeID(Gene) WT KO
A 100 200

シグナル値と座標の関係から分かるように、同一サンプルで散布図を作成すると、y=x に沿った線ができます。(xとyが、4万個の遺伝子で常に同じだからです。)つまり、発現変動していない遺伝子は、xとyの大きさが近いため、y=x付近にプロットされることになります。実際に、異なる2サンプルの散布図を見ると、左下から右上にかけて(y=x)、プロットされているように見えます。したがって、「ほとんどの遺伝子が発現変動していない」ということが、視覚的に確認できます。どのメーカーのマイクロアレイを使用しても、散布図の形状は、おおむねこのような形状となります。

同一サンプル、繰り返しサンプルの散布図。



図:左、同一サンプルの散布図。右、繰り返しサンプルの散布図。

散布図は、ボックスプロットやヒストグラムに比べ、エクセルでも比較的簡単に書くことができます(対数目盛にもできます)。ほかの2つが書けない場合でも、散布図だけは見ておいたほうがいいでしょう。

散布図から分かること

上記の例の遺伝子Aのように、一方のサンプルで高い(または低い)遺伝子は、y=xから外れたところにプロットされます。場所としては、左上や右下に位置します。左上にプロットされた遺伝子は、横軸としたサンプルで低く、縦軸としたサンプルで高いことを意味します。逆に、右下にプロットされた遺伝子は、横軸としたサンプルで高く、縦軸としたサンプルで低いということです。
使用する2サンプルのマイクロアレイデータの分布が異なる場合、左上と右下のどちらかに偏って、点が分布していることが多いです。通常、正規化されたデータであれば、その偏りは見られません。(増加した遺伝子と減少した遺伝子の数がほぼ同じ。)
正規化後であっても、点の分布に著しく偏りがある場合は、サンプルのクオリティが疑われることもあります。

また、同一サンプルの場合、直線になることから、繰り返しサンプル(n=3など)の2サンプルで散布図を作成した場合、細いほうが理想的と言えます。太ければ、繰り返しサンプル内で、発現変動している遺伝子が数多く存在するということです。

対照的に、がん患者のサンプルのように、個体差も大きく、細胞の状態も異なると考えられる2サンプルで散布図を作成すると、太く、全体的に広がった散布図が得られます。

散布図から分からないこと

点の数が4万個と多いため、重なって表示される点も多いです。そのため、ある点がどの遺伝子を指すのか、散布図から特定するのは難しいです。また、発現変動している遺伝子の数が、具体的に何個か数えることも大変です。

まとめ

まとめると図のようになります。

散布図の表すもの。


[1] GSM830131, GSM830137

 

投稿者:

Atsushi Doi

株式会社セルイノベーター 取締役、研究開発部部長。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。