マイクロアレイデータの解析例 1.3 (散布図、正規化の影響)

ボックスプロットを確認したら、次は散布図 (scatter plot) も確認してみましょう。

散布図

例として、 control2 と sample2 を比較した場合の散布図を示します。 ratio > 2 のプローブ(=遺伝子)を、 ratio < 0.5 の遺伝子をに色づけしています。正規化後データを用いています。

正規化後データの散布図。
正規化後データの散布図。

散布図の広がり方から、平均的なデータのように見えます。(がんのサンプルや、変動が大きいデータでは、もっと点が全体に散らばって見えます。)

正規化の影響

rawとして、正規化前のデータの散布図も作成しました。

raw データの散布図。シグナル値の分布に偏りが見られる。
raw データの散布図。シグナル値の分布に偏りが見られる。

よく見ると、rawデータと、正規化後のデータでは、(ratio で判定した場合)変動ありと判定される遺伝子に異なる部分があることがわかります。特にシグナル値の高い部分です。

散布図の左下から右上に引かれた赤線は、 y=x を意味しています。raw データの散布図は、集団が y=x より下に膨らんで見えています。そのため、rawデータをそのまま用いると、sample2で減少した遺伝子が多く見つかり、増加した遺伝子は少なく見つかることになります。

一方、正規化後データの散布図では、点の中心が y=x 上に載っていることが分かります。(=ほとんどの遺伝子が変動していない。偏りがない。)

このように散布図を確認すると、raw, 正規化前のデータに偏り(バイアス)がないか、また、正規化後のデータから偏りが解消されているのか確認できます。

スコアだけで判断して、結果を誤って解釈しないよう、散布図を必ずチェックするようにしましょう。

 

投稿者:

Atsushi Doi

株式会社セルイノベーター 取締役、研究開発部部長。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

コメントを残す