マイクロアレイデータの解析例 1.3 (散布図、正規化の影響)

ボックスプロットを確認したら、次は散布図 (scatter plot) も確認してみましょう。

散布図

例として、 control2 と sample2 を比較した場合の散布図を示します。 ratio > 2 のプローブ(=遺伝子)を、 ratio < 0.5 の遺伝子をに色づけしています。正規化後データを用いています。

正規化後データの散布図。
正規化後データの散布図。

散布図の広がり方から、平均的なデータのように見えます。(がんのサンプルや、変動が大きいデータでは、もっと点が全体に散らばって見えます。)

正規化の影響

rawとして、正規化前のデータの散布図も作成しました。

raw データの散布図。シグナル値の分布に偏りが見られる。
raw データの散布図。シグナル値の分布に偏りが見られる。

よく見ると、rawデータと、正規化後のデータでは、(ratio で判定した場合)変動ありと判定される遺伝子に異なる部分があることがわかります。特にシグナル値の高い部分です。

散布図の左下から右上に引かれた赤線は、 y=x を意味しています。raw データの散布図は、集団が y=x より下に膨らんで見えています。そのため、rawデータをそのまま用いると、sample2で減少した遺伝子が多く見つかり、増加した遺伝子は少なく見つかることになります。

一方、正規化後データの散布図では、点の中心が y=x 上に載っていることが分かります。(=ほとんどの遺伝子が変動していない。偏りがない。)

このように散布図を確認すると、raw, 正規化前のデータに偏り(バイアス)がないか、また、正規化後のデータから偏りが解消されているのか確認できます。

スコアだけで判断して、結果を誤って解釈しないよう、散布図を必ずチェックするようにしましょう。

 

マイクロアレイデータの解析例 1.2 (ボックスプロット、正規化)

ダウンロードしたデータを用いて、ボックスプロットを作成してみましょう。マイクロアレイデータは、まず、ボックスプロットや散布図を書いて、シグナル値の状態を確認することをおすすめします。

シグナル値のばらつきが極端に大きい場合は、データのクオリティが良くない(サンプルのコンディションが悪い、RNAの分解が進んでいる)ことも考えられれます。

raw データのボックスプロット

raw データ(正規化前)の散布図を示します。便宜上、サンプルの名前を、293T_16hr_Control = control1, 293T_16hr_muTRPV3 = sample1 のように変更しています。サンプルによって、多少上下していることが確認できます。サンプルのクオリティは悪くないように見えます。

raw データのボックスプロット

使用した raw データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/igxolub38mrm0po/rawdata.txt.zip?dl=0

(Agilent の raw データのファイルからシグナル値だけを取り出す方法については割愛します。)

正規化後データのボックスプロット

続いて、正規化後データ (normalized data) のボックスプロットです。ここでは、正規化のアルゴリズムとして、 quantile 法* を用いています。データの分布がそろっていることが確認できます。

正規化後データのボックスプロット。

使用した正規化後データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/2m1poolbqz9vizh/normalized_data.txt.zip?dl=0

極端に分布の異なるサンプルは、正規化の際(アルゴリズムによっては)、他のサンプルのシグナル値にも影響を与えることもあります。物理的なサンプルの状況を確認して、RNAの分解などが疑われる場合は、そのサンプルを除外して正規化を行ったほうがよいでしょう。

* Bolstad et al. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics (2003) vol. 19 (2) pp. 185-93.

 

マイクロアレイデータの解析例 1.1 (データのダウンロード)

GEO に公開されたデータを利用して、実際に解析を行ってみましょう。マイクロアレイ解析によって、どのような情報が得られるのかイメージがつかめると思います。

マイクロアレイデータ

まずは、 GSE53614 のデータを使ってみます。293T cell lines を用いた解析のようです。サンプル名から推測するに、3つのタイムポイント (16hr, 24hr, 40hr) があり、それぞれに、コントロールと対照サンプルがあるようです。また、使用されたアレイは、 Agilent SurePrint G3 Human GE 8x60Kv2 です。

GSE53614

マイクロアレイデータの取得

データを取得します。取得する方法は、いくつかあります。著者らが正規化したデータをそのまま利用するには、 “Series Matrix Files(s)” をダウンロードしましょう。正規化からやり直す場合は、その下の GSE53614_RAW.tar をダウンロードします。 (ここでは、正規化前のデータを用いました。)

マイクロアレイデータの取得

なお、 SOFT形式のデータをダウンロードすれば、アノテーションが付いた状態のファイルを取得できますが、計算時に読み込むときに苦労する場合があります。また、MINiML形式の場合も、XML形式のデータであるため、計算に用いない情報が含まれています。

Series Matrix File の始めの行(ヘッダー)は、サンプル情報です。 ID_REF から始まる行以降のデータが、正規化後のデータです。1列目はプローブのIDです。2列目以降に各サンプルのシグナル値があります。(6サンプルなので6列)プローブの ID が A_ で始まらないものは、バックグラウンドなどの値です。

サンプル情報がヘッダーに含まれています。
サンプル情報がヘッダーに含まれています。