マイクロアレイデータの解析例 1.2 (ボックスプロット、正規化)

ダウンロードしたデータを用いて、ボックスプロットを作成してみましょう。マイクロアレイデータは、まず、ボックスプロットや散布図を書いて、シグナル値の状態を確認することをおすすめします。

シグナル値のばらつきが極端に大きい場合は、データのクオリティが良くない(サンプルのコンディションが悪い、RNAの分解が進んでいる)ことも考えられれます。

raw データのボックスプロット

raw データ(正規化前)の散布図を示します。便宜上、サンプルの名前を、293T_16hr_Control = control1, 293T_16hr_muTRPV3 = sample1 のように変更しています。サンプルによって、多少上下していることが確認できます。サンプルのクオリティは悪くないように見えます。

raw データのボックスプロット

使用した raw データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/igxolub38mrm0po/rawdata.txt.zip?dl=0

(Agilent の raw データのファイルからシグナル値だけを取り出す方法については割愛します。)

正規化後データのボックスプロット

続いて、正規化後データ (normalized data) のボックスプロットです。ここでは、正規化のアルゴリズムとして、 quantile 法* を用いています。データの分布がそろっていることが確認できます。

正規化後データのボックスプロット。

使用した正規化後データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/2m1poolbqz9vizh/normalized_data.txt.zip?dl=0

極端に分布の異なるサンプルは、正規化の際(アルゴリズムによっては)、他のサンプルのシグナル値にも影響を与えることもあります。物理的なサンプルの状況を確認して、RNAの分解などが疑われる場合は、そのサンプルを除外して正規化を行ったほうがよいでしょう。

* Bolstad et al. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics (2003) vol. 19 (2) pp. 185-93.

 

マイクロアレイデータの解析例 1.1 (データのダウンロード)

GEO に公開されたデータを利用して、実際に解析を行ってみましょう。マイクロアレイ解析によって、どのような情報が得られるのかイメージがつかめると思います。

マイクロアレイデータ

まずは、 GSE53614 のデータを使ってみます。293T cell lines を用いた解析のようです。サンプル名から推測するに、3つのタイムポイント (16hr, 24hr, 40hr) があり、それぞれに、コントロールと対照サンプルがあるようです。また、使用されたアレイは、 Agilent SurePrint G3 Human GE 8x60Kv2 です。

GSE53614

マイクロアレイデータの取得

データを取得します。取得する方法は、いくつかあります。著者らが正規化したデータをそのまま利用するには、 “Series Matrix Files(s)” をダウンロードしましょう。正規化からやり直す場合は、その下の GSE53614_RAW.tar をダウンロードします。 (ここでは、正規化前のデータを用いました。)

マイクロアレイデータの取得

なお、 SOFT形式のデータをダウンロードすれば、アノテーションが付いた状態のファイルを取得できますが、計算時に読み込むときに苦労する場合があります。また、MINiML形式の場合も、XML形式のデータであるため、計算に用いない情報が含まれています。

Series Matrix File の始めの行(ヘッダー)は、サンプル情報です。 ID_REF から始まる行以降のデータが、正規化後のデータです。1列目はプローブのIDです。2列目以降に各サンプルのシグナル値があります。(6サンプルなので6列)プローブの ID が A_ で始まらないものは、バックグラウンドなどの値です。

サンプル情報がヘッダーに含まれています。
サンプル情報がヘッダーに含まれています。