マイクロアレイデータの解析例 2.1 (iPS細胞のデータ、正規化)

この解析例の紹介では、遺伝子発現のデータはどういうものか実感できるように、いろいろな種類のデータを取り上げたいと思います。

単純なタイムコースのデータに続き、今回は、iPS細胞のデータを取り扱います。

iPS細胞のマイクロアレイデータを取得

例のように GEO から、 iPS 細胞のマイクロアレイデータを取得します。GSE42445 のデータです。様々なバリエーションのヒトのiPS細胞 (hiPS) と幹細胞 (hES)、がん細胞 (MCF7など) のデータです。70サンプルあります。

マイクロアレイデータの正規化とボックスプロット

ここでは、rawデータを取得し、 シグナル値を取り出して、 quantile 法で正規化しました。(正規化後のデータ: Series Matrix File を取得して、そのまま用いても良いでしょう。)

正規化前 (raw) のデータをボックスプロットで表示すると下図のようになります。特に大きく外れたサンプルはないようです。右端のがん細胞のデータが若干低いようですが、よくある程度だと思います。

iPS細胞のデータのボックスプロット。正規化前。

正規化後のデータをボックスプロットで表示すると下図のようになります。データの分布がそろっていることが確認できます。

iPS細胞のデータのボックスプロット。正規化後。

参考

  • Koyanagi-Aoi M, Ohnuki M, Takahashi K, Okita K et al. Differentiation-defective phenotypes revealed by large-scale analyses of human pluripotent stem cells. Proc Natl Acad Sci U S A 2013 Dec 17;110(51):20569-74. PMID: 24259714
 

マイクロアレイデータの解析例 1.2 (ボックスプロット、正規化)

ダウンロードしたデータを用いて、ボックスプロットを作成してみましょう。マイクロアレイデータは、まず、ボックスプロットや散布図を書いて、シグナル値の状態を確認することをおすすめします。

シグナル値のばらつきが極端に大きい場合は、データのクオリティが良くない(サンプルのコンディションが悪い、RNAの分解が進んでいる)ことも考えられれます。

raw データのボックスプロット

raw データ(正規化前)の散布図を示します。便宜上、サンプルの名前を、293T_16hr_Control = control1, 293T_16hr_muTRPV3 = sample1 のように変更しています。サンプルによって、多少上下していることが確認できます。サンプルのクオリティは悪くないように見えます。

raw データのボックスプロット

使用した raw データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/igxolub38mrm0po/rawdata.txt.zip?dl=0

(Agilent の raw データのファイルからシグナル値だけを取り出す方法については割愛します。)

正規化後データのボックスプロット

続いて、正規化後データ (normalized data) のボックスプロットです。ここでは、正規化のアルゴリズムとして、 quantile 法* を用いています。データの分布がそろっていることが確認できます。

正規化後データのボックスプロット。

使用した正規化後データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/2m1poolbqz9vizh/normalized_data.txt.zip?dl=0

極端に分布の異なるサンプルは、正規化の際(アルゴリズムによっては)、他のサンプルのシグナル値にも影響を与えることもあります。物理的なサンプルの状況を確認して、RNAの分解などが疑われる場合は、そのサンプルを除外して正規化を行ったほうがよいでしょう。

* Bolstad et al. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics (2003) vol. 19 (2) pp. 185-93.

 

マイクロアレイデータを見てみよう (2): ボックスプロット

数字(シグナル値)が4万行並んだ構造であるマイクロアレイデータを漠然と眺めていても、なかなかイメージはつかみにくいでしょう。そこで、ボックスプロット、ヒストグラム、散布図などの図にすることで、データ全体のイメージをつかむことができます。

 

ボックスプロット(boxplot, 箱ひげ図)

まず、ボックスプロットの例を示します。ボックスプロットは、箱ひげ図とも呼ばれます。シグナル値を点で表し(プロット)、最も小さいものから最も大きいものまで、縦に並べたような図です。一般的に、シグナル値は、最小のものが1桁程度、最大のものが数十万の値となります。そのまま、表示すると見づらいため、縦軸の座標は対数目盛が用いられます。たとえば、1, 10, 100, 1000, 10000, 100000などです。もしくは、log変換された値で表示されます。(その場合の目盛は、2, 3, 4, 5, 6, …,など。)なお、最小値、最大値は、点ではなく、短い横線で表されます*[1]。



ボックスプロットの例

図:ボックスプロットの例。普通の目盛(左)と対数目盛(右)。同じデータ*[2]を使用。

 

また、4万個の数字を、4万個の点で表してもよいのですが、ボックスプロットの名の示すように、点が集中している部分は、ボックス(箱)として表現されます。箱の下端と上端には意味があり、下端は、25パーセンタイル、上端は、75パーセンタイルを表します。すなわち、最小値から箱の下端までの区間に全体の25パーセントのシグナル値が存在し、箱の上端までの区間に75パーセントのシグナル値が存在するということです。さらに箱の中央に横線があり、これが50パーセンタイル(=中央値)を示します。

 

ボックスプロットから分かる事

ボックスプロットは、1サンプルにつき、1つ書きます。マイクロアレイデータは、1桁から数十万まで、幅広い値を持つことが見て取れると思います。また、箱の位置と大きさから、大多数のシグナル値(遺伝子)が数十から数百と低い値を持つ事も分かります。箱が75パーセンタイルなので、4万遺伝子中、3万遺伝子のシグナル値は、それほど大きくない*[3]ということです。

 

2サンプルのボックスプロット

図:2サンプルのボックスプロット。

複数サンプルがある場合は、それぞれのボックスプロットを横に並べて比較することになります。サンプルによって、最小値も最大値も異なることが分かります。また、中央値や箱の位置も異なっています。ただ、箱の大きさは、それほど変わらないことも分かります。これがどのような状態を意味しているかというと、サンプルによって、データが全体的に上(または下)にシフトしているということです。大きく上下にずれているサンプルどうしで ratio を計算すると、どの遺伝子の ratio も高い(または低い)という結果になってしまいます。そのため、ratio の計算の前に「正規化」という作業が必要になってきます。

また、サンプルの状態が悪いときは、箱の大きさが小さかったり、全体的に大きく下にシフトしていたりすることがあります。これもボックスプロットを書くことで確認できます。

 

ボックスプロットから分からないこと

シグナル値の分布に偏りがあるかどうかは、ボックスプロットから分かりません。また、特定の遺伝子に発現変動があるかどうかもボックスプロットから判定できません。これらを見るためには、マイクロアレイデータを別の図で表現してみる必要があります。

 

[1] 集団から外れている値があれば、横線の外側にプロットされます。
[2] GSM830131
[3] 発現していないということではありません。