マイクロアレイデータの解析例 2.1 (iPS細胞のデータ、正規化)

この解析例の紹介では、遺伝子発現のデータはどういうものか実感できるように、いろいろな種類のデータを取り上げたいと思います。

単純なタイムコースのデータに続き、今回は、iPS細胞のデータを取り扱います。

iPS細胞のマイクロアレイデータを取得

例のように GEO から、 iPS 細胞のマイクロアレイデータを取得します。GSE42445 のデータです。様々なバリエーションのヒトのiPS細胞 (hiPS) と幹細胞 (hES)、がん細胞 (MCF7など) のデータです。70サンプルあります。

マイクロアレイデータの正規化とボックスプロット

ここでは、rawデータを取得し、 シグナル値を取り出して、 quantile 法で正規化しました。(正規化後のデータ: Series Matrix File を取得して、そのまま用いても良いでしょう。)

正規化前 (raw) のデータをボックスプロットで表示すると下図のようになります。特に大きく外れたサンプルはないようです。右端のがん細胞のデータが若干低いようですが、よくある程度だと思います。

iPS細胞のデータのボックスプロット。正規化前。

正規化後のデータをボックスプロットで表示すると下図のようになります。データの分布がそろっていることが確認できます。

iPS細胞のデータのボックスプロット。正規化後。

参考

  • Koyanagi-Aoi M, Ohnuki M, Takahashi K, Okita K et al. Differentiation-defective phenotypes revealed by large-scale analyses of human pluripotent stem cells. Proc Natl Acad Sci U S A 2013 Dec 17;110(51):20569-74. PMID: 24259714
 

マイクロアレイデータの解析例 1.2 (ボックスプロット、正規化)

ダウンロードしたデータを用いて、ボックスプロットを作成してみましょう。マイクロアレイデータは、まず、ボックスプロットや散布図を書いて、シグナル値の状態を確認することをおすすめします。

シグナル値のばらつきが極端に大きい場合は、データのクオリティが良くない(サンプルのコンディションが悪い、RNAの分解が進んでいる)ことも考えられれます。

raw データのボックスプロット

raw データ(正規化前)の散布図を示します。便宜上、サンプルの名前を、293T_16hr_Control = control1, 293T_16hr_muTRPV3 = sample1 のように変更しています。サンプルによって、多少上下していることが確認できます。サンプルのクオリティは悪くないように見えます。

raw データのボックスプロット

使用した raw データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/igxolub38mrm0po/rawdata.txt.zip?dl=0

(Agilent の raw データのファイルからシグナル値だけを取り出す方法については割愛します。)

正規化後データのボックスプロット

続いて、正規化後データ (normalized data) のボックスプロットです。ここでは、正規化のアルゴリズムとして、 quantile 法* を用いています。データの分布がそろっていることが確認できます。

正規化後データのボックスプロット。

使用した正規化後データの値は、下記よりダウンロードできます。

https://www.dropbox.com/s/2m1poolbqz9vizh/normalized_data.txt.zip?dl=0

極端に分布の異なるサンプルは、正規化の際(アルゴリズムによっては)、他のサンプルのシグナル値にも影響を与えることもあります。物理的なサンプルの状況を確認して、RNAの分解などが疑われる場合は、そのサンプルを除外して正規化を行ったほうがよいでしょう。

* Bolstad et al. A comparison of normalization methods for high density oligonucleotide array data based on variance and bias. Bioinformatics (2003) vol. 19 (2) pp. 185-93.

 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

これまでを振り返り、再度、マイクロアレイ解析の流れについて解説します。

下図にマイクロアレイ解析のフローチャートを示します。まずは、発現変動遺伝子の抽出までの流れです。左側にフローチャートの各ステップで得られるデータの形式を表記しています。右側に各ステップで行われる処理を示しています。

  • (1) ラベリング、ハイブリダイゼーション。
  • (2) スキャン、数値化。
  • (3) 正規化(コントロールを合わせる処理。全体の分布を統計的に合わせるもの (global normalization) が主流。
  • (4) シグナル値の比較。 ratio (fold-change), Z-score, p-value などを算出する。
  • (5) 発現変動遺伝子の抽出。算出された ratio, Z-score, p-value をもとに遺伝子発現が増加減少)した遺伝子をピックアップ。

 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出
マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

 

ここまでの解析ステップが、マイクロアレイの最も基礎的な解析ステップとなります。このステップで、遺伝子発現が増加減少)した遺伝子群のリストが得られます。しかしながら、変動している遺伝子(発現に差のある遺伝子)が、どれか分かっただけであり、その後の解析が必要です。通常、数百個から数千個の遺伝子が発現変動しています。

解析のステップとして、次に何をすべきでしょうか?