マイクロアレイデータの解析例 2.1 (iPS細胞のデータ、正規化)

この解析例の紹介では、遺伝子発現のデータはどういうものか実感できるように、いろいろな種類のデータを取り上げたいと思います。

単純なタイムコースのデータに続き、今回は、iPS細胞のデータを取り扱います。

iPS細胞のマイクロアレイデータを取得

例のように GEO から、 iPS 細胞のマイクロアレイデータを取得します。GSE42445 のデータです。様々なバリエーションのヒトのiPS細胞 (hiPS) と幹細胞 (hES)、がん細胞 (MCF7など) のデータです。70サンプルあります。

マイクロアレイデータの正規化とボックスプロット

ここでは、rawデータを取得し、 シグナル値を取り出して、 quantile 法で正規化しました。(正規化後のデータ: Series Matrix File を取得して、そのまま用いても良いでしょう。)

正規化前 (raw) のデータをボックスプロットで表示すると下図のようになります。特に大きく外れたサンプルはないようです。右端のがん細胞のデータが若干低いようですが、よくある程度だと思います。

iPS細胞のデータのボックスプロット。正規化前。

正規化後のデータをボックスプロットで表示すると下図のようになります。データの分布がそろっていることが確認できます。

iPS細胞のデータのボックスプロット。正規化後。

参考

  • Koyanagi-Aoi M, Ohnuki M, Takahashi K, Okita K et al. Differentiation-defective phenotypes revealed by large-scale analyses of human pluripotent stem cells. Proc Natl Acad Sci U S A 2013 Dec 17;110(51):20569-74. PMID: 24259714
 

マイクロアレイデータの解析例 1.8 (KEGG パスウェイに ratio で色付けする)

発現変動遺伝子を抽出した結果、特定のパスウェイの変動を確認するには、 KEGG パスウェイデータベースを利用できます。

KEGG のパスウェイのうち、「どのパスウェイに発現変動遺伝子が多く含まれるか」は、DAVID の結果からも確認できます。しかし、その場合は、パスウェイ上の発現変動遺伝子が☆印で示されるだけであり、増加しているのか、減少しているのかは、すぐには確認できません。(元のエクセルファイルで ratio をチェックすることになります。)

KEGG パスウェイに ratio で色付けする

KEGG には、 KEGG Mapper というサービスがあります。このサービスを使えば、特定のパスウェイの遺伝子に、増加したものは減少したものは、といった具合に色付けができます。

KEGG Mapper による色付けの指定。
KEGG Mapper による色付けの指定。

KEGG Mapper の Search against に生物種名を指定します。human なら、hsa になります。(mouse は、 mmu)

フィールドの中に、 EntrezGeneIDcolorスペース区切りで入力します。複数の遺伝子に色付けする場合は、さらに , (カンマ)と改行で区切って続けます。

どの遺伝子を、どの色にするかは、発現変動遺伝子のリストを元に ratio の値を確認して、決めてください。上の例では、解析例1の 24hr の比較 (sample2/control2) において増加していた3つの遺伝子を指定しています。(この段階で、色付けしたいパスウェイの名前を指定する必要はありません。)

下部の Exec をクリックすると、検索結果の一覧が表示されます。

パスウェイの検索結果。
パスウェイの検索結果。

前述のフィールドに入力した遺伝子が、多くヒットしたパスウェイの順に検索結果が表示されます。さらに、パスウェイの名前をクリックして、色付けの結果を確認します。

ratio で色付けされたパスウェイの例。
ratio で色付けされたパスウェイの例。

エクセルのデータから確認できるように、このパスウェイ上の遺伝子のうち、変動していたのは3つだけでした。増加していたものがありましたが、減少したものはありません。DAVIDの結果によると、Apoptosis のアノテーションを持つものは 20 個程度あるはずですが、そのうちの3遺伝子が KEGG に登録されていたことになります。(全ての遺伝子がパスウェイ上に表示されるわけではありません。)

この結果からも、アポトーシスが活性化されたというには、今ひとつ説得力に欠けるように思います(数が少ない)。CASP3 につながる CASP12 は増加していますが、 CASP3 は変動していません。ただ、 CASP3 のシグナル値を確認すると、5000程度はあるので、発現していないわけではないと考えられます。タンパクレベルで、活性化されるのであれば、mRNAの変動はなくても説明がつくのかもしれません。

 

マイクロアレイデータの解析例 1.7 (変動パターン、ヒートマップ)

前回は、先に特定の機能の遺伝子をピックアップし、その後、ヒートマップで変動パターンをチェックする方法を紹介しました。これに対し、先に変動パターンをチェックするという方法もあります。

変動パターンで抽出したのち、ヒートマップを確認する

解析例1のデータは、各タイムポイントごとに、3つの比較を行いました。

  • 16hr: sample1/control1
  • 24hr: sample2/control2
  • 40hr: sample3/control3

この3つの比較のいずれかの比較において、変動している遺伝子増加:ratio>2 かつ Z-score > 2、減少:ratio < 0.5 かつ Z-score < -2)の遺伝子を抽出して、ヒートマップを作成しました。ヒートマップの色付けなどは、これまでと同様です(logFC の中央値からの距離)。図には、2678個の変動遺伝子が含まれています。縮小しているため、画像のサイズは前回のアポトーシスのヒートマップと同じですが、こちらが多くの遺伝子が含まれています。

いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。
いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。

ヒートマップを見ることで、変動パターンを把握できます。例えば、16hrと24hrで共通に増加した遺伝子があるのか、24hrと40hrで共通に減少した遺伝子があるのか、あるとしたら何個くらいか、すべてヒートマップから見て取れます(数値は、おおよそではありますが)。

「共通の変動遺伝子が何個ある」というのをチェックするために、「ベン図」が用いられることもありますが、比較の組み合わせが、2つのときはよくても、今回のように3つ以上の場合は、複雑になりますので、ヒートマップで確認することをお勧めします。(また、マイクロアレイデータの場合、データの見せ方にもよりますが、変動遺伝子の個数には、あまり意味がない場合が多いです。)

特徴的な変動パターンから機能解析 (DAVID)

実験条件から、いくつかの変動パターンが予想されるかもしれませんが、もし、特徴的なパターンがあるのなら、ヒートマップで見えるはずです。このデータの場合、24hrだけで増加、40hrだけで増加という部分が特徴的なようです。(=なぜか、16hrだけ増加は少ない?)

すべての変動パターンが見られる。
すべての変動パターンが見られる。

ヒートマップの結果、気になる変動パターンが見つかれば、その部分だけを取り出して、再び、DAVIDなどで確認します。そうすれば、24hrだけで増加する遺伝子に、何系の遺伝子が多いのか、判断できます。しかしながら、その結果、生物学的な意味があるのかは、個人の仮説次第です。(ヒートマップから結論が得られるわけではありません。)

参考:

  • ヒートマップの拡大図
  • 発現変動遺伝子のエクセルファイル。エクセルのフィルター機能を使えば、特定のパターンの部分だけ取り出せます。
 

マイクロアレイデータの解析例 1.6 (機能で抽出、ヒートマップ)

解析例1の続きです。あらかじめ、アポトーシス関連の遺伝子に変動が見られることが予想されるのであれば、 アノテーションをもとにそれらの遺伝子をピックアップして(抽出して)、ヒートマップを書いてみても良いでしょう。

アポトーシス関連遺伝子を抽出してヒートマップを作成

アポトーシス関連遺伝子を抽出して、ヒートマップを作成した例を示します。(ヒートマップの作成方法は、リンク先を参照してください。)

アポトーシス関連遺伝子のヒートマップ(縮小図)。
アポトーシス関連遺伝子のヒートマップ(縮小図)。

ここでは、概略を見るために、発現変動の有無に関わらず、アポトーシス関連のアノテーションを持つ遺伝子を全て抽出しています。また、ヒートマップの色付けは、各遺伝子ごとにログ変換されたシグナル値の中央値からの距離を色付けしています。結果、色の意味としては、その他のサンプルより低いものは緑に、中程度のものは黒に、その他のサンプルより高いものは赤に見えています。(横での比較(サンプルどうし)のみに意味があります。縦での比較(遺伝子どうし)に意味はありません。)

遺伝子名を確認するには、拡大図を参照してください。

の順に高くなるため、左から、の順に色付けされていれば、いずれのタイムポイントにおいても減少する傾向にあると言えます。

逆に、左から、の順に色付けされていれば、いずれのタイムポイントにおいても増加する傾向にあると言えます。

縮小図を見た印象としては、アポトーシス関連遺伝子全体としては、それほど、タイムポイントによる違いが見えている部分はないようです。(DAVIDでも20個程度しか見つからないようです。)また、増加減少の傾向が見えている部分も変動幅は大きくないように見えます。さらに、コントロールのサンプル内でもタイムポイントによって増減しているように見える部分があるのも気になります。

アポトーシス関連遺伝子に見られる変動パターン。
アポトーシス関連遺伝子に見られる変動パターン。

色だけでは、正確な変動は分からないため、最終的には、シグナル値、ratio, Z-score の値を確認します。ヒートマップは、あくまで、おおまかな傾向を掴むものと考えてください。

 

マイクロアレイデータの解析例 1.5 (機能解析の続き)

解析例1のデータのほかのタイムポイントの発現変動遺伝子も、DAVIDで確認してみましょう。

16hr の発現変動遺伝子

前回の 24hr の発現変動遺伝子と同様に、 ratio と Z-score によって判定された発現変動遺伝子を DAVID で確認してみます。

16hr の発現変動遺伝子を DAVID で解析した結果。
16hr の発現変動遺伝子を DAVID で解析した結果。

24hr のときとは異なり、かなり膜系のタンパク、GPCRなどのレセプターの変動が多い印象です。

16hr の比較におけるケラチンのアノテーションクラスター。
16hr の比較におけるケラチンのアノテーションクラスター。

また、ケラチンを含むアノテーションクラスターも上位にあります。Enrichment Score = 1.88  で有意といえます。(1.3を超えているので。)

16hr の比較におけるアポトーシスのアノテーションクラスター。
16hr の比較におけるアポトーシスのアノテーションクラスター。

一方、アポトーシスを含むアノテーションクラスターは、24hr のときと同様に、それほど多くありません。

40hr の発現変動遺伝子

同様に 40hr のタイムポイントにおける発現変動遺伝子も確認してみました。

40hr の発現変動遺伝子を DAVID で解析した結果。
40hr の発現変動遺伝子を DAVID で解析した結果。

トップは、 T-cell activation です。また、16hr と同様に膜系、レセプターが上位にきていますが、Enrichment Score は下がっています。(他の機能に分散している?)

40hr の比較におけるケラチンのアノテーションクラスター。
40hr の比較におけるケラチンのアノテーションクラスター。

ケラチンの変動はあまり見られなくなっています。16hr, 24hr, 40hr とだんだん変化がなくなるということでしょうか。

40hr の比較におけるアポトーシスのアノテーションクラスター。
40hr の比較におけるアポトーシスのアノテーションクラスター。

アポトーシス関連遺伝子の変動は、やはり少ないようです。

全体を通して、個人的には、アポトーシスの影響は小さいように感じました。また、増殖系への影響も少なそうです。膜タンパクの影響もありそうですが、24hr でいったん少なくなるのが解釈に困るような気がします。

今回の解析の内容は、あくまで主観的なものです。論文の内容を確認していませんし、フェノタイプに変化があるなら、必ずしも、DAVIDのスコアが高い必要はないと考えます。