マイクロアレイデータの解析例 2.2 (stem cell 関連遺伝子のヒートマップ)

iPS 細胞のデータを正規化したら、何はともあれ、 stem cell 関連遺伝子の発現はどうなっているのかが気になるところだと思います。

このようなときは、アノテーションを元に、 stem cell 関連遺伝子だけを抽出して、クラスタリング処理し、さらにヒートマップで表示するとよいでしょう。(この段階では、ratio や p-value を算出してないので、変動していないものも含めています。)

stem cell 関連遺伝子のヒートマップ

作成したヒートマップの結果を示します。BioGPSのデータを用いたヒートマップでは、 ES細胞に特徴的な遺伝子発現のパターンが見えていましたが、今回のデータではどうでしょうか?

stem cell 関連遺伝子のヒートマップ。

とりあえず、大きく分けると3つのクラスターに分かれているように見えます(あくまで見えているというだけで、以下、決定的な事実というわけではありませんので、注意してください)。

一番左のクラスターには、HepG2 や MCF7 などのがん細胞が含まれています。どうやら、stem cell 関連遺伝子に関しては、 iPS細胞がん細胞で似ていないようです。また、iPS細胞では、がん細胞ほど共通のパターンが見られません。いろいろなバリエーションのiPS細胞がありそうです。

上部のツリーの分かれ方を見ると、iPS 細胞は、さらに大きく2つのグループに分かれるようです。この2つのグループで、はっきり分かれているように見える遺伝子としては、上から3分の1ほどのクラスターに含まれる PSCA, GATA2, CDX2, MSX2, HOXB4 あたりでしょうか。

ヒートマップから読み取れる情報

ヒートマップの色付けは、 median からの距離にしていますので、 色が黒いところ低いというわけではありません。特に、一番下の行のクラスターに含まれている POU5F1 (OCT3) や NANOG は、黒く見えていますが、左側のがん細胞のデータが明るい緑なので、がん細胞よりiPSにおける発現は高いことを意味します。

また、1つのサンプルの遺伝子を1つ取って見ると、それが MCF7 に近いほどであったり、であったりします。個別に見ることには、あまり意味がないかもしれません。例えば、hiPS201B2_p67 の MSX2 や CDX2 の色は、HepG2と同程度の色ですが、これだけを持って何か結論づけることはできません。

MSX2やCDX2の発現が低く見える部分。

繰り返しになりますが、色ではなく、実際の値を確認するほうがよいです。シグナル値が1桁程度のものでも、このような色付け方法では、差が強調されすぎる場合があります。

がん細胞だけではなく、BioGPSのように、いろいろな分化後の組織が混ざっていると、色のパターンが出やすかったかもしれません。(iPS細胞はがん細胞とは違う、ということを確認するという意味ではこれだけでよかったのかもしれませんが。)

 

マイクロアレイデータの解析例 2.1 (iPS細胞のデータ、正規化)

この解析例の紹介では、遺伝子発現のデータはどういうものか実感できるように、いろいろな種類のデータを取り上げたいと思います。

単純なタイムコースのデータに続き、今回は、iPS細胞のデータを取り扱います。

iPS細胞のマイクロアレイデータを取得

例のように GEO から、 iPS 細胞のマイクロアレイデータを取得します。GSE42445 のデータです。様々なバリエーションのヒトのiPS細胞 (hiPS) と幹細胞 (hES)、がん細胞 (MCF7など) のデータです。70サンプルあります。

マイクロアレイデータの正規化とボックスプロット

ここでは、rawデータを取得し、 シグナル値を取り出して、 quantile 法で正規化しました。(正規化後のデータ: Series Matrix File を取得して、そのまま用いても良いでしょう。)

正規化前 (raw) のデータをボックスプロットで表示すると下図のようになります。特に大きく外れたサンプルはないようです。右端のがん細胞のデータが若干低いようですが、よくある程度だと思います。

iPS細胞のデータのボックスプロット。正規化前。

正規化後のデータをボックスプロットで表示すると下図のようになります。データの分布がそろっていることが確認できます。

iPS細胞のデータのボックスプロット。正規化後。

参考

  • Koyanagi-Aoi M, Ohnuki M, Takahashi K, Okita K et al. Differentiation-defective phenotypes revealed by large-scale analyses of human pluripotent stem cells. Proc Natl Acad Sci U S A 2013 Dec 17;110(51):20569-74. PMID: 24259714
 

特定の組織で発現の高い遺伝子を探す(ES細胞だけで発現の高いものは?)

ヒートマップとクラスタリングを応用することで、特定の組織で発現の高い遺伝子を探すことも可能です。

例えば、ES細胞だけで発現の高い遺伝子を探してみましょう。

公開データ (GEO, BioGPS) を利用して、いろいろな組織のデータを取得

まず、データとしては、様々な組織のマイクロアレイデータが必要になります。個々の研究室レベルで揃えようと思うと大変ですが、幸い近年では公開データがあるので、うまく利用しましょう。

いろいろな組織の遺伝子発現を比較したければ、 BioGPS のデータが使えます。心臓、肝臓、肺などの種々の組織、約180サンプルぶんのマイクロアレイデータがあります。

クラスタリングしてヒートマップで表示

データを取得したら、正規化して、クラスタリングを行い、結果をヒートマップで表示します。ここでは、RMA と quantile アルゴリズムによって正規化し、階層的クラスタリングを行いました。

全遺伝子では結果を見るのが大変なので、正規化後、アノテーションを元に stem cell 関連遺伝子だけを抽出しています。また、MeV上で、シグナル値を log2変換して、中央値からの距離に変換しています。クラスタリングは、遺伝子方向、サンプル方向とも階層的クラスタリングで行っています。

結果は下図のようになります。遺伝子が縦に並んでいます(行)。組織(サンプル)が横に並んでいます(列)。

stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。
stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。

ES細胞だけで発現が高い遺伝子

左から3分の1ほどの列に、ES細胞のデータ(4列)が並んでいます。これらの4列だけで、赤くなっている遺伝子があれば、それらが、ES細胞だけで発現が高い遺伝子です。

探してみると、真ん中より少し上にある遺伝子のクラスターに、ちょうど4列だけ赤い部分があります。ハイライトすると下図の部分です。遺伝子名を確認すると、Pou5f1 = Oct3, Nanog など有名な遺伝子が該当しているのが分かります。(見やすいように横方向を縮小しています。)

ES細胞だけで発現の高い遺伝子をハイライト。
ES細胞だけで発現の高い遺伝子をハイライト。

なお、色付けの設定から、「黒=発現していない」ではない、ので注意してください。

 

マイクロアレイデータの解析例 1.9 (上流解析、 GeneMANIA)

これまでの解析で、発現変動遺伝子の算出機能解析、さらにパスウェイ解析を通して、発現変動した遺伝子には、どのような機能の遺伝子が多いか、どの辺りのパスウェイの遺伝子が多いのか、全体的に見ました。

また、共通して変動したものが多いのか、特定のサンプルだけ変動した遺伝子が多いのかといった変動パターンは、ヒートマップで確認します。

特定の機能やパスウェイの遺伝子が、特徴的な変動パターンを示しているのであれば、それがキーになる可能性があるでしょう。そのあとは、それらの重要と考えられる遺伝子をリアルタイムPCRでチェックしたり、タンパクを免疫染色で確認したりといったバリデーションを行って、一段落となります。ここまでの結果で、論文なる場合もあるかと思います。(本当にキーになっているかどうか証明するのであれば、siRNAでノックダウンしたり、KOマウスを作成することになるでしょう。)

上流解析 (GeneMANIA)

もう少し、結果に新規性を求めるのであれば、上流解析を行うことになります。例えば、アポトーシスのパスウェイ上の遺伝子が増加していたのであれば、それを結果と考えて、それらの遺伝子を増加させている原因の遺伝子を探すというものです。

このとき、 Ingenuity Pathway Analysis (IPA) など有償のパスウェイデータベースがあれば便利です。無償のデータベースとしては、 GeneMANIA などがあります。

仮に PIK3R5, PRKACG, CASP12 遺伝子の増加が重要な結果であると考えられるとすると、それらを共通に制御する遺伝子が存在するようであれば、原因と言えるかもしれません。

GeneMANIA で、これら3つの遺伝子を検索すると、下記のようなネットワーク図が得られます。(オプションを変更して、50遺伝子まで検索しています。)

GeneMANIA で検索した結果。
GeneMANIA で検索した結果。

残念ながら、これら3つの遺伝子を直接共通に制御していそうな遺伝子は、見つかりませんでした。(新規性を求めるのであればということであり、必ずしもここまでの結果が要求されるわけではありません。)ネットワーク図から、次の研究のヒントは得られるかもしれません。

 

マイクロアレイデータの解析例 1.8 (KEGG パスウェイに ratio で色付けする)

発現変動遺伝子を抽出した結果、特定のパスウェイの変動を確認するには、 KEGG パスウェイデータベースを利用できます。

KEGG のパスウェイのうち、「どのパスウェイに発現変動遺伝子が多く含まれるか」は、DAVID の結果からも確認できます。しかし、その場合は、パスウェイ上の発現変動遺伝子が☆印で示されるだけであり、増加しているのか、減少しているのかは、すぐには確認できません。(元のエクセルファイルで ratio をチェックすることになります。)

KEGG パスウェイに ratio で色付けする

KEGG には、 KEGG Mapper というサービスがあります。このサービスを使えば、特定のパスウェイの遺伝子に、増加したものは減少したものは、といった具合に色付けができます。

KEGG Mapper による色付けの指定。
KEGG Mapper による色付けの指定。

KEGG Mapper の Search against に生物種名を指定します。human なら、hsa になります。(mouse は、 mmu)

フィールドの中に、 EntrezGeneIDcolorスペース区切りで入力します。複数の遺伝子に色付けする場合は、さらに , (カンマ)と改行で区切って続けます。

どの遺伝子を、どの色にするかは、発現変動遺伝子のリストを元に ratio の値を確認して、決めてください。上の例では、解析例1の 24hr の比較 (sample2/control2) において増加していた3つの遺伝子を指定しています。(この段階で、色付けしたいパスウェイの名前を指定する必要はありません。)

下部の Exec をクリックすると、検索結果の一覧が表示されます。

パスウェイの検索結果。
パスウェイの検索結果。

前述のフィールドに入力した遺伝子が、多くヒットしたパスウェイの順に検索結果が表示されます。さらに、パスウェイの名前をクリックして、色付けの結果を確認します。

ratio で色付けされたパスウェイの例。
ratio で色付けされたパスウェイの例。

エクセルのデータから確認できるように、このパスウェイ上の遺伝子のうち、変動していたのは3つだけでした。増加していたものがありましたが、減少したものはありません。DAVIDの結果によると、Apoptosis のアノテーションを持つものは 20 個程度あるはずですが、そのうちの3遺伝子が KEGG に登録されていたことになります。(全ての遺伝子がパスウェイ上に表示されるわけではありません。)

この結果からも、アポトーシスが活性化されたというには、今ひとつ説得力に欠けるように思います(数が少ない)。CASP3 につながる CASP12 は増加していますが、 CASP3 は変動していません。ただ、 CASP3 のシグナル値を確認すると、5000程度はあるので、発現していないわけではないと考えられます。タンパクレベルで、活性化されるのであれば、mRNAの変動はなくても説明がつくのかもしれません。