マイクロアレイデータの解析例 1.8 (KEGG パスウェイに ratio で色付けする)

発現変動遺伝子を抽出した結果、特定のパスウェイの変動を確認するには、 KEGG パスウェイデータベースを利用できます。

KEGG のパスウェイのうち、「どのパスウェイに発現変動遺伝子が多く含まれるか」は、DAVID の結果からも確認できます。しかし、その場合は、パスウェイ上の発現変動遺伝子が☆印で示されるだけであり、増加しているのか、減少しているのかは、すぐには確認できません。(元のエクセルファイルで ratio をチェックすることになります。)

KEGG パスウェイに ratio で色付けする

KEGG には、 KEGG Mapper というサービスがあります。このサービスを使えば、特定のパスウェイの遺伝子に、増加したものは減少したものは、といった具合に色付けができます。

KEGG Mapper による色付けの指定。
KEGG Mapper による色付けの指定。

KEGG Mapper の Search against に生物種名を指定します。human なら、hsa になります。(mouse は、 mmu)

フィールドの中に、 EntrezGeneIDcolorスペース区切りで入力します。複数の遺伝子に色付けする場合は、さらに , (カンマ)と改行で区切って続けます。

どの遺伝子を、どの色にするかは、発現変動遺伝子のリストを元に ratio の値を確認して、決めてください。上の例では、解析例1の 24hr の比較 (sample2/control2) において増加していた3つの遺伝子を指定しています。(この段階で、色付けしたいパスウェイの名前を指定する必要はありません。)

下部の Exec をクリックすると、検索結果の一覧が表示されます。

パスウェイの検索結果。
パスウェイの検索結果。

前述のフィールドに入力した遺伝子が、多くヒットしたパスウェイの順に検索結果が表示されます。さらに、パスウェイの名前をクリックして、色付けの結果を確認します。

ratio で色付けされたパスウェイの例。
ratio で色付けされたパスウェイの例。

エクセルのデータから確認できるように、このパスウェイ上の遺伝子のうち、変動していたのは3つだけでした。増加していたものがありましたが、減少したものはありません。DAVIDの結果によると、Apoptosis のアノテーションを持つものは 20 個程度あるはずですが、そのうちの3遺伝子が KEGG に登録されていたことになります。(全ての遺伝子がパスウェイ上に表示されるわけではありません。)

この結果からも、アポトーシスが活性化されたというには、今ひとつ説得力に欠けるように思います(数が少ない)。CASP3 につながる CASP12 は増加していますが、 CASP3 は変動していません。ただ、 CASP3 のシグナル値を確認すると、5000程度はあるので、発現していないわけではないと考えられます。タンパクレベルで、活性化されるのであれば、mRNAの変動はなくても説明がつくのかもしれません。

 

よくある疑問・質問 (1): 増殖しているかどうかを判定できますか?

Q: 発現解析(マイクロアレイ解析)で、細胞が増殖しているかどうか、判定できますか?

 

A: マイクロアレイデータだけから、そのサンプルが増殖状態にあるのかどうか判別するのは困難です。「増殖系に影響が出ていること」は分かります。

発現変動遺伝子を DAVID にかけることで、細胞周期 (Cell Cycle) 関連遺伝子が含まれているかどうかのチェックは可能です。しかしながら、こちらでも述べているように、アノテーションの問題から、単純にヒットした遺伝子の「」だけで、結論づけることはできません。(可能性を述べるだけならできます。)

また、DAVID の結果、 Enrichment Score が 1.3 以上あり、有意と判定されたとしても、それは、増殖系の遺伝子が変動していたことを意味するだけであり、細胞数が増えているのか、減っているのかを判別するだけの効果はありません

さらに、増殖系の遺伝子のうち、増加している遺伝子が多い=細胞が増えている減少している遺伝子が多い=細胞が減っているというわけでもありません。Cell Cycle 関連遺伝子といっても、細胞周期停止に関わっている遺伝子が増加すれば、細胞数は増えないでしょうし、その逆もあります。(アノテーションの問題を参照。)

細胞数が増えているかどうかを考慮するには、細胞周期だけではなく、アポトーシスの影響も考慮する必要もあるでしょう。細胞周期の遺伝子以上に、アポトーシス系が活性化されているような状況であれば、細胞数は減ることになるかもしれません。

以上のようなことから、増殖しているかどうか(増えているのか減っているのか)を判定するには、マイクロアレイデータだけではなく、フェノタイプやタンパクの状態などを確認しなければなりません。これはマイクロアレイに限った話ではないと思います。次世代シーケンサーのデータであっても同様の課題を抱えたままです。

これは、マイクロアレイデータが使えないと言っているわけではありません。「増殖状態にあるのに、機能解析の結果、Cell Cycle の遺伝子が数個しかヒットしない」という状況は考えにくいでしょう。細胞数の増減は区別できないとしても、少なくとも、「増殖系に影響が出ている」ということは、マイクロアレイデータから十分わかります。

 

マイクロアレイデータの解析例 1.7 (変動パターン、ヒートマップ)

前回は、先に特定の機能の遺伝子をピックアップし、その後、ヒートマップで変動パターンをチェックする方法を紹介しました。これに対し、先に変動パターンをチェックするという方法もあります。

変動パターンで抽出したのち、ヒートマップを確認する

解析例1のデータは、各タイムポイントごとに、3つの比較を行いました。

  • 16hr: sample1/control1
  • 24hr: sample2/control2
  • 40hr: sample3/control3

この3つの比較のいずれかの比較において、変動している遺伝子増加:ratio>2 かつ Z-score > 2、減少:ratio < 0.5 かつ Z-score < -2)の遺伝子を抽出して、ヒートマップを作成しました。ヒートマップの色付けなどは、これまでと同様です(logFC の中央値からの距離)。図には、2678個の変動遺伝子が含まれています。縮小しているため、画像のサイズは前回のアポトーシスのヒートマップと同じですが、こちらが多くの遺伝子が含まれています。

いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。
いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。

ヒートマップを見ることで、変動パターンを把握できます。例えば、16hrと24hrで共通に増加した遺伝子があるのか、24hrと40hrで共通に減少した遺伝子があるのか、あるとしたら何個くらいか、すべてヒートマップから見て取れます(数値は、おおよそではありますが)。

「共通の変動遺伝子が何個ある」というのをチェックするために、「ベン図」が用いられることもありますが、比較の組み合わせが、2つのときはよくても、今回のように3つ以上の場合は、複雑になりますので、ヒートマップで確認することをお勧めします。(また、マイクロアレイデータの場合、データの見せ方にもよりますが、変動遺伝子の個数には、あまり意味がない場合が多いです。)

特徴的な変動パターンから機能解析 (DAVID)

実験条件から、いくつかの変動パターンが予想されるかもしれませんが、もし、特徴的なパターンがあるのなら、ヒートマップで見えるはずです。このデータの場合、24hrだけで増加、40hrだけで増加という部分が特徴的なようです。(=なぜか、16hrだけ増加は少ない?)

すべての変動パターンが見られる。
すべての変動パターンが見られる。

ヒートマップの結果、気になる変動パターンが見つかれば、その部分だけを取り出して、再び、DAVIDなどで確認します。そうすれば、24hrだけで増加する遺伝子に、何系の遺伝子が多いのか、判断できます。しかしながら、その結果、生物学的な意味があるのかは、個人の仮説次第です。(ヒートマップから結論が得られるわけではありません。)

参考:

  • ヒートマップの拡大図
  • 発現変動遺伝子のエクセルファイル。エクセルのフィルター機能を使えば、特定のパターンの部分だけ取り出せます。
 

マイクロアレイデータの解析例 1.6 (機能で抽出、ヒートマップ)

解析例1の続きです。あらかじめ、アポトーシス関連の遺伝子に変動が見られることが予想されるのであれば、 アノテーションをもとにそれらの遺伝子をピックアップして(抽出して)、ヒートマップを書いてみても良いでしょう。

アポトーシス関連遺伝子を抽出してヒートマップを作成

アポトーシス関連遺伝子を抽出して、ヒートマップを作成した例を示します。(ヒートマップの作成方法は、リンク先を参照してください。)

アポトーシス関連遺伝子のヒートマップ(縮小図)。
アポトーシス関連遺伝子のヒートマップ(縮小図)。

ここでは、概略を見るために、発現変動の有無に関わらず、アポトーシス関連のアノテーションを持つ遺伝子を全て抽出しています。また、ヒートマップの色付けは、各遺伝子ごとにログ変換されたシグナル値の中央値からの距離を色付けしています。結果、色の意味としては、その他のサンプルより低いものは緑に、中程度のものは黒に、その他のサンプルより高いものは赤に見えています。(横での比較(サンプルどうし)のみに意味があります。縦での比較(遺伝子どうし)に意味はありません。)

遺伝子名を確認するには、拡大図を参照してください。

の順に高くなるため、左から、の順に色付けされていれば、いずれのタイムポイントにおいても減少する傾向にあると言えます。

逆に、左から、の順に色付けされていれば、いずれのタイムポイントにおいても増加する傾向にあると言えます。

縮小図を見た印象としては、アポトーシス関連遺伝子全体としては、それほど、タイムポイントによる違いが見えている部分はないようです。(DAVIDでも20個程度しか見つからないようです。)また、増加減少の傾向が見えている部分も変動幅は大きくないように見えます。さらに、コントロールのサンプル内でもタイムポイントによって増減しているように見える部分があるのも気になります。

アポトーシス関連遺伝子に見られる変動パターン。
アポトーシス関連遺伝子に見られる変動パターン。

色だけでは、正確な変動は分からないため、最終的には、シグナル値、ratio, Z-score の値を確認します。ヒートマップは、あくまで、おおまかな傾向を掴むものと考えてください。

 

マイクロアレイデータの解析例 1.5 (機能解析の続き)

解析例1のデータのほかのタイムポイントの発現変動遺伝子も、DAVIDで確認してみましょう。

16hr の発現変動遺伝子

前回の 24hr の発現変動遺伝子と同様に、 ratio と Z-score によって判定された発現変動遺伝子を DAVID で確認してみます。

16hr の発現変動遺伝子を DAVID で解析した結果。
16hr の発現変動遺伝子を DAVID で解析した結果。

24hr のときとは異なり、かなり膜系のタンパク、GPCRなどのレセプターの変動が多い印象です。

16hr の比較におけるケラチンのアノテーションクラスター。
16hr の比較におけるケラチンのアノテーションクラスター。

また、ケラチンを含むアノテーションクラスターも上位にあります。Enrichment Score = 1.88  で有意といえます。(1.3を超えているので。)

16hr の比較におけるアポトーシスのアノテーションクラスター。
16hr の比較におけるアポトーシスのアノテーションクラスター。

一方、アポトーシスを含むアノテーションクラスターは、24hr のときと同様に、それほど多くありません。

40hr の発現変動遺伝子

同様に 40hr のタイムポイントにおける発現変動遺伝子も確認してみました。

40hr の発現変動遺伝子を DAVID で解析した結果。
40hr の発現変動遺伝子を DAVID で解析した結果。

トップは、 T-cell activation です。また、16hr と同様に膜系、レセプターが上位にきていますが、Enrichment Score は下がっています。(他の機能に分散している?)

40hr の比較におけるケラチンのアノテーションクラスター。
40hr の比較におけるケラチンのアノテーションクラスター。

ケラチンの変動はあまり見られなくなっています。16hr, 24hr, 40hr とだんだん変化がなくなるということでしょうか。

40hr の比較におけるアポトーシスのアノテーションクラスター。
40hr の比較におけるアポトーシスのアノテーションクラスター。

アポトーシス関連遺伝子の変動は、やはり少ないようです。

全体を通して、個人的には、アポトーシスの影響は小さいように感じました。また、増殖系への影響も少なそうです。膜タンパクの影響もありそうですが、24hr でいったん少なくなるのが解釈に困るような気がします。

今回の解析の内容は、あくまで主観的なものです。論文の内容を確認していませんし、フェノタイプに変化があるなら、必ずしも、DAVIDのスコアが高い必要はないと考えます。