特定の組織で発現の高い遺伝子を探す(ES細胞だけで発現の高いものは?)

ヒートマップとクラスタリングを応用することで、特定の組織で発現の高い遺伝子を探すことも可能です。

例えば、ES細胞だけで発現の高い遺伝子を探してみましょう。

公開データ (GEO, BioGPS) を利用して、いろいろな組織のデータを取得

まず、データとしては、様々な組織のマイクロアレイデータが必要になります。個々の研究室レベルで揃えようと思うと大変ですが、幸い近年では公開データがあるので、うまく利用しましょう。

いろいろな組織の遺伝子発現を比較したければ、 BioGPS のデータが使えます。心臓、肝臓、肺などの種々の組織、約180サンプルぶんのマイクロアレイデータがあります。

クラスタリングしてヒートマップで表示

データを取得したら、正規化して、クラスタリングを行い、結果をヒートマップで表示します。ここでは、RMA と quantile アルゴリズムによって正規化し、階層的クラスタリングを行いました。

全遺伝子では結果を見るのが大変なので、正規化後、アノテーションを元に stem cell 関連遺伝子だけを抽出しています。また、MeV上で、シグナル値を log2変換して、中央値からの距離に変換しています。クラスタリングは、遺伝子方向、サンプル方向とも階層的クラスタリングで行っています。

結果は下図のようになります。遺伝子が縦に並んでいます(行)。組織(サンプル)が横に並んでいます(列)。

stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。
stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。

ES細胞だけで発現が高い遺伝子

左から3分の1ほどの列に、ES細胞のデータ(4列)が並んでいます。これらの4列だけで、赤くなっている遺伝子があれば、それらが、ES細胞だけで発現が高い遺伝子です。

探してみると、真ん中より少し上にある遺伝子のクラスターに、ちょうど4列だけ赤い部分があります。ハイライトすると下図の部分です。遺伝子名を確認すると、Pou5f1 = Oct3, Nanog など有名な遺伝子が該当しているのが分かります。(見やすいように横方向を縮小しています。)

ES細胞だけで発現の高い遺伝子をハイライト。
ES細胞だけで発現の高い遺伝子をハイライト。

なお、色付けの設定から、「黒=発現していない」ではない、ので注意してください。

 

ratio のヒートマップで変動パターンをチェックする

シグナル値ではなく、ratio でヒートマップを書いて、変動パターンにをチェックすることもあります。

ratio のヒートマップ

シグナル値ではなく、ratio を用いたヒートマップの例を示します。データとしては、解析例1の3つの比較において、いずれかの比較で変動のあった遺伝子(約2678個)だけを用いています。

左から、3つの比較(ratio1, ratio2, ratio3) を並べています。ratio1 = sample1/control1, ratio2=sample2/control2, ratio3=sample3/control3 となります。

色付けは、ratio < 0.5 を明るい、ratio > 2 が明るいになるようにしています。

また、図は全体が見えやすいようにリサイズしています。

ratio のヒートマップ。遺伝子方向にクラスタリングを適用。
ratio のヒートマップ。遺伝子方向にクラスタリングを適用。

シグナル値を用いた場合のヒートマップと異なり、ヒートマップにコントロールは表示されません。3列ともであれば、3つの比較において、共通に増加した遺伝子だと分かります。逆に3列ともであれば、共通に減少した遺伝子です。

変動パターンをチェックしやすい反面、計算していない比較の組み合わせ(例えば、sample2 と sample3 ではどちらが高いか)は読み取るのが難しい場合があります。

参考

 

クラスタリング結果の誤解しやすい部分

クラスタリングを解釈する際に、よく誤解しやすい部分があります。クラスタリングの結果というものは、それほど絶対的なものではありません。

クラスタリングの結果は、どのアルゴリズム(hierarchical, k-means, SOM など)を用いてクラスタリングするかで多少異なりますし、同じアルゴリズムを用いたとしても、パラメーターの設定によっても若干変化します。

また、クラスタリングするときに、全遺伝子を用いるか、変動している遺伝子だけを用いるかでも変わります。

サンプル間の距離の計算方法による違い(パラメーターの違い)

サンプル方向にクラスタリングを行い、似ている順位のツリーを書くためには、各サンプル間の距離を求めることになります。このサンプル間の距離を求める方法は、いくつかあります。例えば、単純に引き算して差を取るだけの場合や、2乗してから差を取る場合、相関係数を用いる場合などです。

MeV では、 Distance Metric Selection の部分で、この距離を求める手法を選択することになります。

距離を求める方法の選択。
距離を求める方法の選択。

このサンプル間の距離の求め方によって、最終的な結果のツリーの分類は多少異なります。解析例1の全遺伝子(5万プローブ)をサンプル方向のみでクラスタリングした結果を示します。

Euclidian Distance を選択してクラスタリングした結果。
Euclidian Distance を選択してクラスタリングした結果。

距離を求める手法に Euclidian Distance を選択した場合、control1 だけ外れて(似ていないように)見えます。

Pearson Correlation を選択してクラスタリングした結果。
Pearson Correlation を選択してクラスタリングした結果。

相関係数(Pearson Correlation)を用いて、クラスタリングした場合、control1だけ外れているようには見えません。一般的には、この相関係数を用いることが多いと思います。

クラスタリングに用いる遺伝子セットによる違い

上述の全遺伝子を用いてクラスタリングした結果に対して、変動している遺伝子だけをクラスタリングした結果を示します。 全遺伝子を対象とした場合と異なり、 sample2 と sample3 が近いように見えています。

いずれかの比較で変動していた遺伝子を用いてクラスタリングした結果。
いずれかの比較で変動していた遺伝子を用いてクラスタリングした結果。

このようにクラスタリングの結果は、必ずしも、絶対的なものではありません。よく論文で図示されていますが、あくまで1例であり、あるパターンに分かれる可能性を示したものにすぎません。(仮説の証明手段ではありません。)

特に全遺伝子でクラスタリングした場合、「sample1 と一番近いのは、 sample2 と sample3 のどちらか?」というような、結果の細部にあまりこだわらないほうがよいでしょう。前述のような計算方法の違いで多少前後する可能性があります。ある意味、当然のことなので、これらの結果に一喜一憂する必要はありません。

(その時、用いたデータセットとパラメーターを使えば、とりあえず、あるパターンに分かれて見えるという程度に理解した方が良いです。結果の解釈には生物学的な裏付けが求められます。)

 

クラスタリングで似ているサンプルを探す(階層的クラスタリング)

似ているサンプルを探したい場合は、クラスタリングで見つけることができます。 MeV を用いた解析例を示します。

階層的クラスタリングで似ているサンプルを探す

似ているサンプルを探していたい場合、クラスタリングのアルゴリズムとしては、「階層的クラスタリング」の手法がよく用いられます。

階層的クラスタリングでは、sample2 に一番似ているのは、sample3、その次は、sample1 というように、似ている順序が示されます。また、その順序は、系統樹(ツリー)で表現されます。

最終的には、各サンプルのヒートマップの上部(または下部)に、そのツリーを組み合わせてものが結果として用いられます。ツリーとヒートマップは独立していることに留意してください。ヒートマップを書かなくてもツリーは算出できますし、ツリーを算出したからといって、ヒートマップができるわけではありません。(ツリーの結果だけ、ヒートマップに後付けされることもあります。)MeV などのツールを用いれば、クラスタリングの結果が自動的にヒートマップになるので、誤解しやすい点です。

例えば、解析例1のデータをサンプル方向でクラスタリングすると下図のようになります。あえて、遺伝子方向のクラスタリングは行っていません。そのため、ヒートマップの色は分かれているように見えていませんが、どのサンプルが似ているかはツリーから確認できます。

階層的クラスタリングの結果。
階層的クラスタリングの結果。
 

よくある疑問・質問 (2): クラスタリングの結果、何パターンに分類できますか?

遺伝子が発現変動した結果、まず、どのような変動パターンを示す傾向にあるのか気になるのは、もっともなことだと思います。変動パターンを分類するために、クラスタリングを用いるのは正しいです。

Q: クラスタリングの結果、変動パターンは、何パターンに分類できますか?

 

A: 何パターンにも分類できます。

答えになっていないように思われるかもしれません。確かに、解析例1のデータは、 K-means クラスタリングの結果、10個の変動パターンに分類されました。

各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。

しかし、 クラスタリングの手順をよく見てみましょう。パラメーターとして、クラスターの数を入力しています。ここで「10」を設定したため、10個のクラスターが得られたのです。

例えば、このパラメーターに「27」を設定すれば、27個のクラスターに分けることができます。

27個のクラスターに分類した結果。
27個のクラスターに分類した結果。

何パターンに分けるのが適切なのか」コンピューターに決めて欲しくなるところですが、もう少しヒントがないと難しいのが現状です。(この手の問題は、コンピューターの苦手な処理です。)

参考:

K-means 法の原理については、下記のサイトの記事がイメージしやすいと思います。

http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/