クラスタリング (MeV, k-means クラスタリング)

遺伝子の変動パターンを分類するには、クラスタリングが用いられます。MeV を用いて、クラスタリングの手法の1つである k-means を使った例を紹介します。

クラスタリング手法の選択

MeV でデータを読み込み、クラスタリング手法(アルゴリズム)を選択します。(ここでは、クラスタリングの前に、log2変換と中央値からの距離に直す補正を行っています。操作方法はこちら

クラスタリング手法を選択。
クラスタリング手法を選択。

パラメーターの設定

ダイアログが表示されるので、パラメーターを設定します。ここでは、変動パターンで分類したいため、遺伝子方向のみのクラスタリングを行います。(似ているサンプルを探すのなら、サンプル方向にクラスタリングします。)

クラスターをいくつに分けるか指定します。標準では10個の設定です。

また、結果を見やすくするため、さらに階層的クラスタリングで処理するチェックを入れます。

K-means クラスタリングのパラメーターを設定。
K-means クラスタリングのパラメーターを設定。

結果の表示用の階層的クラスタリングのパラメーターを設定します。同様に遺伝子方向のみ指定しています。また、最適化のオプションにチェックを入れています。ほかのパラメーターは標準設定のものを使用しました。

階層的クラスタリングのパラメーターを設定。
階層的クラスタリングのパラメーターを設定。

結果の表示

ウィンドウの左側の結果をたどると、変動パターン10個に分けられた各クラスターのヒートマップを確認できます。

10個のクラスターのヒートマップ。
10個のクラスターのヒートマップ。

また、 Expression Graphs を選択すると、各クラスターに含まれている遺伝子の折れ線グラフが表示されます。各クラスターに含まれている遺伝子の数もここでチェックできます。

各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
 

マイクロアレイデータの解析例 1.7 (変動パターン、ヒートマップ)

前回は、先に特定の機能の遺伝子をピックアップし、その後、ヒートマップで変動パターンをチェックする方法を紹介しました。これに対し、先に変動パターンをチェックするという方法もあります。

変動パターンで抽出したのち、ヒートマップを確認する

解析例1のデータは、各タイムポイントごとに、3つの比較を行いました。

  • 16hr: sample1/control1
  • 24hr: sample2/control2
  • 40hr: sample3/control3

この3つの比較のいずれかの比較において、変動している遺伝子増加:ratio>2 かつ Z-score > 2、減少:ratio < 0.5 かつ Z-score < -2)の遺伝子を抽出して、ヒートマップを作成しました。ヒートマップの色付けなどは、これまでと同様です(logFC の中央値からの距離)。図には、2678個の変動遺伝子が含まれています。縮小しているため、画像のサイズは前回のアポトーシスのヒートマップと同じですが、こちらが多くの遺伝子が含まれています。

いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。
いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。

ヒートマップを見ることで、変動パターンを把握できます。例えば、16hrと24hrで共通に増加した遺伝子があるのか、24hrと40hrで共通に減少した遺伝子があるのか、あるとしたら何個くらいか、すべてヒートマップから見て取れます(数値は、おおよそではありますが)。

「共通の変動遺伝子が何個ある」というのをチェックするために、「ベン図」が用いられることもありますが、比較の組み合わせが、2つのときはよくても、今回のように3つ以上の場合は、複雑になりますので、ヒートマップで確認することをお勧めします。(また、マイクロアレイデータの場合、データの見せ方にもよりますが、変動遺伝子の個数には、あまり意味がない場合が多いです。)

特徴的な変動パターンから機能解析 (DAVID)

実験条件から、いくつかの変動パターンが予想されるかもしれませんが、もし、特徴的なパターンがあるのなら、ヒートマップで見えるはずです。このデータの場合、24hrだけで増加、40hrだけで増加という部分が特徴的なようです。(=なぜか、16hrだけ増加は少ない?)

すべての変動パターンが見られる。
すべての変動パターンが見られる。

ヒートマップの結果、気になる変動パターンが見つかれば、その部分だけを取り出して、再び、DAVIDなどで確認します。そうすれば、24hrだけで増加する遺伝子に、何系の遺伝子が多いのか、判断できます。しかしながら、その結果、生物学的な意味があるのかは、個人の仮説次第です。(ヒートマップから結論が得られるわけではありません。)

参考:

  • ヒートマップの拡大図
  • 発現変動遺伝子のエクセルファイル。エクセルのフィルター機能を使えば、特定のパターンの部分だけ取り出せます。
 

マイクロアレイデータの解析例 1.6 (機能で抽出、ヒートマップ)

解析例1の続きです。あらかじめ、アポトーシス関連の遺伝子に変動が見られることが予想されるのであれば、 アノテーションをもとにそれらの遺伝子をピックアップして(抽出して)、ヒートマップを書いてみても良いでしょう。

アポトーシス関連遺伝子を抽出してヒートマップを作成

アポトーシス関連遺伝子を抽出して、ヒートマップを作成した例を示します。(ヒートマップの作成方法は、リンク先を参照してください。)

アポトーシス関連遺伝子のヒートマップ(縮小図)。
アポトーシス関連遺伝子のヒートマップ(縮小図)。

ここでは、概略を見るために、発現変動の有無に関わらず、アポトーシス関連のアノテーションを持つ遺伝子を全て抽出しています。また、ヒートマップの色付けは、各遺伝子ごとにログ変換されたシグナル値の中央値からの距離を色付けしています。結果、色の意味としては、その他のサンプルより低いものは緑に、中程度のものは黒に、その他のサンプルより高いものは赤に見えています。(横での比較(サンプルどうし)のみに意味があります。縦での比較(遺伝子どうし)に意味はありません。)

遺伝子名を確認するには、拡大図を参照してください。

の順に高くなるため、左から、の順に色付けされていれば、いずれのタイムポイントにおいても減少する傾向にあると言えます。

逆に、左から、の順に色付けされていれば、いずれのタイムポイントにおいても増加する傾向にあると言えます。

縮小図を見た印象としては、アポトーシス関連遺伝子全体としては、それほど、タイムポイントによる違いが見えている部分はないようです。(DAVIDでも20個程度しか見つからないようです。)また、増加減少の傾向が見えている部分も変動幅は大きくないように見えます。さらに、コントロールのサンプル内でもタイムポイントによって増減しているように見える部分があるのも気になります。

アポトーシス関連遺伝子に見られる変動パターン。
アポトーシス関連遺伝子に見られる変動パターン。

色だけでは、正確な変動は分からないため、最終的には、シグナル値、ratio, Z-score の値を確認します。ヒートマップは、あくまで、おおまかな傾向を掴むものと考えてください。

 

ヒートマップの色づけ (5): 中央値からの距離に変換して色付け

「コントロールで低いところは、実験群で高いところは」のように色づけするには、 log変換した後、さらに、中央値からの距離に変換することが必要です。

中央値からの距離

中央値 (median) は、文字通り、真ん中の値です。例の場合、6サンプルのシグナル値は、9から10の間に分布しています。よって、その真ん中である 9.5 が中央値となります。(奇数サンプルの場合は、平均を取る必要はありません。5サンプルなら、3番目に大きい値が中央値です。)

中央値からの距離は、単純に「差」を取ればよいです。例えば、WT1のシグナル値は、9なので、9-9.5 = -0.5 となります。同様にKO1のシグナル値は、10-9.5 = 0.5 です。

中央値からの距離で色づけ。
中央値からの距離で色づけ。

中央値からの距離で色づけ

中央値からの距離に変換したら、色づけします。「どのくらいの差を何色にするか」は作者が決めます。ここでは、-1であれば、、+1であれば、としました。中央値からの距離なので、必然的に中央値に該当するものが、真ん中=となります。どのような色づけにしているかは、必ず凡例を付けましょう。

MeV の使い方で紹介している色づけ方法は、この作業を意味しています。

ここでは、一例として、中央値を使いました。これ以外に、平均値を使う場合もあります。また、標準偏差を求めて、平均値からSD何個分離れているか、という値に変換する場合もあります。

 

ヒートマップの色づけ (4): 凡例 (legend) の表示

これまでの例からも分かるように、ヒートマップの色づけは、作者次第で変化します。そのため、ヒートマップには、「どれくらいの数値を何色にしているか」という凡例 (legend) の表示が不可欠です。

凡例の表示。
凡例の表示。

凡例の表示

凡例 (legend, Color Key)は、色のついたバーに、目安となる数値をつけて表現します。 少なくとも、最低値(左端)、中央値(真ん中)、最高値(右端)の3つの数値は必要でしょう。また、ヒートマップの色づけは、の3段階ではなく、連続的に変化していることが多いです。 続きを読む ヒートマップの色づけ (4): 凡例 (legend) の表示