よくある疑問・質問 (2): クラスタリングの結果、何パターンに分類できますか?

遺伝子が発現変動した結果、まず、どのような変動パターンを示す傾向にあるのか気になるのは、もっともなことだと思います。変動パターンを分類するために、クラスタリングを用いるのは正しいです。

Q: クラスタリングの結果、変動パターンは、何パターンに分類できますか?

 

A: 何パターンにも分類できます。

答えになっていないように思われるかもしれません。確かに、解析例1のデータは、 K-means クラスタリングの結果、10個の変動パターンに分類されました。

各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。

しかし、 クラスタリングの手順をよく見てみましょう。パラメーターとして、クラスターの数を入力しています。ここで「10」を設定したため、10個のクラスターが得られたのです。

例えば、このパラメーターに「27」を設定すれば、27個のクラスターに分けることができます。

27個のクラスターに分類した結果。
27個のクラスターに分類した結果。

何パターンに分けるのが適切なのか」コンピューターに決めて欲しくなるところですが、もう少しヒントがないと難しいのが現状です。(この手の問題は、コンピューターの苦手な処理です。)

参考:

K-means 法の原理については、下記のサイトの記事がイメージしやすいと思います。

http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/

 

クラスタリング (MeV, k-means クラスタリング)

遺伝子の変動パターンを分類するには、クラスタリングが用いられます。MeV を用いて、クラスタリングの手法の1つである k-means を使った例を紹介します。

クラスタリング手法の選択

MeV でデータを読み込み、クラスタリング手法(アルゴリズム)を選択します。(ここでは、クラスタリングの前に、log2変換と中央値からの距離に直す補正を行っています。操作方法はこちら

クラスタリング手法を選択。
クラスタリング手法を選択。

パラメーターの設定

ダイアログが表示されるので、パラメーターを設定します。ここでは、変動パターンで分類したいため、遺伝子方向のみのクラスタリングを行います。(似ているサンプルを探すのなら、サンプル方向にクラスタリングします。)

クラスターをいくつに分けるか指定します。標準では10個の設定です。

また、結果を見やすくするため、さらに階層的クラスタリングで処理するチェックを入れます。

K-means クラスタリングのパラメーターを設定。
K-means クラスタリングのパラメーターを設定。

結果の表示用の階層的クラスタリングのパラメーターを設定します。同様に遺伝子方向のみ指定しています。また、最適化のオプションにチェックを入れています。ほかのパラメーターは標準設定のものを使用しました。

階層的クラスタリングのパラメーターを設定。
階層的クラスタリングのパラメーターを設定。

結果の表示

ウィンドウの左側の結果をたどると、変動パターン10個に分けられた各クラスターのヒートマップを確認できます。

10個のクラスターのヒートマップ。
10個のクラスターのヒートマップ。

また、 Expression Graphs を選択すると、各クラスターに含まれている遺伝子の折れ線グラフが表示されます。各クラスターに含まれている遺伝子の数もここでチェックできます。

各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
 

ペアを考慮したt-検定 (MeV)

MeV を用いて、ペアを考慮した t-検定を行う方法を紹介します。

検定を行う2グループに含まれるサンプルの間に、ペアの関係がある場合は、ペアを考慮した検定が可能です。(例えば、患者ごとに投与前、投与後のサンプルある場合など。)ここでは、仮に WT と KO にペアの関係があったと仮定して、例として用いています。

ペアのあるデータ。ここでは仮に WT と KO にペアがあると仮定。
ペアのあるデータ。ここでは仮に WT と KO にペアがあると仮定。

続きを読む ペアを考慮したt-検定 (MeV)

 

MeV の利用できるメモリを増やす方法

MeV を用いて、サイズの大きなヒートマップを作成した場合、結果の画像をファイルとして保存できないことがあります。

例えば、5000個の遺伝子でヒートマップを作成した場合、Set Element Size で指定する Element Width と Height を 40 x 20 くらいにしていると、この問題が発生します。

1つの対処方法としては、 Element Width と Height を 40 x 1 のようにして、縮小されたヒートマップにする方法があります。ただ、この場合、保存したヒートマップは小さすぎて、個々の遺伝子名は読めません。

数千遺伝子のヒートマップを、文字が読める大きさで画像ファイルに保存するには、MeV の利用できるメモリを増やすことで対応できるときがあります。ここでのメモリは、パソコンに搭載されたメモリのことではありません。初期状態で、パソコンに搭載されたメモリのうち、MeVの利用できるメモリは、1GB制限されています。この制限を変更する方法を示します。(Macの場合です。)

(1) 準備(テキストエディタ)

まず、テキストファイルを編集するためのソフト(テキストエディタ)を準備してください。 “Text Wrangler” がおすすめです。必要な場合は、App Store からダウンロードしてインストールします。

TextWrangler. App Store から入手可能。
TextWrangler: App Store から入手可能。

(2) 起動ファイル (tmev_mac.sh) の編集

次に MeV のフォルダを開きます。MeVをインストールした場所にあります。通常は、「アプリケーション」フォルダにあると思います。

MeV のフォルダ。
MeV のフォルダ。

そのフォルダに含まれる “tmev_mac.sh” というファイルを “TextWrangler” などのテキストエディタで編集します。 “tmev_mac.sh” をクリックして、右クリックもしくは、上部のメニューから、「このアプリケーションで開く」–> 「TextWrangler」を選択します。

メニューから、このアプリケーションで開く--> TextWranger を選択。
メニューから、このアプリケーションで開く–> TextWranger を選択。

最終行の “1024” を “4096” などの大きい数字に変更します。ここは、パソコンに実際に搭載されたメモリの大きさと相談してください。搭載されたメモリの半分ほどは、MeVに割り当てても問題ありません。(例:メモリを8GB搭載している場合は、4GB = “4096” を指定。もし、2GB割り当てるのなら “2048” などとします。)

最終行を編集。1024 を 4096 など。
最終行を編集。1024 を 4096 など。

編集後は、下記のようになります。ファイルを上書き保存してください。(この設定ファイルの編集は、インストールされたMeVへの影響はありませんので、この変更により、通常の MeV が起動できくなることはありません。)

編集後。
編集後。

(3) 編集したファイルから、MeVを起動

編集したファイルから、MeV を起動すると、メモリの制限を変更した状態で MeV を利用できます。TextWrangler のメニューの「#!」から、「Run in Terminal」を選択してください。

設定ファイルから MeV を起動。
設定ファイルから MeV を起動。

なお、tmev_mac.sh を上書き保存したとしても、変更したMeVを利用するには、毎回、このファイル経由で MeV を起動する必要があります。(MeV のアイコンをダブルクリックした場合は、標準状態の MeV が起動します。)

 

 

MeV のヒートマップの余白を減らす

MeV でヒートマップを作成した際に、保存した画像ファイルの右側に大きく余白が生じてしまうことがないでしょうか?これは画像のサイズが、MeVのウィンドウの大きさの影響を受けているために生じた余白です。

対処方法としては、あらかじめ、ウィンドウの大きさを小さくしてから(全体が表示されない程度に)、画像の保存を行います。

ヒートマップを保存した画像の右側に生じた余白。
ヒートマップを保存した画像の右側に生じた余白。

対処方法:ウィンドウサイズを小さくします。MeVのウィンドウの右下をドラッグして、サイズを調節します。右側に余白が表示されないようにウィンドウの幅を調節してください。

MeVのウィンドウの幅を調節。
MeVのウィンドウの幅を調節。

ヒートマップの画像の全体が表示されない程度に、ウィンドウを小さくしてから、 File –> Save Image を選んで、ヒートマップを保存します。

ウィンドウ幅を調節してからヒートマップを保存。
ウィンドウ幅を調節してからヒートマップを保存。