クラスタリング (MeV, k-means クラスタリング)

遺伝子の変動パターンを分類するには、クラスタリングが用いられます。MeV を用いて、クラスタリングの手法の1つである k-means を使った例を紹介します。

クラスタリング手法の選択

MeV でデータを読み込み、クラスタリング手法(アルゴリズム)を選択します。(ここでは、クラスタリングの前に、log2変換と中央値からの距離に直す補正を行っています。操作方法はこちら

クラスタリング手法を選択。
クラスタリング手法を選択。

パラメーターの設定

ダイアログが表示されるので、パラメーターを設定します。ここでは、変動パターンで分類したいため、遺伝子方向のみのクラスタリングを行います。(似ているサンプルを探すのなら、サンプル方向にクラスタリングします。)

クラスターをいくつに分けるか指定します。標準では10個の設定です。

また、結果を見やすくするため、さらに階層的クラスタリングで処理するチェックを入れます。

K-means クラスタリングのパラメーターを設定。
K-means クラスタリングのパラメーターを設定。

結果の表示用の階層的クラスタリングのパラメーターを設定します。同様に遺伝子方向のみ指定しています。また、最適化のオプションにチェックを入れています。ほかのパラメーターは標準設定のものを使用しました。

階層的クラスタリングのパラメーターを設定。
階層的クラスタリングのパラメーターを設定。

結果の表示

ウィンドウの左側の結果をたどると、変動パターン10個に分けられた各クラスターのヒートマップを確認できます。

10個のクラスターのヒートマップ。
10個のクラスターのヒートマップ。

また、 Expression Graphs を選択すると、各クラスターに含まれている遺伝子の折れ線グラフが表示されます。各クラスターに含まれている遺伝子の数もここでチェックできます。

各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
 

GSEA 操作ガイド (5): 2サンプルの場合

これまでに紹介した解析方法は、繰り返しサンプルがある場合 (n=3 以上のデータ)です。データが、コントロールと実験の2サンプルしかない場合は、Rank の算出方法を変更しなければなりません。

隠されたパラメーターで、Rankの算出方法を確認。
隠されたパラメーターで、Rankの算出方法を確認。

1. 隠されたパラメーター

Rank の算出方法は、GSEA に設定するパラメーターのうち、隠されている部分にあります。”Show” をクリックして、”Metric for ranking genes” の表示を確認してください。標準の設定では、算出方法は、 “Signal2Noise” となっています。2サンプルでは、標準偏差が算出できませんから、この Rank の算出方法は利用できません。

2. その他の Rank の算出方法

項目をクリックすると、その他の Rank の算出方法が表示されます。2サンプルの場合で、シグナル値がlog変換されていなければ、 “log2_Ratio_of_Classes” を選んでください。ratio を選んでください。例えば、 “Ratio_of_Classes” です。もし、読み込んだデータのシグナル値が、log2変換後の値であれば、 “Diff_of_Classes” でもよいでしょう。

その他の Rank の算出方法。
その他の Rank の算出方法。

Rank として、 ratio を使う場合は、当然、シグナル値の大きさは考慮されません。シグナル値が 10 から 100 に変化した、10倍であっても、1000 から 10000 に変化した10倍も、同じ評価です。

繰り返し実験のばらつきで示したように、どうしてもシグナル値の低い部分で大きな ratio が出やすいため、GSEAの結果として、意味のない動き(ノイズ)を拾ってしまう可能性があります。

ノイズの多いデータかどうか、事前に散布図やMAプロットで確認しておきましょう。

 

GSEA 操作ガイド (3): パラメーターの設定と実行

データの読み込みができたら、GSEA を実行する際に必要なパラメーターを設定します。GSEAには、設定を変更できる非常に多くのパラメーターがあります。ここでは最低限必要なパラメーターを紹介します。

1. Run Gsea タブの表示

正常にデータを読み込んだら、左側の “Run GSEA” をクリックして、 Run Gsea タブを表示させます。

GSEA をクリック。
“Run GSEA” をクリック。

2. 最低限、設定が必要なパラメーター

Run Gsea タブに、GSEA の実行に必要なパラメーターを設定します。最低限、これらの下記の7項目の設定が必要です。(これらの設定に必要なパラメーターの多さが、GSEAを難しくしている要因の1つかと思います。) 続きを読む GSEA 操作ガイド (3): パラメーターの設定と実行

 

GSEA 操作ガイド (2): データの読み込み

データを読み込むところまでを紹介します。フォーマットを合わせることができれば、操作は難しくありません。(データは、3. で示すフォーマットで事前に準備しておく必要があります。)

1. Load data をクリック

メインとなるウィンドウの左上にある “Load data” のボタンをクリックします。

Load data をクリックする。
Load data をクリックする。

2. 読み込むファイルの選択

右側にデータを読み込むためのタブが表示されます。読み込む方法は3種類あります。いずれかの方法を使用します。通常は、読み込み方法1を使うとよいでしょう。 続きを読む GSEA 操作ガイド (2): データの読み込み

 

GSEA 操作ガイド (1): GSEA の起動

人気のある解析ツール GSEA の紹介です。GSEAを使うと、DAVIDのように、どのような機能の遺伝子が発現変動していたかを解析できます。ただ、解析結果の解釈は難しいかもしれません。(発現変動遺伝子に含まれる遺伝子の機能(GO)や、所属するパスウェイを見るだけなら、DAVIDのほうが簡単と思います。)

今回は、起動するまでの操作を示します。なお、GSEAを使用するには、Javaプログラムが必要になります。PCにインストールされていない場合は、あらかじめ、ORACLE 社から、Java をダウンロードして、インストールしておいてください。

1. GSEA のサイトにアクセス

以前、紹介した MSigDB と同じサイト(http://www.broadinstitute.org/gsea/index.jsp) です。Download をクリックして、GSEAソフトウェアのダウンロード画面へ進んでください。なお、使用するには、メールアドレスの登録が必要となります。(MSigDBを閲覧するときに登録していれば、同じメールアドレスで利用できます。)

GSEAのサイト。MSigDBと同じサイトです。
GSEAのサイト。MSigDBと同じサイトです。

2. ファイルをダウンロード(または直接、GSEAを起動)

GSEAに割り当てるメモリのサイズを選択してから、”Launch” を押すと、GSEA.jnlp ファイルがダウンロードされます。(または、直接、GSEAが起動します。) 続きを読む GSEA 操作ガイド (1): GSEA の起動