よくある疑問・質問 (2): クラスタリングの結果、何パターンに分類できますか?

遺伝子が発現変動した結果、まず、どのような変動パターンを示す傾向にあるのか気になるのは、もっともなことだと思います。変動パターンを分類するために、クラスタリングを用いるのは正しいです。

Q: クラスタリングの結果、変動パターンは、何パターンに分類できますか?

 

A: 何パターンにも分類できます。

答えになっていないように思われるかもしれません。確かに、解析例1のデータは、 K-means クラスタリングの結果、10個の変動パターンに分類されました。

各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。

しかし、 クラスタリングの手順をよく見てみましょう。パラメーターとして、クラスターの数を入力しています。ここで「10」を設定したため、10個のクラスターが得られたのです。

例えば、このパラメーターに「27」を設定すれば、27個のクラスターに分けることができます。

27個のクラスターに分類した結果。
27個のクラスターに分類した結果。

何パターンに分けるのが適切なのか」コンピューターに決めて欲しくなるところですが、もう少しヒントがないと難しいのが現状です。(この手の問題は、コンピューターの苦手な処理です。)

参考:

K-means 法の原理については、下記のサイトの記事がイメージしやすいと思います。

http://tech.nitoyon.com/ja/blog/2009/04/09/kmeans-visualise/

 

クラスタリング (MeV, k-means クラスタリング)

遺伝子の変動パターンを分類するには、クラスタリングが用いられます。MeV を用いて、クラスタリングの手法の1つである k-means を使った例を紹介します。

クラスタリング手法の選択

MeV でデータを読み込み、クラスタリング手法(アルゴリズム)を選択します。(ここでは、クラスタリングの前に、log2変換と中央値からの距離に直す補正を行っています。操作方法はこちら

クラスタリング手法を選択。
クラスタリング手法を選択。

パラメーターの設定

ダイアログが表示されるので、パラメーターを設定します。ここでは、変動パターンで分類したいため、遺伝子方向のみのクラスタリングを行います。(似ているサンプルを探すのなら、サンプル方向にクラスタリングします。)

クラスターをいくつに分けるか指定します。標準では10個の設定です。

また、結果を見やすくするため、さらに階層的クラスタリングで処理するチェックを入れます。

K-means クラスタリングのパラメーターを設定。
K-means クラスタリングのパラメーターを設定。

結果の表示用の階層的クラスタリングのパラメーターを設定します。同様に遺伝子方向のみ指定しています。また、最適化のオプションにチェックを入れています。ほかのパラメーターは標準設定のものを使用しました。

階層的クラスタリングのパラメーターを設定。
階層的クラスタリングのパラメーターを設定。

結果の表示

ウィンドウの左側の結果をたどると、変動パターン10個に分けられた各クラスターのヒートマップを確認できます。

10個のクラスターのヒートマップ。
10個のクラスターのヒートマップ。

また、 Expression Graphs を選択すると、各クラスターに含まれている遺伝子の折れ線グラフが表示されます。各クラスターに含まれている遺伝子の数もここでチェックできます。

各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
各クラスターに含まれている遺伝子の変動パターンの折れ線グラフ。
 

マイクロアレイデータの解析例 1.9 (上流解析、 GeneMANIA)

これまでの解析で、発現変動遺伝子の算出機能解析、さらにパスウェイ解析を通して、発現変動した遺伝子には、どのような機能の遺伝子が多いか、どの辺りのパスウェイの遺伝子が多いのか、全体的に見ました。

また、共通して変動したものが多いのか、特定のサンプルだけ変動した遺伝子が多いのかといった変動パターンは、ヒートマップで確認します。

特定の機能やパスウェイの遺伝子が、特徴的な変動パターンを示しているのであれば、それがキーになる可能性があるでしょう。そのあとは、それらの重要と考えられる遺伝子をリアルタイムPCRでチェックしたり、タンパクを免疫染色で確認したりといったバリデーションを行って、一段落となります。ここまでの結果で、論文なる場合もあるかと思います。(本当にキーになっているかどうか証明するのであれば、siRNAでノックダウンしたり、KOマウスを作成することになるでしょう。)

上流解析 (GeneMANIA)

もう少し、結果に新規性を求めるのであれば、上流解析を行うことになります。例えば、アポトーシスのパスウェイ上の遺伝子が増加していたのであれば、それを結果と考えて、それらの遺伝子を増加させている原因の遺伝子を探すというものです。

このとき、 Ingenuity Pathway Analysis (IPA) など有償のパスウェイデータベースがあれば便利です。無償のデータベースとしては、 GeneMANIA などがあります。

仮に PIK3R5, PRKACG, CASP12 遺伝子の増加が重要な結果であると考えられるとすると、それらを共通に制御する遺伝子が存在するようであれば、原因と言えるかもしれません。

GeneMANIA で、これら3つの遺伝子を検索すると、下記のようなネットワーク図が得られます。(オプションを変更して、50遺伝子まで検索しています。)

GeneMANIA で検索した結果。
GeneMANIA で検索した結果。

残念ながら、これら3つの遺伝子を直接共通に制御していそうな遺伝子は、見つかりませんでした。(新規性を求めるのであればということであり、必ずしもここまでの結果が要求されるわけではありません。)ネットワーク図から、次の研究のヒントは得られるかもしれません。

 

KEGG パスウェイの色付け:指定したはずの色にならない

KEGG パスウェイの色付けを行う場合は、いくつか注意点があります。特に、パスウェイ上の1つのシンボルに、複数の遺伝子が含まれている状態を考慮する必要があります。

1つのシンボルに複数の遺伝子が含まれる

ファミリーやバリエーションのある遺伝子の場合、KEGGでは、複数の遺伝子を1つのシンボルでまとめて表記している場合があります。例えば、 PI3K などです。PI3K のシンボルには、 PIK3R5, PIK3CA, PIK3CB, … などがまとめられています。

シンボルにどの遺伝子が割り当てられているかは、各シンボルをマウスでポイントする(=カーソルを合わせてしばらく動かさない)ことで確認できます。

シンボルをマウスでポイントすると、含まれている遺伝子名がわかります。
シンボルをマウスでポイントすると、含まれている遺伝子名がわかります。

指定したはずの色にならない

1つのシンボルに、複数の遺伝子が割り当てられている場合、複数の色を指定したとしても、いずれかの遺伝子の色が割り当てられます。

KEGG Mapper で、1つのシンボルに複数の色を指定した例。
KEGG Mapper で、1つのシンボルに複数の色を指定した例。

例えば、 PI3K のシンボルに含まれている 5290 (PIK3CA)23533 (PIK3R5)、に指定した場合、KEGG Mapper の結果において PI3K は、になります。 この場合、 23533 の色のみが使用されています。後に指定したほうが優先されるというわけではなく、ポイントしたときに表示される順が早い遺伝子の色を採用しているようです。(詳しくはわかりません。)

この結果、発現が下がっていたので、く表示したかったとしても、に表示されるというように、指定したはずの色にならないケースがありえます。(矛盾した結果というわけではなく、ファミリーに含まれている遺伝子の変動の向きが一致しないことはしばしばあります。むしろ、全てのファミリーが同じ方向に変動したというデータを見ることが稀のように思います。)

パスウェイを発現変動遺伝子で色付けしたとしても、最終的には、エクセルに戻って、実際の ratio やシグナル値の値を確認するようにしましょう。

 

KEGG パスウェイ色付け (KEGG WebLinks)

KEGG Mapper による色付けでは、1つのシンボルの色は、1色しか指定できません。そのため、解析例1のようなタイムコースのデータの場合、パスウェイ上での色の変化を時系列で観察するには、各タイムポイントの比較結果ごとに色付けを繰り返し行うことになります。

タイムコースデータの色付け

解析例1の場合は、16hr, 24hr, 40hr の3パターンの比較結果があるので、3回色付けを行います。前回は、24hr の結果で色付けを行っていました。このデータの場合、16hr は1つも色がつかない(変動している遺伝子が KEGG の Apoptosis にヒットしない)ので省略します。40hr の変動遺伝子を色付けした結果を下図に示します。

40hr の発現変動遺伝子を色付けした場合。
40hr の発現変動遺伝子を色付けした場合。

24hr の結果と比べると、PKAに色がつかなくなっています。これらの色付けされたパスウェイの図だけを見るならば、 16hr で1つも色がつかず、24hr, 40hr で CASP12 などが増加しているように見えるため、 Apoptosis が活性化しているような印象を与えるかもしれません。(閾値ぎりぎりで、変動ありとなっていない場合もありますので、正確には、エクセルなどでシグナル値をチェックする必要があります。)

KEGG WebLinks の利用

このように、複数のパターンで(or 複数のパスウェイに対して)色付けする必要がある場合は、 KEGG WebLinks を利用するのが便利です。

KEGG WebLinks の書式。
KEGG WebLinks の書式。

URL (リンク)に決まった書式(フォーマット)で、 IDカラーを指定することで、色付けしたパスウェイの結果にアクセスできます。

今回の例であれば、下記のようなアドレスとなります。(詳しい書式は、KEGG WebLinks のページを参照してください。)

http://www.kegg.jp/kegg-bin/show_pathway?map=hsa04210&multi_query=100506742+%23FF6699%2C%23000000%0A23533+%23FF6699%2C%23000000%0A

KEGG WebLinks を利用することで、直接結果にアクセスできるため、前回のようなフォームに入力する手間を省くことができます。