GSEA 操作ガイド (5): 2サンプルの場合

これまでに紹介した解析方法は、繰り返しサンプルがある場合 (n=3 以上のデータ)です。データが、コントロールと実験の2サンプルしかない場合は、Rank の算出方法を変更しなければなりません。

隠されたパラメーターで、Rankの算出方法を確認。
隠されたパラメーターで、Rankの算出方法を確認。

1. 隠されたパラメーター

Rank の算出方法は、GSEA に設定するパラメーターのうち、隠されている部分にあります。”Show” をクリックして、”Metric for ranking genes” の表示を確認してください。標準の設定では、算出方法は、 “Signal2Noise” となっています。2サンプルでは、標準偏差が算出できませんから、この Rank の算出方法は利用できません。

2. その他の Rank の算出方法

項目をクリックすると、その他の Rank の算出方法が表示されます。2サンプルの場合で、シグナル値がlog変換されていなければ、 “log2_Ratio_of_Classes” を選んでください。ratio を選んでください。例えば、 “Ratio_of_Classes” です。もし、読み込んだデータのシグナル値が、log2変換後の値であれば、 “Diff_of_Classes” でもよいでしょう。

その他の Rank の算出方法。
その他の Rank の算出方法。

Rank として、 ratio を使う場合は、当然、シグナル値の大きさは考慮されません。シグナル値が 10 から 100 に変化した、10倍であっても、1000 から 10000 に変化した10倍も、同じ評価です。

繰り返し実験のばらつきで示したように、どうしてもシグナル値の低い部分で大きな ratio が出やすいため、GSEAの結果として、意味のない動き(ノイズ)を拾ってしまう可能性があります。

ノイズの多いデータかどうか、事前に散布図やMAプロットで確認しておきましょう。

 

投稿者:

Atsushi Doi

株式会社セルイノベーター、主任研究員。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください