GSEA 操作ガイド (4): 結果の表示と解釈

正しくパラメーターを設定できれば、GSEA を実行後に結果のレポートを確認できます。そのレポートの読み方を紹介します。

1. 実行状況の確認

Run を押した後、ウィンドウ左下の Status には、”Running” と表示されています。Error が出ずに終了すれば、この表示が、 “Success” に変わります。(選択したリストが多くなければ、数分後には終了します。)

GSEAの終了を確認。
GSEAの終了を確認。

2. レポートの表示

Success” の部分をクリックすると、ブラウザが起動し、解析結果のレポートが表示されます。 続きを読む GSEA 操作ガイド (4): 結果の表示と解釈

 

ペアを考慮したt-検定 (MeV)

MeV を用いて、ペアを考慮した t-検定を行う方法を紹介します。

検定を行う2グループに含まれるサンプルの間に、ペアの関係がある場合は、ペアを考慮した検定が可能です。(例えば、患者ごとに投与前、投与後のサンプルある場合など。)ここでは、仮に WT と KO にペアの関係があったと仮定して、例として用いています。

ペアのあるデータ。ここでは仮に WT と KO にペアがあると仮定。
ペアのあるデータ。ここでは仮に WT と KO にペアがあると仮定。

続きを読む ペアを考慮したt-検定 (MeV)

 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

これまでを振り返り、再度、マイクロアレイ解析の流れについて解説します。

下図にマイクロアレイ解析のフローチャートを示します。まずは、発現変動遺伝子の抽出までの流れです。左側にフローチャートの各ステップで得られるデータの形式を表記しています。右側に各ステップで行われる処理を示しています。

  • (1) ラベリング、ハイブリダイゼーション。
  • (2) スキャン、数値化。
  • (3) 正規化(コントロールを合わせる処理。全体の分布を統計的に合わせるもの (global normalization) が主流。
  • (4) シグナル値の比較。 ratio (fold-change), Z-score, p-value などを算出する。
  • (5) 発現変動遺伝子の抽出。算出された ratio, Z-score, p-value をもとに遺伝子発現が増加減少)した遺伝子をピックアップ。

 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出
マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

 

ここまでの解析ステップが、マイクロアレイの最も基礎的な解析ステップとなります。このステップで、遺伝子発現が増加減少)した遺伝子群のリストが得られます。しかしながら、変動している遺伝子(発現に差のある遺伝子)が、どれか分かっただけであり、その後の解析が必要です。通常、数百個から数千個の遺伝子が発現変動しています。

解析のステップとして、次に何をすべきでしょうか?

 

パスウェイ解析とは?

パスウェイ解析

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)が、「どのパスウェイに多く含まれていたかを調べる」ものです。考え方は、GO解析同様です。(パスウェイに含まれていることを、パスウェイにマップされているとも表現されます。)

特定のパスウェイに多く含まれていたこと(集中していたこと)を統計学的に有意かどうかを述べるには、GO解析の場合と同様に、下記の2点を考慮する必要があります。パスウェイに含まれている遺伝子の単純な個数で評価することは、望ましくありません。

  1. そのパスウェイに含まれる遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. パスウェイに含まれる遺伝子の数

たとえば、 “Pathways in cancer” のパスウェイなどは、パスウェイ上に描かれている遺伝子の数が多いです。そのため、このパスウェイに含まれる遺伝子は、それだけ見つかりやすいと考えられます。

 2. 発現変動遺伝子の数

数千個の遺伝子が増加、または減少している状況では、あらゆるパスウェイにおいて、増加減少した遺伝子が見つかります。

GO解析と同様に、DAVID などのサービスを利用すれば、上記の2点を考慮した各パスウェイごとの p-value が得られます。

パスウェイ解析で得られる結果

基本的にパスウェイ解析によって得られるのは、下記の2つものです。

  • 特定のパスウェイに含まれる遺伝子のリスト(シグナル値と ratio, fold-change, Z-score, p-value などのスコア)
  • 遺伝子発現の増減で色付けされたパスウェイの図
 

GO解析(2)

GO解析の考え方

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)の中に、「特定の用語(機能、キーワード)をアノテーションに持つ遺伝子が多い」ことを述べるには、下記の2つの点を考慮する必要があります。

  1. その用語をアノテーションに持つ遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. について

もともとゲノム中に多く含まれる機能は、当然、発現変動遺伝子群においても見つかりやすいです。たとえば、 GO:0005488 : binding は、ほとんどの遺伝子がこの機能をアノテーションされています。(何らかのタンパクと結合することが考えられますので、当然といえます。)GO:0016020 : membrane などもそうです。ほとんどの遺伝子は、膜系か、それ以外に分類されるためです。

「当たり」が多く含まれている宝くじを引いていることをイメージするとよいでしょう。それでは当たったことが重要にはなりません。

2. について

発現が増加または、減少した遺伝子の数が多い場合、あらゆる機能の遺伝子が見つかりやすくなります。マイクロアレイデータによっては、3000個以上の遺伝子が増加、減少していることもあります。この状態では、ほぼすべての機能の遺伝子が含まれていて当然と考えられます。

宝くじをたくさん引いていることをイメージするとよいでしょう。何度も挑戦することで、当然、当たりやすくなるため、当たったことの重要性は薄れます。

好ましい状態

上記を考慮すると、最も重要性が高くなるのは、次の条件です。

「もともとゲノム中に数少なく見られる機能を持つ遺伝子が、少ない発現変動遺伝子群に数多く含まれている。」

言い換えると、「ゲノム中(4万個)に10個程度しか含まれない遺伝子が、マイクロアレイ解析の結果、変動していた100個の遺伝子群の中に、8個も見つかった」というような状況です。(数字は適当です。)

DAVID の解析結果などに表示されている GO についた p-valueEnrichment Score は、上記の点を考慮して算出されたものです。 p-value < 0.05 であれば、偶然ではないことが主張できます。