Gene Set Enrichment Analysis (GSEA)

Gene Set Enrichment Analysis (GSEA) は、GO解析パスウェイ解析、に並んで、よく用いられる解析手法の1つです。

後者の2つの解析は、原理的には、遺伝子発現が増加または減少した遺伝子群を多く含む「特定の遺伝子群」を探すというものでした。この「特定の遺伝子群」が、あるキーワードをアノテーションに持つ遺伝子群であったり(GO解析)、あるパスウェイに載っている遺伝子群であったり(パスウェイ解析)するわけです。

この「特定の遺伝子群」を「遺伝子セット (Gene Set)」として、あらかじめ準備しておき、増加または減少した遺伝子群が、どの「遺伝子セット」に多く含まれているかを調べるのが、Gene Set Enrichment Analysis (GSEA) です。

GSEA
GSEA のサイト。

例えば、GSEA遺伝子セットには、「stem cell で発現が増加していた遺伝子群」があります。これは論文 (Pubmed 12228720) の情報をもとに作成された遺伝子セットです。このような遺伝子セットは、キュレーターによって登録されており、Molecular Signatures Database (MSigDB) と呼ばれるデータベースとして公開されています。

a gene set
遺伝子セットの例。

GSEA の利用、MSigDB の閲覧には、メールアドレスの登録が必要です。

> Subramanian,Tamayo, et al. (2005, PNAS 102, 15545-15550) and Mootha, Lindgren, et al. (2003, Nat Genet 34, 267-273).

 

特定の遺伝子を含むパスウェイの検索

「ある特定の遺伝子が、どのパスウェイに載っているのか?」知りたいことがあると思います。この場合、 NCBI で検索することで、簡単にパスウェイの一覧を得ることができます。

1. NCBI で検索

(1) NCBI のサイトで、対象に “Gene” を選択します。(2) 目的となる遺伝子の名前(Official Gene Symbol など)を入力します。(3) Search をクリックします。

NCBI_Gene_Search
NCBIで検索。

2. 検索結果

検索した遺伝子の候補が表示されます。生物種などを手がかりに、目的の遺伝子を選択します。

NCBI_Search_Result
検索結果、候補の遺伝子。

3. 遺伝子の詳細な情報

目的となる遺伝子の詳細な情報が表示されます。さまざまな情報を確認できますが、画面をずっと下までスクロールさせていくと、”Pathways from BioSystems” という項目があります。

Search_Result_Detail
遺伝子の詳細な情報。

4. Pathways from BioSystems

パスウェイの一覧が見つかります。パスウェイは、各パスウェイデータベースの情報とリンクしています。同じ名前のパスウェイであっても、元となるパスウェイデータベースによって中身が少しずつ異なっています。また、パスウェイとして扱われていても、パスウェイのマップ(ダイアグラム、絵)が描かれていないものも多数あります。KEGGパスウェイデータベースのマップが一番参考になると思います。

Pathways_from_BioSystems
パスウェイの一覧。
 

パスウェイの作成方法の違い

パスウェイデータベースによって、パスウェイの作成方法は異なります。

キュレーターによるパスウェイ

KEGG や BIOBASE 、 Ingenuity Pathway Analysis などは、おもに研究者が生化学や医学の文献を読み、そこに文章で記述されていた内容をパスウェイの図として描くことで作成されています。この文献情報をチェックしている研究者は、「キュレーター」と呼ばれます。

例えば、「タンパクAがタンパクBをリン酸化によって活性化している」という記述があれば、AからBへ活性化の矢印を引くというような作業となります。これを1本1本の矢印について行うことで、パスウェイは作成されます。

自然言語処理によるパスウェイ

一方、キュレーターに頼らず、パスウェイを作成する方法もあります。その中の1つが、自然言語処理 (natural language processing) によるものです。これは、 PubMed などに登録された論文の要旨 (Abstract) の記述をコンピューターで処理することで、前述のような表現を抽出して、パスウェイの矢印を作成する方法です。 Agilent 社の GeneSpring や、 Ariadone Genomics 社の Pathway Studio などが、この手法を用いています。

手法による長所と短所

それぞれの手法に一長一短があります。キュレーターによるパスウェイは、人手による作業になるため、抽出される情報は、読まれた論文に依存します。すべての論文の情報がチェックされているとは限りませんが、「整理された情報」である点は魅力です。

自然言語処理は、手作業で作成するよりも網羅的な情報の抽出が可能ですが、コンピューターに完全に文脈が判断できるわけではありません。(一般的にコンピューターは、あいまいな表現が苦手です。)また、大量に情報が取得できる反面、情報量が多すぎて判断に困るということもあります。(大量の情報というのは魅力でもありますが。)

 

 

パスウェイ解析とは?

パスウェイ解析

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)が、「どのパスウェイに多く含まれていたかを調べる」ものです。考え方は、GO解析同様です。(パスウェイに含まれていることを、パスウェイにマップされているとも表現されます。)

特定のパスウェイに多く含まれていたこと(集中していたこと)を統計学的に有意かどうかを述べるには、GO解析の場合と同様に、下記の2点を考慮する必要があります。パスウェイに含まれている遺伝子の単純な個数で評価することは、望ましくありません。

  1. そのパスウェイに含まれる遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. パスウェイに含まれる遺伝子の数

たとえば、 “Pathways in cancer” のパスウェイなどは、パスウェイ上に描かれている遺伝子の数が多いです。そのため、このパスウェイに含まれる遺伝子は、それだけ見つかりやすいと考えられます。

 2. 発現変動遺伝子の数

数千個の遺伝子が増加、または減少している状況では、あらゆるパスウェイにおいて、増加減少した遺伝子が見つかります。

GO解析と同様に、DAVID などのサービスを利用すれば、上記の2点を考慮した各パスウェイごとの p-value が得られます。

パスウェイ解析で得られる結果

基本的にパスウェイ解析によって得られるのは、下記の2つものです。

  • 特定のパスウェイに含まれる遺伝子のリスト(シグナル値と ratio, fold-change, Z-score, p-value などのスコア)
  • 遺伝子発現の増減で色付けされたパスウェイの図
 

パスウェイデータベースとは?

様々なパスウェイをまとめてデータベース化したものが、「パスウェイデータベース」です。

パスウェイデータベース (Pathway Database)

代表的なパスウェイデータベースと言えば、京都大学の KEGG パスウェイデータベースでしょう。代謝経路を中心に、シグナル伝達系や、ヒトの疾患に関係したパスウェイなどが作成され、登録されています。世界的に利用されており、このサイトで紹介している DAVID も、パスウェイのデータとして、この KEGG のデータを使用しています。一般的な「パスウェイ解析」で利用されているのも、この KEGG パスウェイデータベースのパスウェイでしょう。KEGGのデータの閲覧は、研究目的として無償で利用できます。(アカデミックフリー。FTPを利用した方法や、商用利用にはライセンス契約が必要です。)

ほかのパスウェイデータベースとしては、下記のものがあります。