特定の遺伝子を含むパスウェイの検索

「ある特定の遺伝子が、どのパスウェイに載っているのか?」知りたいことがあると思います。この場合、 NCBI で検索することで、簡単にパスウェイの一覧を得ることができます。

1. NCBI で検索

(1) NCBI のサイトで、対象に “Gene” を選択します。(2) 目的となる遺伝子の名前(Official Gene Symbol など)を入力します。(3) Search をクリックします。

NCBI_Gene_Search
NCBIで検索。

2. 検索結果

検索した遺伝子の候補が表示されます。生物種などを手がかりに、目的の遺伝子を選択します。

NCBI_Search_Result
検索結果、候補の遺伝子。

3. 遺伝子の詳細な情報

目的となる遺伝子の詳細な情報が表示されます。さまざまな情報を確認できますが、画面をずっと下までスクロールさせていくと、”Pathways from BioSystems” という項目があります。

Search_Result_Detail
遺伝子の詳細な情報。

4. Pathways from BioSystems

パスウェイの一覧が見つかります。パスウェイは、各パスウェイデータベースの情報とリンクしています。同じ名前のパスウェイであっても、元となるパスウェイデータベースによって中身が少しずつ異なっています。また、パスウェイとして扱われていても、パスウェイのマップ(ダイアグラム、絵)が描かれていないものも多数あります。KEGGパスウェイデータベースのマップが一番参考になると思います。

Pathways_from_BioSystems
パスウェイの一覧。
 

増加を ratio > 1.5 で判定したとき、減少は ratio < ??

ratio (=fold-change) > “2” と増加を判定したときは、対応する減少の判定は ratio < “0.5” となるでしょう。では、 ratio > “1.5” と判定したときは、対応する減少の判定は、いくつになるでしょう?

値は 1.5/2 = 0.75 倍になっています。よって、0.5 x 0.75 = 0.375 ???

この話は、log2変換してから (logFC) のほうが分かりやすいかもしれません。「ratio > 2 または ratio < 0.5」 これを logFC にすると次のようになります。

「logFC > 1 または logFC < -1」(絶対値の記号"||"を使うと |logFC| > 1)

ここで “1” は log2(2) です。”-1″ は log2(0.5) ですが、マイナスlog2(2) とも書けます。つまり、log2(1.5) に対応するのは、マイナスlog2(1.5ということです。

logFC の値を ratio に変換 (unlog2) するには、「2のlogFC乗」を計算します。

> 2^1 # 2の1乗は2です。
> 2^(-1) # 2の-1乗は0.5です。

したがって、ratio < ?? に対応する値は、2のマイナスlog2(1.5)乗を計算します。

> 2^(-log2(1.5)) # 0.6666667

答えは ratio < 0.66 です。

 

ratio (fold-change) 1.5 は、 logFC でいくつ?

ratio (fold-change) が 2 のとき、 logFC は “1” です。では、ratio が 1.5 のとき、これは logFC でいうところのいくつなのでしょうか?

これは、ratio の2をlog2変換することで求めることができます。計算は下記のようになります。(統計処理ソフト “R” での計算方法です。)

> log2(2) # 結果は "1" になります。

よって、ratio 1.5 であれば、1.5をlog2変換します。

> log2(1.5) # 結果は "0.5849625" になります。

結果は、0.5849625 なので、logFC では 0.58 となります。(発現変動遺伝子を判定するときに用いるのであれば、少々甘く判定することが多いでしょう。)

 

パスウェイの作成方法の違い

パスウェイデータベースによって、パスウェイの作成方法は異なります。

キュレーターによるパスウェイ

KEGG や BIOBASE 、 Ingenuity Pathway Analysis などは、おもに研究者が生化学や医学の文献を読み、そこに文章で記述されていた内容をパスウェイの図として描くことで作成されています。この文献情報をチェックしている研究者は、「キュレーター」と呼ばれます。

例えば、「タンパクAがタンパクBをリン酸化によって活性化している」という記述があれば、AからBへ活性化の矢印を引くというような作業となります。これを1本1本の矢印について行うことで、パスウェイは作成されます。

自然言語処理によるパスウェイ

一方、キュレーターに頼らず、パスウェイを作成する方法もあります。その中の1つが、自然言語処理 (natural language processing) によるものです。これは、 PubMed などに登録された論文の要旨 (Abstract) の記述をコンピューターで処理することで、前述のような表現を抽出して、パスウェイの矢印を作成する方法です。 Agilent 社の GeneSpring や、 Ariadone Genomics 社の Pathway Studio などが、この手法を用いています。

手法による長所と短所

それぞれの手法に一長一短があります。キュレーターによるパスウェイは、人手による作業になるため、抽出される情報は、読まれた論文に依存します。すべての論文の情報がチェックされているとは限りませんが、「整理された情報」である点は魅力です。

自然言語処理は、手作業で作成するよりも網羅的な情報の抽出が可能ですが、コンピューターに完全に文脈が判断できるわけではありません。(一般的にコンピューターは、あいまいな表現が苦手です。)また、大量に情報が取得できる反面、情報量が多すぎて判断に困るということもあります。(大量の情報というのは魅力でもありますが。)

 

 

パスウェイ解析とは?

パスウェイ解析

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)が、「どのパスウェイに多く含まれていたかを調べる」ものです。考え方は、GO解析同様です。(パスウェイに含まれていることを、パスウェイにマップされているとも表現されます。)

特定のパスウェイに多く含まれていたこと(集中していたこと)を統計学的に有意かどうかを述べるには、GO解析の場合と同様に、下記の2点を考慮する必要があります。パスウェイに含まれている遺伝子の単純な個数で評価することは、望ましくありません。

  1. そのパスウェイに含まれる遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. パスウェイに含まれる遺伝子の数

たとえば、 “Pathways in cancer” のパスウェイなどは、パスウェイ上に描かれている遺伝子の数が多いです。そのため、このパスウェイに含まれる遺伝子は、それだけ見つかりやすいと考えられます。

 2. 発現変動遺伝子の数

数千個の遺伝子が増加、または減少している状況では、あらゆるパスウェイにおいて、増加減少した遺伝子が見つかります。

GO解析と同様に、DAVID などのサービスを利用すれば、上記の2点を考慮した各パスウェイごとの p-value が得られます。

パスウェイ解析で得られる結果

基本的にパスウェイ解析によって得られるのは、下記の2つものです。

  • 特定のパスウェイに含まれる遺伝子のリスト(シグナル値と ratio, fold-change, Z-score, p-value などのスコア)
  • 遺伝子発現の増減で色付けされたパスウェイの図