特定の遺伝子を含むパスウェイの検索

「ある特定の遺伝子が、どのパスウェイに載っているのか?」知りたいことがあると思います。この場合、 NCBI で検索することで、簡単にパスウェイの一覧を得ることができます。

1. NCBI で検索

(1) NCBI のサイトで、対象に “Gene” を選択します。(2) 目的となる遺伝子の名前(Official Gene Symbol など)を入力します。(3) Search をクリックします。

NCBI_Gene_Search
NCBIで検索。

2. 検索結果

検索した遺伝子の候補が表示されます。生物種などを手がかりに、目的の遺伝子を選択します。

NCBI_Search_Result
検索結果、候補の遺伝子。

3. 遺伝子の詳細な情報

目的となる遺伝子の詳細な情報が表示されます。さまざまな情報を確認できますが、画面をずっと下までスクロールさせていくと、”Pathways from BioSystems” という項目があります。

Search_Result_Detail
遺伝子の詳細な情報。

4. Pathways from BioSystems

パスウェイの一覧が見つかります。パスウェイは、各パスウェイデータベースの情報とリンクしています。同じ名前のパスウェイであっても、元となるパスウェイデータベースによって中身が少しずつ異なっています。また、パスウェイとして扱われていても、パスウェイのマップ(ダイアグラム、絵)が描かれていないものも多数あります。KEGGパスウェイデータベースのマップが一番参考になると思います。

Pathways_from_BioSystems
パスウェイの一覧。
 

パスウェイの作成方法の違い

パスウェイデータベースによって、パスウェイの作成方法は異なります。

キュレーターによるパスウェイ

KEGG や BIOBASE 、 Ingenuity Pathway Analysis などは、おもに研究者が生化学や医学の文献を読み、そこに文章で記述されていた内容をパスウェイの図として描くことで作成されています。この文献情報をチェックしている研究者は、「キュレーター」と呼ばれます。

例えば、「タンパクAがタンパクBをリン酸化によって活性化している」という記述があれば、AからBへ活性化の矢印を引くというような作業となります。これを1本1本の矢印について行うことで、パスウェイは作成されます。

自然言語処理によるパスウェイ

一方、キュレーターに頼らず、パスウェイを作成する方法もあります。その中の1つが、自然言語処理 (natural language processing) によるものです。これは、 PubMed などに登録された論文の要旨 (Abstract) の記述をコンピューターで処理することで、前述のような表現を抽出して、パスウェイの矢印を作成する方法です。 Agilent 社の GeneSpring や、 Ariadone Genomics 社の Pathway Studio などが、この手法を用いています。

手法による長所と短所

それぞれの手法に一長一短があります。キュレーターによるパスウェイは、人手による作業になるため、抽出される情報は、読まれた論文に依存します。すべての論文の情報がチェックされているとは限りませんが、「整理された情報」である点は魅力です。

自然言語処理は、手作業で作成するよりも網羅的な情報の抽出が可能ですが、コンピューターに完全に文脈が判断できるわけではありません。(一般的にコンピューターは、あいまいな表現が苦手です。)また、大量に情報が取得できる反面、情報量が多すぎて判断に困るということもあります。(大量の情報というのは魅力でもありますが。)

 

 

パスウェイ解析とは?

パスウェイ解析

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)が、「どのパスウェイに多く含まれていたかを調べる」ものです。考え方は、GO解析同様です。(パスウェイに含まれていることを、パスウェイにマップされているとも表現されます。)

特定のパスウェイに多く含まれていたこと(集中していたこと)を統計学的に有意かどうかを述べるには、GO解析の場合と同様に、下記の2点を考慮する必要があります。パスウェイに含まれている遺伝子の単純な個数で評価することは、望ましくありません。

  1. そのパスウェイに含まれる遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. パスウェイに含まれる遺伝子の数

たとえば、 “Pathways in cancer” のパスウェイなどは、パスウェイ上に描かれている遺伝子の数が多いです。そのため、このパスウェイに含まれる遺伝子は、それだけ見つかりやすいと考えられます。

 2. 発現変動遺伝子の数

数千個の遺伝子が増加、または減少している状況では、あらゆるパスウェイにおいて、増加減少した遺伝子が見つかります。

GO解析と同様に、DAVID などのサービスを利用すれば、上記の2点を考慮した各パスウェイごとの p-value が得られます。

パスウェイ解析で得られる結果

基本的にパスウェイ解析によって得られるのは、下記の2つものです。

  • 特定のパスウェイに含まれる遺伝子のリスト(シグナル値と ratio, fold-change, Z-score, p-value などのスコア)
  • 遺伝子発現の増減で色付けされたパスウェイの図
 

パスウェイデータベースとは?

様々なパスウェイをまとめてデータベース化したものが、「パスウェイデータベース」です。

パスウェイデータベース (Pathway Database)

代表的なパスウェイデータベースと言えば、京都大学の KEGG パスウェイデータベースでしょう。代謝経路を中心に、シグナル伝達系や、ヒトの疾患に関係したパスウェイなどが作成され、登録されています。世界的に利用されており、このサイトで紹介している DAVID も、パスウェイのデータとして、この KEGG のデータを使用しています。一般的な「パスウェイ解析」で利用されているのも、この KEGG パスウェイデータベースのパスウェイでしょう。KEGGのデータの閲覧は、研究目的として無償で利用できます。(アカデミックフリー。FTPを利用した方法や、商用利用にはライセンス契約が必要です。)

ほかのパスウェイデータベースとしては、下記のものがあります。

 

パスウェイとは?

マイクロアレイデータの解析には、アノテーションの情報のほかに、「パスウェイ」または「パスウェイデータベース」がよく用いられます。

パスウェイ (Pathway)

直訳すると「経路」ということになりますが、その名の通り、遺伝子やタンパク質の相互作用を経路図として表したのがパスウェイです。もともとは、代謝経路を中心に、パスウェイと呼ばれることが多かったように思いますが、現在では、シグナル伝達系や、Protein-Protein Interaction (PPI: タンパク間相互作用)、遺伝子の制御関係の情報も含めて、パスウェイの絵(マップ)として扱われています。

遺伝子やタンパク質を丸や四角などのシンボルで表し、制御関係を意味する矢印で結ぶことで、パスウェイは表現されます。(数学的には1部有向グラフとなることが基本なようです。)ただし、制御関係には、「酵素反応」、「活性化」、「抑制」、「転写を活性化」、「リン酸化」、「結合」など、非常に多くの生物学的な意味が込められています。

例えば、Aというタンパク質が、ECx.x.x.x という酵素によって、Bというタンパク質に代謝されるという経路があると、 A —> ECx.x.x.x –> B のように図示できると思います。このような関係を複数まとめるた絵が、パスウェイ(マップ)となります。

具体的な例は、下記のようなイメージです。

KEGGより。代謝経路のパスウェイの1つ。 http://www.genome.jp/kegg/pathway/map/map00010.html
KEGGより。シグナル伝達系のパスウェイの例。 http://www.genome.jp/kegg/pathway/hsa/hsa04010.html