パスウェイの作成方法の違い

パスウェイデータベースによって、パスウェイの作成方法は異なります。

キュレーターによるパスウェイ

KEGG や BIOBASE 、 Ingenuity Pathway Analysis などは、おもに研究者が生化学や医学の文献を読み、そこに文章で記述されていた内容をパスウェイの図として描くことで作成されています。この文献情報をチェックしている研究者は、「キュレーター」と呼ばれます。

例えば、「タンパクAがタンパクBをリン酸化によって活性化している」という記述があれば、AからBへ活性化の矢印を引くというような作業となります。これを1本1本の矢印について行うことで、パスウェイは作成されます。

自然言語処理によるパスウェイ

一方、キュレーターに頼らず、パスウェイを作成する方法もあります。その中の1つが、自然言語処理 (natural language processing) によるものです。これは、 PubMed などに登録された論文の要旨 (Abstract) の記述をコンピューターで処理することで、前述のような表現を抽出して、パスウェイの矢印を作成する方法です。 Agilent 社の GeneSpring や、 Ariadone Genomics 社の Pathway Studio などが、この手法を用いています。

手法による長所と短所

それぞれの手法に一長一短があります。キュレーターによるパスウェイは、人手による作業になるため、抽出される情報は、読まれた論文に依存します。すべての論文の情報がチェックされているとは限りませんが、「整理された情報」である点は魅力です。

自然言語処理は、手作業で作成するよりも網羅的な情報の抽出が可能ですが、コンピューターに完全に文脈が判断できるわけではありません。(一般的にコンピューターは、あいまいな表現が苦手です。)また、大量に情報が取得できる反面、情報量が多すぎて判断に困るということもあります。(大量の情報というのは魅力でもありますが。)

 

 

パスウェイ解析とは?

パスウェイ解析

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)が、「どのパスウェイに多く含まれていたかを調べる」ものです。考え方は、GO解析同様です。(パスウェイに含まれていることを、パスウェイにマップされているとも表現されます。)

特定のパスウェイに多く含まれていたこと(集中していたこと)を統計学的に有意かどうかを述べるには、GO解析の場合と同様に、下記の2点を考慮する必要があります。パスウェイに含まれている遺伝子の単純な個数で評価することは、望ましくありません。

  1. そのパスウェイに含まれる遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. パスウェイに含まれる遺伝子の数

たとえば、 “Pathways in cancer” のパスウェイなどは、パスウェイ上に描かれている遺伝子の数が多いです。そのため、このパスウェイに含まれる遺伝子は、それだけ見つかりやすいと考えられます。

 2. 発現変動遺伝子の数

数千個の遺伝子が増加、または減少している状況では、あらゆるパスウェイにおいて、増加減少した遺伝子が見つかります。

GO解析と同様に、DAVID などのサービスを利用すれば、上記の2点を考慮した各パスウェイごとの p-value が得られます。

パスウェイ解析で得られる結果

基本的にパスウェイ解析によって得られるのは、下記の2つものです。

  • 特定のパスウェイに含まれる遺伝子のリスト(シグナル値と ratio, fold-change, Z-score, p-value などのスコア)
  • 遺伝子発現の増減で色付けされたパスウェイの図
 

パスウェイデータベースとは?

様々なパスウェイをまとめてデータベース化したものが、「パスウェイデータベース」です。

パスウェイデータベース (Pathway Database)

代表的なパスウェイデータベースと言えば、京都大学の KEGG パスウェイデータベースでしょう。代謝経路を中心に、シグナル伝達系や、ヒトの疾患に関係したパスウェイなどが作成され、登録されています。世界的に利用されており、このサイトで紹介している DAVID も、パスウェイのデータとして、この KEGG のデータを使用しています。一般的な「パスウェイ解析」で利用されているのも、この KEGG パスウェイデータベースのパスウェイでしょう。KEGGのデータの閲覧は、研究目的として無償で利用できます。(アカデミックフリー。FTPを利用した方法や、商用利用にはライセンス契約が必要です。)

ほかのパスウェイデータベースとしては、下記のものがあります。

 

パスウェイとは?

マイクロアレイデータの解析には、アノテーションの情報のほかに、「パスウェイ」または「パスウェイデータベース」がよく用いられます。

パスウェイ (Pathway)

直訳すると「経路」ということになりますが、その名の通り、遺伝子やタンパク質の相互作用を経路図として表したのがパスウェイです。もともとは、代謝経路を中心に、パスウェイと呼ばれることが多かったように思いますが、現在では、シグナル伝達系や、Protein-Protein Interaction (PPI: タンパク間相互作用)、遺伝子の制御関係の情報も含めて、パスウェイの絵(マップ)として扱われています。

遺伝子やタンパク質を丸や四角などのシンボルで表し、制御関係を意味する矢印で結ぶことで、パスウェイは表現されます。(数学的には1部有向グラフとなることが基本なようです。)ただし、制御関係には、「酵素反応」、「活性化」、「抑制」、「転写を活性化」、「リン酸化」、「結合」など、非常に多くの生物学的な意味が込められています。

例えば、Aというタンパク質が、ECx.x.x.x という酵素によって、Bというタンパク質に代謝されるという経路があると、 A —> ECx.x.x.x –> B のように図示できると思います。このような関係を複数まとめるた絵が、パスウェイ(マップ)となります。

具体的な例は、下記のようなイメージです。

KEGGより。代謝経路のパスウェイの1つ。 http://www.genome.jp/kegg/pathway/map/map00010.html
KEGGより。シグナル伝達系のパスウェイの例。 http://www.genome.jp/kegg/pathway/hsa/hsa04010.html
 

Gene Expression Omnibus (GEO) にまつわる用語

初めて GEO にマイクロアレイデータを登録する際、GEO の登録要領を見ると、なかなか聞き慣れない用語ばかりがあふれているのではないかと思います。重要と思われる用語について解説します。

GEOarchive: (じーいーおー あーかいぶ)

GEOにアップロードするときのファイルの形式の1つです。1個のエクセルのファイルです。後述するメタデータとマトリックステーブルから構成されます。GEOarchive のほかに SOFTと MINiML という形式も選べますが、通常はGEOarchiveを使用した方がいいでしょう。

Deposit: (でぽじっと)

「ファイルを GEO にアップロードする作業」を指します。submit と同じような意味で使われていますが、意味としては「マイクロアレイデータをGEOに預ける」ということです。

Metadata: (めたでーた)

メタデータ、付帯情報です。著者の連絡先から、実験のデザイン、プロトコル、サンプルの組織や株の情報などを指します。GEOarchive の1枚目のシートに記述します。

Spread sheet: (すぷれっど しーと)

スプレッドシート、いわゆる、「エクセルの表」のことです。

Matrix table: (まとりっくす てーぶる)

マトリックス(=行列)のテーブル(=表)です。これもスプレッドシートの1つです。中身は、マイクロアレイデータのシグナル値 (intensity) の表です。processed data または normalized data という言い方もされます。発現変動しているかどうかに関わらず、正規化後のすべてのプローブのシグナル値を含める必要があります。ratio > 2 以上の遺伝子のみという登録はできません。また、正規化に使用したサンプルをすべて含めなければなりません。4サンプルで正規化して解析したけれど、そのうち、2サンプルだけを登録するということはできません。(その場合は、2サンプルだけで正規化し直して解析しなければなりません。)GEOarchive の2枚目のシートに入力します。

Raw data files: (ろーでーた ふぁいる)

生のデータ、つまり、正規化前のデータのことです。スキャナで読み取った後に出力されるファイルです。各メーカーによって、形式が異なります。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。

Platform: (ぷらっとふぉーむ)

マイクロアレイ実験に使用したマイクロアレイ(チップ)の製品の情報、またはGEOにおけるIDです。各メーカーや研究者によって、製品ごとのプローブ配列とアノテーションの情報が登録されています。 GEO の “Find Platform” のサービスを利用して、自分が使用したマイクロアレイの Platform ID を検索することができます。カスタムのマイクロアレイを使用した場合、Deposit に先立って、その Platform のデータを各自が新規に登録する必要があります。GPLxxxxx という ID で示されます。(xxxxx は数字)

Samples: (さんぷる)

登録されたサンプルは、サンプルごとにIDを割り当てられます。GSMxxxxx というID がそれです。(xxxxx は数字)

Series: (しりーず)

複数の GSMxxxxxx を1セットにしたものが「シリーズ」と呼ばれます。GEOには、最終的にこの1シリーズとして登録され、GSExxxxx というIDが割り当てられます。論文などでサイトする場合は、このシリーズのIDである GSExxxxx を表記します。(xxxxx は数字)

 

その他、ご不明な点は、お問い合わせください。