パスウェイデータベースとは?

様々なパスウェイをまとめてデータベース化したものが、「パスウェイデータベース」です。

パスウェイデータベース (Pathway Database)

代表的なパスウェイデータベースと言えば、京都大学の KEGG パスウェイデータベースでしょう。代謝経路を中心に、シグナル伝達系や、ヒトの疾患に関係したパスウェイなどが作成され、登録されています。世界的に利用されており、このサイトで紹介している DAVID も、パスウェイのデータとして、この KEGG のデータを使用しています。一般的な「パスウェイ解析」で利用されているのも、この KEGG パスウェイデータベースのパスウェイでしょう。KEGGのデータの閲覧は、研究目的として無償で利用できます。(アカデミックフリー。FTPを利用した方法や、商用利用にはライセンス契約が必要です。)

ほかのパスウェイデータベースとしては、下記のものがあります。

 

パスウェイとは?

マイクロアレイデータの解析には、アノテーションの情報のほかに、「パスウェイ」または「パスウェイデータベース」がよく用いられます。

パスウェイ (Pathway)

直訳すると「経路」ということになりますが、その名の通り、遺伝子やタンパク質の相互作用を経路図として表したのがパスウェイです。もともとは、代謝経路を中心に、パスウェイと呼ばれることが多かったように思いますが、現在では、シグナル伝達系や、Protein-Protein Interaction (PPI: タンパク間相互作用)、遺伝子の制御関係の情報も含めて、パスウェイの絵(マップ)として扱われています。

遺伝子やタンパク質を丸や四角などのシンボルで表し、制御関係を意味する矢印で結ぶことで、パスウェイは表現されます。(数学的には1部有向グラフとなることが基本なようです。)ただし、制御関係には、「酵素反応」、「活性化」、「抑制」、「転写を活性化」、「リン酸化」、「結合」など、非常に多くの生物学的な意味が込められています。

例えば、Aというタンパク質が、ECx.x.x.x という酵素によって、Bというタンパク質に代謝されるという経路があると、 A —> ECx.x.x.x –> B のように図示できると思います。このような関係を複数まとめるた絵が、パスウェイ(マップ)となります。

具体的な例は、下記のようなイメージです。

KEGGより。代謝経路のパスウェイの1つ。 http://www.genome.jp/kegg/pathway/map/map00010.html
KEGGより。シグナル伝達系のパスウェイの例。 http://www.genome.jp/kegg/pathway/hsa/hsa04010.html
 

GEOに登録された代表的な Platform

FIND PLATFORM を検索した例として、GEOに登録された代表的な Platform を挙げます。(一例ですので、必ず GEO のサイトでご確認ください。)

Affymetrix (GeneChip)

  • Affymetrix Human Genome U133 Plus 2.0 Array: GPL570
  • Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]: GPL6244 (probe set version とは異なります。)
  • Affymetrix Mouse Genome 430 2.0 Array: GPL1261
  • Affymetrix Mouse Gene 1.0 ST Array [transcript (gene) version]: GPL6246 (probe set version とは異なります。)
  • Affymetrix Rat Genome 230 2.0 Array: GPL1355
  • Affymetrix Rat Gene 1.0 ST Array [transcript (gene) version]: GPL6247

Agilent

  •  Agilent-028004 SurePrint G3 Human GE 8x60K Microarray (Probe Name Version): GPL14550
  • Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version): GPL13497 (v1 とは異なります。)
  • Agilent-028005 SurePrint G3 Mouse GE 8x60K Microarray (Probe Name version): GPL10787?
  • Agilent-026655 Whole Mouse Genome Microarray 4x44K v2 (Probe Name version): GPL11202 (v1 とは異なります。)
  • Agilent-028279 SurePrint G3 Rat GE 8x60K Microarray (Probe Name version): GPL15084
  • Agilent-028282 Whole Rat Genome Microarray 4x44K v3 (Probe Name version): GPL14746

Illumina

  • Illumina HumanWG-6 v3.0 expression beadchip: GPL6884
  • Illumina MouseWG-6 v2.0 expression beadchip: GPL6887
  • Illumina ratRef-12 v1.0 expression beadchip: GPL6101
 

GEO の FIND PLATFORM の使い方

GEOFIND PLATFORM の使い方を解説します。

(1) Company name: Affymetrix, Agilent, Illumina などのメーカー名を選択します。通常の製品であれば、distribution は、”commercial” のままにしておきます。

(2) 生物種を選択します。”FIND PLATFORM” のボタンをクリックして検索します。

Find platform
Find platform

検索結果が多い場合は、Title contains の欄に、キーワードを入力して絞り込みましょう。(U133A, 1.0 Gene ST, 8x44K, 8x60K など、製品名の一部を入力します。)

Find Platform keywords
検索結果。キーワードで絞り込み。

それでも、複数の候補が表示されることがあります。この場合、下記のポイントが参考になるでしょう。

  • A. 登録者の名前を見る。
  • B. マイクロアレイデータの行数を見る。
  • C. 登録されているサンプルの数を見る。

A. について:たいていの場合、各製品の製造元のメーカーが提供しています。個人の研究者の名前になっているものは、カスタムメイドのマイクロアレイと考えられます。

B. について:同じマイクロアレイ製品でも複数の書式で登録されている場合があります。(Agilent の Probe Name バージョンと Feature Number バージョンのように。)マトリックステーブルに入力したマイクロアレイデータの行数と同じものを選びます。(コントロールプローブの有無などで若干は異なる場合もあります。)

C. について:その Platform を使用して、GEOに登録されているサンプルの数です。これも少ない場合は、カスタムメイドのマイクロアレイのときがあります。(製品が新しいため、登録数が少ない場合もありますので、確認しましょう。)

platform_info
Platform の情報。確認するポイント。

なお、使用したマイクロアレイ製品が新しい場合は、まだ、”Platform” が登録されていないこともあります。その場合、各メーカーに問い合わせると、対応してもらえると思います。

 

Gene Expression Omnibus (GEO) の Matrix table (マトリックステーブル) の書式

GEOarchive の Matrix table (マトリックステーブル) の書式を解説します。マトリックステーブルは、エクセルファイルの2枚目のシートに記入します。テンプレートに含まれる # から始まる行はコメントで、書式の説明です。”ID_REF” から始まる7行目以降の行にマイクロアレイデータを記入することになります。

ID_REF の列

マトリックステーブルの1列目が、 “ID_REF” の列です。この “ID_REF” は、いわゆる、Probe の ID のことです。マイクロアレイのメーカーや、製品の種類によって表現が異なるので、このような表記になっているのだと思います。例えば、Affymetrix の場合は、ID, Probe Set ID (e.g. 1007_s_at)などと呼ばれます。Agilent  の場合は、ID, Probe Name (e.g. A_23_P100001)のように呼ばれます。

重要なポイントは、ここで使用することになる ID を、GEO の “Platform” として登録されている情報の “ID” と一致させる必要があることです。言葉で書くと難しいのですが、通常の Probe ID (1007_s_at や A_23_P100001) を ID_REF に使用した上で、正しい Platform  (GPLxxxx) をメタデータ(1枚目のシート)の platform 欄に記入していれば問題ありません。

(Illumina のマイクロアレイデータの場合、”ProbeID” と呼ばれるものが、GEO の Platform の情報においては、”Array_Address_ID” となっていることがあります。その場合は、Platform の情報における “ID” (1, 2, 3, …) に付け替える必要があります。)

 SAMPLE の列

2列目以降は、サンプルの正規化されたシグナル値を記入します。1列につき、1サンプルのマイクロアレイデータということになります。もしあれば、シグナル値の次の列にフラグの値を記入します。よって、 ID_REF, SAMPLE1 のシグナル値, SAMPLE1のフラグ, SAMPLE2のシグナル値, SAMPLE2のフラグ, …, の順に続くことになります。

ここで重要なポイントは、SAMPLE1, SAMPLE2 などの各列の名前は、1枚目のシートの “Sample name” の欄に記入した名前と一致させる必要があることです。また、重複する名前も使えません。title に書いた呼び名ではありません。(間違いを防ぐために、SAMPLE1, SAMPLE2 などとしておくことをお勧めします。WT, KO などの呼び名は、title に書けます。)

フラグは、ABS_CALL (A, M, Pの情報)や、Detection p-value の情報です。各列の名前は、同じ “ABS_CALL” でもかまいません。ただし、シグナル値の列の次に来るよう、位置に気をつけましょう。