Gene Expression Omnibus (GEO) の Matrix table (マトリックステーブル) の書式

GEOarchive の Matrix table (マトリックステーブル) の書式を解説します。マトリックステーブルは、エクセルファイルの2枚目のシートに記入します。テンプレートに含まれる # から始まる行はコメントで、書式の説明です。”ID_REF” から始まる7行目以降の行にマイクロアレイデータを記入することになります。

ID_REF の列

マトリックステーブルの1列目が、 “ID_REF” の列です。この “ID_REF” は、いわゆる、Probe の ID のことです。マイクロアレイのメーカーや、製品の種類によって表現が異なるので、このような表記になっているのだと思います。例えば、Affymetrix の場合は、ID, Probe Set ID (e.g. 1007_s_at)などと呼ばれます。Agilent  の場合は、ID, Probe Name (e.g. A_23_P100001)のように呼ばれます。

重要なポイントは、ここで使用することになる ID を、GEO の “Platform” として登録されている情報の “ID” と一致させる必要があることです。言葉で書くと難しいのですが、通常の Probe ID (1007_s_at や A_23_P100001) を ID_REF に使用した上で、正しい Platform  (GPLxxxx) をメタデータ(1枚目のシート)の platform 欄に記入していれば問題ありません。

(Illumina のマイクロアレイデータの場合、”ProbeID” と呼ばれるものが、GEO の Platform の情報においては、”Array_Address_ID” となっていることがあります。その場合は、Platform の情報における “ID” (1, 2, 3, …) に付け替える必要があります。)

 SAMPLE の列

2列目以降は、サンプルの正規化されたシグナル値を記入します。1列につき、1サンプルのマイクロアレイデータということになります。もしあれば、シグナル値の次の列にフラグの値を記入します。よって、 ID_REF, SAMPLE1 のシグナル値, SAMPLE1のフラグ, SAMPLE2のシグナル値, SAMPLE2のフラグ, …, の順に続くことになります。

ここで重要なポイントは、SAMPLE1, SAMPLE2 などの各列の名前は、1枚目のシートの “Sample name” の欄に記入した名前と一致させる必要があることです。また、重複する名前も使えません。title に書いた呼び名ではありません。(間違いを防ぐために、SAMPLE1, SAMPLE2 などとしておくことをお勧めします。WT, KO などの呼び名は、title に書けます。)

フラグは、ABS_CALL (A, M, Pの情報)や、Detection p-value の情報です。各列の名前は、同じ “ABS_CALL” でもかまいません。ただし、シグナル値の列の次に来るよう、位置に気をつけましょう。

 

Gene Expression Omnibus (GEO) のテンプレートの種類

マイクロアレイデータを GEOarchive 形式で保存するには、まず、テンプレートのエクセルファイルを GEO から取得します。このテンプレートのファイルは、AffymetrixAgilent などのメーカーごとに用意されています。

なお、このテンプレートは、使用したマイクロアレイの種類ごとに分かれており、また、データの処理方法によって、さらにオプションが分かれています。例として、 Affymetrix と Agilent の場合を紹介します。

Affymetrix

使用したマイクロアレイが 3′ or Whole Gene Expression Array または、Exon Array または、Tiling Array または SNP Array なのかによって異なります。また、始めの2つのマイクロアレイには、正規化後のデータの形式によって CHP file なのか Matrix table なのかを選択します。

  • CHP file オプション: 正規化の方法が MAS5.0 のときはこちらです。正規化後のシグナル値を CHP ファイルとして添付します。(GEOarchive のエクセルファイルに含める必要はありません。)
  • Matrix table オプション: 正規化の方法が RMA (GC-RMA) のときはこちらです。正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含めます。

最近では、 3′ or Whole Gene Expression Array – Matrix table option が多いのではないでしょうか。(セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データである CEL ファイルは必要です。

Agilent

まず、使用したマイクロアレイが、 Two-color なのか One-color なのかで異なります。また、正規化後のデータの形式によって Matrix table なのか Feature Extraction files なのかを選択します。

  • Matrix table オプション: 正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含める場合です。
  • Feature Extraction files オプション: 正規化後のシグナル値を Feature Extraction のファイルに含めて登録する場合です。

One-color の Matrix table option というケースが多いのではないかと思います。 (セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データを含む Feature Extraction のファイルは必要です。

 

Gene Expression Omnibus (GEO) のメタデータ記入

GEO からダウンロードしたエクセルファイル(テンプレート)をもとに、メタデータを記入する際、いくつか気をつけることがあります。テンプレートの記入欄の各項目のセルを矢印でポイントする(マウスで矢印を動かし、セルの上でしばらく停止させる)ことで、その注意点を読むことができます。また、テンプレートの3枚目以降のシートに記入例もありますので、そちらも参考にしてください。

シリーズ (SERIES) の欄

  • title: 登録するマイクロアレイデータのタイトルです。投稿予定の論文のタイトルでもよいかもしれません。
  • summary: 登録するマイクロアレイデータのサマリーです。投稿予定の論文のアブストラクトをそのまま用いても良いでしょう。
  • overall design: 研究自体のデザインです。何を見る目的で、どのような条件でサンプルを取得し、どのサンプルとどのサンプルを比較したのか、記入します。
  • contributor: 著者の名前です。1行に1人記入します。また、”Firstname,Lastname” のように記入します。例: Atsushi,Doi

サンプル (SAMPLES) の欄

  • Sample name: サンプルの名前です。2枚目のシートのサンプル名と一致させる必要があります。重複する名前は使えません(=ユニークであることと表現されます)。テンプレートの例にあるよう、 SAMPLE1, SAMPLE2 などとしておき、WT, KO など、投稿予定の論文におけるサンプルの呼び名は、後述の title に書くほうが無難です。
  • title: サンプルのタイトルです。WT, KO など、投稿予定の論文におけるサンプルの呼び名を書くことができます。
  • raw data file: raw データ(生データ、正規化前のデータ)のファイル名です。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。ここに書かれたファイル名のファイルをGEOarchiveのエクセルファイルといっしょにアップロードします。
  • source name: 簡略化されたサンプルのコンディションを記述します。tissue, dose, timepoint, replicate1 などのように。
  • organism: 生物種です。
  • characteristics, tag: 特徴のタグです。tag は自由に定義できます。よく用いられるタグは、 tissue, gender, strain, age などです。特にマウスのサンプルは strain の情報を求められることがあります。列が足らない場合は、自由に追加できます。GEOにおいてデータの分類に使われるようです。
  • molecule: 抽出した分子の種別です。total RNA, polyA RNA, cytoplasmic RNA, nuclear RNA, genomic DNA, protein, other から選びます。一般的なマイクロアレイでは、”total RNA”でしょう。
  • label: biotin, Cy3, Cy5 など、ラベルに使用したものを記述します。
  • description: ほかに記述したい情報があれば、ここに自由に記述できます。
  • platform: GPL1708 など、使用したマイクロアレイのGEOにおけるIDを記入します。あらかじめ、Find Platformで調べておきましょう。カスタムのマイクロアレイを使用した場合、まず、その Platform のデータを各自が新規に登録する必要があります。そして、発行された Platform ID をここに記入します。

プロトコル (PROTOCOLS) の欄

  • growth protocol: 培養時のプロトコルです。必須ではありません
  • treatment protocol: 培地などのプロトコルです。必須ではありません
  • extract protocol: RNA抽出時のプロトコルを記述します。受託解析の場合は、受託メーカーに確認することが必要になるかもしれません。
  • label protocol: ラベリングのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • hyb protocol: ハイブリダイゼーションのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • scan protocol: スキャン時のプロトコルです。受託解析の場合は、受託解析の場合は、受託メーカーに確認します。
  • data processing: データの前処理(正規化を含む)の内容を記述します。受託解析の場合は、受託メーカーに確認します。
  • value definition: 2枚目のシートのマトリックスに含まれる値の定義です。正規化後のlog2変換された値、など。受託解析の場合は、受託メーカーに確認します。

GEOにマイクロアレイデータを登録する際には、これらの情報をほぼすべて入力する必要があります。入力が不足していれば、審査が通らず、NCBIから不足箇所の連絡があります。セルイノベーターの受託解析サービスでは、これらのメタデータの記入もお手伝いいたしますので、ご連絡ください。(このGEO登録作業のサポートも解析料金に含まれています。)

 

Gene Expression Omnibus (GEO) にまつわる用語

初めて GEO にマイクロアレイデータを登録する際、GEO の登録要領を見ると、なかなか聞き慣れない用語ばかりがあふれているのではないかと思います。重要と思われる用語について解説します。

GEOarchive: (じーいーおー あーかいぶ)

GEOにアップロードするときのファイルの形式の1つです。1個のエクセルのファイルです。後述するメタデータとマトリックステーブルから構成されます。GEOarchive のほかに SOFTと MINiML という形式も選べますが、通常はGEOarchiveを使用した方がいいでしょう。

Deposit: (でぽじっと)

「ファイルを GEO にアップロードする作業」を指します。submit と同じような意味で使われていますが、意味としては「マイクロアレイデータをGEOに預ける」ということです。

Metadata: (めたでーた)

メタデータ、付帯情報です。著者の連絡先から、実験のデザイン、プロトコル、サンプルの組織や株の情報などを指します。GEOarchive の1枚目のシートに記述します。

Spread sheet: (すぷれっど しーと)

スプレッドシート、いわゆる、「エクセルの表」のことです。

Matrix table: (まとりっくす てーぶる)

マトリックス(=行列)のテーブル(=表)です。これもスプレッドシートの1つです。中身は、マイクロアレイデータのシグナル値 (intensity) の表です。processed data または normalized data という言い方もされます。発現変動しているかどうかに関わらず、正規化後のすべてのプローブのシグナル値を含める必要があります。ratio > 2 以上の遺伝子のみという登録はできません。また、正規化に使用したサンプルをすべて含めなければなりません。4サンプルで正規化して解析したけれど、そのうち、2サンプルだけを登録するということはできません。(その場合は、2サンプルだけで正規化し直して解析しなければなりません。)GEOarchive の2枚目のシートに入力します。

Raw data files: (ろーでーた ふぁいる)

生のデータ、つまり、正規化前のデータのことです。スキャナで読み取った後に出力されるファイルです。各メーカーによって、形式が異なります。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。

Platform: (ぷらっとふぉーむ)

マイクロアレイ実験に使用したマイクロアレイ(チップ)の製品の情報、またはGEOにおけるIDです。各メーカーや研究者によって、製品ごとのプローブ配列とアノテーションの情報が登録されています。 GEO の “Find Platform” のサービスを利用して、自分が使用したマイクロアレイの Platform ID を検索することができます。カスタムのマイクロアレイを使用した場合、Deposit に先立って、その Platform のデータを各自が新規に登録する必要があります。GPLxxxxx という ID で示されます。(xxxxx は数字)

Samples: (さんぷる)

登録されたサンプルは、サンプルごとにIDを割り当てられます。GSMxxxxx というID がそれです。(xxxxx は数字)

Series: (しりーず)

複数の GSMxxxxxx を1セットにしたものが「シリーズ」と呼ばれます。GEOには、最終的にこの1シリーズとして登録され、GSExxxxx というIDが割り当てられます。論文などでサイトする場合は、このシリーズのIDである GSExxxxx を表記します。(xxxxx は数字)

 

その他、ご不明な点は、お問い合わせください。

 

マイクロアレイデータの Gene Expression Omnibus (GEO) への登録

GEOへの登録

最近のジャーナルでは、マイクロアレイデータを用いた論文を投稿する際に、マイクロアレイデータの Gene Expression Omnibus (GEO) への登録を求められることが多いです。GEOは、これまでに多くのマイクロアレイデータが登録されており、自由に閲覧が可能なデータベースです。

GEO にマイクロアレイデータを登録すると、”GSExxxxx” という番号をもらうことができます。他の研究者は、この番号を指定することで、そのマイクロアレイデータを閲覧することが可能です。レビューワーから、このアクセッション番号や、IDという言い方で、求められることもあります。

登録する際に準備するもの

GEOにマイクロアレイデータを登録する際に必要なものは、下記の3点です。(ここでは、GEOarchive という形式の登録方法を紹介します。)

  1. NCBI のアカウント(ユーザー名とパスワード)
  2. メタデータ(論文の要旨や、サンプルの情報など。)
  3. マイクロアレイデータ(CELファイルなどのrawデータを含む。)

1. NCBI のアカウント

NCBIを利用するときのアカウントです。NCBIのサイトで無料で作成できます。左下の “Register for an NCBI account” から先へ進みます。(以前は、GEO専用のアカウントがありましたが、現在は、NCBIアカウントに統合されています。)

アカウント作成後、登録されたメールアドレスに、confirm 用のメールが届きます。そのメールに書かれたリンクをクリックすることで、確認されたことになり、アカウントが有効化されます。(迷惑メールと判断されることもあるようですので、ご注意ください。)

2. メタデータ

論文の要旨や、サンプルの情報を専用のエクセルのフォームに記入します。Affymetrix, Agilent, Illumina ごとに専用のフォームがあります。テンプレートのエクセルファイルをダウンロードして記入します。このテンプレートの3枚目以降のシートに記入例があります。各項目の意味はこちらをご覧ください。

3. マイクロアレイデータ

正規化済みのマイクロアレイデータと、これに加えて、rawデータ(AffymetrixであればCELファイル、AgilentであればFeatureExtractionから出力されるファイル)も必要です。ratioやアノテーションの情報は、必須ではありません。プローブIDと、シグナル値と(あれば)フラグの情報を登録します。

正規化に用いたすべてのサンプルの情報が必要です。「8サンプルで正規化を行って解析した後、論文に使用した4サンプルだけを登録」ということはできません。8サンプルで正規化した場合と、4サンプルで正規化した場合では、若干、シグナル値が変わるためです。上記のような場合は、4サンプルだけで再度、正規化から解析しなおして、登録する必要があります。

 

株式会社セルイノベーターでは、「マイクロアレイデータのGEOへの登録」も受託解析サービスの料金の中に含まれています。登録の際は、ご相談ください