Gene Expression Omnibus (GEO) の Matrix table (マトリックステーブル) の書式

GEOarchive の Matrix table (マトリックステーブル) の書式を解説します。マトリックステーブルは、エクセルファイルの2枚目のシートに記入します。テンプレートに含まれる # から始まる行はコメントで、書式の説明です。”ID_REF” から始まる7行目以降の行にマイクロアレイデータを記入することになります。

ID_REF の列

マトリックステーブルの1列目が、 “ID_REF” の列です。この “ID_REF” は、いわゆる、Probe の ID のことです。マイクロアレイのメーカーや、製品の種類によって表現が異なるので、このような表記になっているのだと思います。例えば、Affymetrix の場合は、ID, Probe Set ID (e.g. 1007_s_at)などと呼ばれます。Agilent  の場合は、ID, Probe Name (e.g. A_23_P100001)のように呼ばれます。

重要なポイントは、ここで使用することになる ID を、GEO の “Platform” として登録されている情報の “ID” と一致させる必要があることです。言葉で書くと難しいのですが、通常の Probe ID (1007_s_at や A_23_P100001) を ID_REF に使用した上で、正しい Platform  (GPLxxxx) をメタデータ(1枚目のシート)の platform 欄に記入していれば問題ありません。

(Illumina のマイクロアレイデータの場合、”ProbeID” と呼ばれるものが、GEO の Platform の情報においては、”Array_Address_ID” となっていることがあります。その場合は、Platform の情報における “ID” (1, 2, 3, …) に付け替える必要があります。)

 SAMPLE の列

2列目以降は、サンプルの正規化されたシグナル値を記入します。1列につき、1サンプルのマイクロアレイデータということになります。もしあれば、シグナル値の次の列にフラグの値を記入します。よって、 ID_REF, SAMPLE1 のシグナル値, SAMPLE1のフラグ, SAMPLE2のシグナル値, SAMPLE2のフラグ, …, の順に続くことになります。

ここで重要なポイントは、SAMPLE1, SAMPLE2 などの各列の名前は、1枚目のシートの “Sample name” の欄に記入した名前と一致させる必要があることです。また、重複する名前も使えません。title に書いた呼び名ではありません。(間違いを防ぐために、SAMPLE1, SAMPLE2 などとしておくことをお勧めします。WT, KO などの呼び名は、title に書けます。)

フラグは、ABS_CALL (A, M, Pの情報)や、Detection p-value の情報です。各列の名前は、同じ “ABS_CALL” でもかまいません。ただし、シグナル値の列の次に来るよう、位置に気をつけましょう。

 

Gene Expression Omnibus (GEO) のテンプレートの種類

マイクロアレイデータを GEOarchive 形式で保存するには、まず、テンプレートのエクセルファイルを GEO から取得します。このテンプレートのファイルは、AffymetrixAgilent などのメーカーごとに用意されています。

なお、このテンプレートは、使用したマイクロアレイの種類ごとに分かれており、また、データの処理方法によって、さらにオプションが分かれています。例として、 Affymetrix と Agilent の場合を紹介します。

Affymetrix

使用したマイクロアレイが 3′ or Whole Gene Expression Array または、Exon Array または、Tiling Array または SNP Array なのかによって異なります。また、始めの2つのマイクロアレイには、正規化後のデータの形式によって CHP file なのか Matrix table なのかを選択します。

  • CHP file オプション: 正規化の方法が MAS5.0 のときはこちらです。正規化後のシグナル値を CHP ファイルとして添付します。(GEOarchive のエクセルファイルに含める必要はありません。)
  • Matrix table オプション: 正規化の方法が RMA (GC-RMA) のときはこちらです。正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含めます。

最近では、 3′ or Whole Gene Expression Array – Matrix table option が多いのではないでしょうか。(セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データである CEL ファイルは必要です。

Agilent

まず、使用したマイクロアレイが、 Two-color なのか One-color なのかで異なります。また、正規化後のデータの形式によって Matrix table なのか Feature Extraction files なのかを選択します。

  • Matrix table オプション: 正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含める場合です。
  • Feature Extraction files オプション: 正規化後のシグナル値を Feature Extraction のファイルに含めて登録する場合です。

One-color の Matrix table option というケースが多いのではないかと思います。 (セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データを含む Feature Extraction のファイルは必要です。

 

Gene Expression Omnibus (GEO) のメタデータ記入

GEO からダウンロードしたエクセルファイル(テンプレート)をもとに、メタデータを記入する際、いくつか気をつけることがあります。テンプレートの記入欄の各項目のセルを矢印でポイントする(マウスで矢印を動かし、セルの上でしばらく停止させる)ことで、その注意点を読むことができます。また、テンプレートの3枚目以降のシートに記入例もありますので、そちらも参考にしてください。

シリーズ (SERIES) の欄

  • title: 登録するマイクロアレイデータのタイトルです。投稿予定の論文のタイトルでもよいかもしれません。
  • summary: 登録するマイクロアレイデータのサマリーです。投稿予定の論文のアブストラクトをそのまま用いても良いでしょう。
  • overall design: 研究自体のデザインです。何を見る目的で、どのような条件でサンプルを取得し、どのサンプルとどのサンプルを比較したのか、記入します。
  • contributor: 著者の名前です。1行に1人記入します。また、”Firstname,Lastname” のように記入します。例: Atsushi,Doi

サンプル (SAMPLES) の欄

  • Sample name: サンプルの名前です。2枚目のシートのサンプル名と一致させる必要があります。重複する名前は使えません(=ユニークであることと表現されます)。テンプレートの例にあるよう、 SAMPLE1, SAMPLE2 などとしておき、WT, KO など、投稿予定の論文におけるサンプルの呼び名は、後述の title に書くほうが無難です。
  • title: サンプルのタイトルです。WT, KO など、投稿予定の論文におけるサンプルの呼び名を書くことができます。
  • raw data file: raw データ(生データ、正規化前のデータ)のファイル名です。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。ここに書かれたファイル名のファイルをGEOarchiveのエクセルファイルといっしょにアップロードします。
  • source name: 簡略化されたサンプルのコンディションを記述します。tissue, dose, timepoint, replicate1 などのように。
  • organism: 生物種です。
  • characteristics, tag: 特徴のタグです。tag は自由に定義できます。よく用いられるタグは、 tissue, gender, strain, age などです。特にマウスのサンプルは strain の情報を求められることがあります。列が足らない場合は、自由に追加できます。GEOにおいてデータの分類に使われるようです。
  • molecule: 抽出した分子の種別です。total RNA, polyA RNA, cytoplasmic RNA, nuclear RNA, genomic DNA, protein, other から選びます。一般的なマイクロアレイでは、”total RNA”でしょう。
  • label: biotin, Cy3, Cy5 など、ラベルに使用したものを記述します。
  • description: ほかに記述したい情報があれば、ここに自由に記述できます。
  • platform: GPL1708 など、使用したマイクロアレイのGEOにおけるIDを記入します。あらかじめ、Find Platformで調べておきましょう。カスタムのマイクロアレイを使用した場合、まず、その Platform のデータを各自が新規に登録する必要があります。そして、発行された Platform ID をここに記入します。

プロトコル (PROTOCOLS) の欄

  • growth protocol: 培養時のプロトコルです。必須ではありません
  • treatment protocol: 培地などのプロトコルです。必須ではありません
  • extract protocol: RNA抽出時のプロトコルを記述します。受託解析の場合は、受託メーカーに確認することが必要になるかもしれません。
  • label protocol: ラベリングのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • hyb protocol: ハイブリダイゼーションのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • scan protocol: スキャン時のプロトコルです。受託解析の場合は、受託解析の場合は、受託メーカーに確認します。
  • data processing: データの前処理(正規化を含む)の内容を記述します。受託解析の場合は、受託メーカーに確認します。
  • value definition: 2枚目のシートのマトリックスに含まれる値の定義です。正規化後のlog2変換された値、など。受託解析の場合は、受託メーカーに確認します。

GEOにマイクロアレイデータを登録する際には、これらの情報をほぼすべて入力する必要があります。入力が不足していれば、審査が通らず、NCBIから不足箇所の連絡があります。セルイノベーターの受託解析サービスでは、これらのメタデータの記入もお手伝いいたしますので、ご連絡ください。(このGEO登録作業のサポートも解析料金に含まれています。)

 

エクセルで log 変換

エクセルで log 変換をする方法です。下図のようなマイクロアレイデータがあったとします。1サンプルのデータが示されています。(遺伝子数は3個)

テーブルの例
テーブルの例

B列に表示されているシグナル値を log10 変換してみます。なお、結果をC列に保存するものとします。

(1) まず、C2のセルに “=log10(B2)” と入力します。”=” を忘れずに入力してください。

log10変換
log10変換

C2のセルに計算結果が表示されます。(この場合は、1)

(2) 次に、このセルをコピーしてください。

結果のコピー
結果のコピー

(3) そして、3行目以降のセルを選択した状態で、ペーストします。これで、3行目以降も同様の計算が行われ、計算結果が表示されます。

計算結果のペースト
計算結果のペースト

計算結果が表示されます。底が 10 の変換なので “=log(B2, 10)” でも同じ結果を得られます。 log2変換したい場合は、 “=log(B2, 2)” と入力します。

計算結果の表示
計算結果の表示
 

マイクロアレイデータを見てみよう (1): エクセルで表示

マイクロアレイデータの構成

以前の投稿で述べたように、マイクロアレイデータの表示方法には、下記のようなものがあります。

  • テーブル形式で表示(エクセル)
  • ヒストグラム
  • ボックスプロット
  • 散布図
  • MAプロット

まず、エクセルで開いてみましょう(参考)。マイクロアレイデータは、主に下記の項目から構成されています。(Agilent 社のマイクロアレイを例として用いています。)

  • ProbeName (ProbeID): マイクロアレイ上のプローブのIDです。重複しません。例:A_23_P26810, A_33_P3315764 など。
  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • サンプル名(シグナル値): サンプル名で示された列に、シグナル値を表示することが多いです。例:WT, KO など。任意の名称です。
  • フラグ:Absent (A), Marginal (M), Present (P) のフラグです。そのプローブによって、対象の遺伝子が検出できたかどうか判定したものです。コールとも呼ばれます。(メーカーによっては、フラグがない場合もあります。)
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID があります。

マイクロアレイデータは、1行に1プローブの情報が記録されています。これが、プローブの数だけ、縦に並んだ構造となっています。例えば、4万プローブを搭載したマイクロアレイの結果は、4万行のデータとなります。1行目にヘッダーと呼ばれる項目名の行があります。なお、ヘッダーより前の行に各種のパラメーターや情報が記載されている場合があります。列の並び(横の並び)は、自由なため、上記の項目の順に並んでいるとは限りません。また、行の並びも特に決まった順序がありません。ProbeID の順や、GeneSymbol の順(アルファベット順)、ratio の大きい順などの順で並べ替えられて(ソートされて)いることがあります。

 

マイクロアレイデータ

このうち、マイクロアレイデータの解析において、最低限必要なのは、「ProbeID」、「シグナル値」の2つの項目です。これ以外の情報はすべて、いわゆる、「アノテーション」と呼ばれる情報です。ProbeIDさえあれば、それに関連づけされた(annotateされた)アノテーションは、すべてデータベースから取得可能です。また、ヘッダーより上の情報も通常、解析に用いることはありません。

 

マイクロアレイデータ(最小構成)

アノテーションの情報が含まれていると、難しそうに見えますが、マイクロアレイ解析に用いる純粋なデータは、行数が多いものの、数字が並んでいるだけの単純な構造となっています。