GEO の FIND PLATFORM の使い方

GEOFIND PLATFORM の使い方を解説します。

(1) Company name: Affymetrix, Agilent, Illumina などのメーカー名を選択します。通常の製品であれば、distribution は、”commercial” のままにしておきます。

(2) 生物種を選択します。”FIND PLATFORM” のボタンをクリックして検索します。

Find platform
Find platform

検索結果が多い場合は、Title contains の欄に、キーワードを入力して絞り込みましょう。(U133A, 1.0 Gene ST, 8x44K, 8x60K など、製品名の一部を入力します。)

Find Platform keywords
検索結果。キーワードで絞り込み。

それでも、複数の候補が表示されることがあります。この場合、下記のポイントが参考になるでしょう。

  • A. 登録者の名前を見る。
  • B. マイクロアレイデータの行数を見る。
  • C. 登録されているサンプルの数を見る。

A. について:たいていの場合、各製品の製造元のメーカーが提供しています。個人の研究者の名前になっているものは、カスタムメイドのマイクロアレイと考えられます。

B. について:同じマイクロアレイ製品でも複数の書式で登録されている場合があります。(Agilent の Probe Name バージョンと Feature Number バージョンのように。)マトリックステーブルに入力したマイクロアレイデータの行数と同じものを選びます。(コントロールプローブの有無などで若干は異なる場合もあります。)

C. について:その Platform を使用して、GEOに登録されているサンプルの数です。これも少ない場合は、カスタムメイドのマイクロアレイのときがあります。(製品が新しいため、登録数が少ない場合もありますので、確認しましょう。)

platform_info
Platform の情報。確認するポイント。

なお、使用したマイクロアレイ製品が新しい場合は、まだ、”Platform” が登録されていないこともあります。その場合、各メーカーに問い合わせると、対応してもらえると思います。

 

Gene Expression Omnibus (GEO) の Matrix table (マトリックステーブル) の書式

GEOarchive の Matrix table (マトリックステーブル) の書式を解説します。マトリックステーブルは、エクセルファイルの2枚目のシートに記入します。テンプレートに含まれる # から始まる行はコメントで、書式の説明です。”ID_REF” から始まる7行目以降の行にマイクロアレイデータを記入することになります。

ID_REF の列

マトリックステーブルの1列目が、 “ID_REF” の列です。この “ID_REF” は、いわゆる、Probe の ID のことです。マイクロアレイのメーカーや、製品の種類によって表現が異なるので、このような表記になっているのだと思います。例えば、Affymetrix の場合は、ID, Probe Set ID (e.g. 1007_s_at)などと呼ばれます。Agilent  の場合は、ID, Probe Name (e.g. A_23_P100001)のように呼ばれます。

重要なポイントは、ここで使用することになる ID を、GEO の “Platform” として登録されている情報の “ID” と一致させる必要があることです。言葉で書くと難しいのですが、通常の Probe ID (1007_s_at や A_23_P100001) を ID_REF に使用した上で、正しい Platform  (GPLxxxx) をメタデータ(1枚目のシート)の platform 欄に記入していれば問題ありません。

(Illumina のマイクロアレイデータの場合、”ProbeID” と呼ばれるものが、GEO の Platform の情報においては、”Array_Address_ID” となっていることがあります。その場合は、Platform の情報における “ID” (1, 2, 3, …) に付け替える必要があります。)

 SAMPLE の列

2列目以降は、サンプルの正規化されたシグナル値を記入します。1列につき、1サンプルのマイクロアレイデータということになります。もしあれば、シグナル値の次の列にフラグの値を記入します。よって、 ID_REF, SAMPLE1 のシグナル値, SAMPLE1のフラグ, SAMPLE2のシグナル値, SAMPLE2のフラグ, …, の順に続くことになります。

ここで重要なポイントは、SAMPLE1, SAMPLE2 などの各列の名前は、1枚目のシートの “Sample name” の欄に記入した名前と一致させる必要があることです。また、重複する名前も使えません。title に書いた呼び名ではありません。(間違いを防ぐために、SAMPLE1, SAMPLE2 などとしておくことをお勧めします。WT, KO などの呼び名は、title に書けます。)

フラグは、ABS_CALL (A, M, Pの情報)や、Detection p-value の情報です。各列の名前は、同じ “ABS_CALL” でもかまいません。ただし、シグナル値の列の次に来るよう、位置に気をつけましょう。

 

Gene Expression Omnibus (GEO) のテンプレートの種類

マイクロアレイデータを GEOarchive 形式で保存するには、まず、テンプレートのエクセルファイルを GEO から取得します。このテンプレートのファイルは、AffymetrixAgilent などのメーカーごとに用意されています。

なお、このテンプレートは、使用したマイクロアレイの種類ごとに分かれており、また、データの処理方法によって、さらにオプションが分かれています。例として、 Affymetrix と Agilent の場合を紹介します。

Affymetrix

使用したマイクロアレイが 3′ or Whole Gene Expression Array または、Exon Array または、Tiling Array または SNP Array なのかによって異なります。また、始めの2つのマイクロアレイには、正規化後のデータの形式によって CHP file なのか Matrix table なのかを選択します。

  • CHP file オプション: 正規化の方法が MAS5.0 のときはこちらです。正規化後のシグナル値を CHP ファイルとして添付します。(GEOarchive のエクセルファイルに含める必要はありません。)
  • Matrix table オプション: 正規化の方法が RMA (GC-RMA) のときはこちらです。正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含めます。

最近では、 3′ or Whole Gene Expression Array – Matrix table option が多いのではないでしょうか。(セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データである CEL ファイルは必要です。

Agilent

まず、使用したマイクロアレイが、 Two-color なのか One-color なのかで異なります。また、正規化後のデータの形式によって Matrix table なのか Feature Extraction files なのかを選択します。

  • Matrix table オプション: 正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含める場合です。
  • Feature Extraction files オプション: 正規化後のシグナル値を Feature Extraction のファイルに含めて登録する場合です。

One-color の Matrix table option というケースが多いのではないかと思います。 (セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データを含む Feature Extraction のファイルは必要です。

 

Gene Expression Omnibus (GEO) のメタデータ記入

GEO からダウンロードしたエクセルファイル(テンプレート)をもとに、メタデータを記入する際、いくつか気をつけることがあります。テンプレートの記入欄の各項目のセルを矢印でポイントする(マウスで矢印を動かし、セルの上でしばらく停止させる)ことで、その注意点を読むことができます。また、テンプレートの3枚目以降のシートに記入例もありますので、そちらも参考にしてください。

シリーズ (SERIES) の欄

  • title: 登録するマイクロアレイデータのタイトルです。投稿予定の論文のタイトルでもよいかもしれません。
  • summary: 登録するマイクロアレイデータのサマリーです。投稿予定の論文のアブストラクトをそのまま用いても良いでしょう。
  • overall design: 研究自体のデザインです。何を見る目的で、どのような条件でサンプルを取得し、どのサンプルとどのサンプルを比較したのか、記入します。
  • contributor: 著者の名前です。1行に1人記入します。また、”Firstname,Lastname” のように記入します。例: Atsushi,Doi

サンプル (SAMPLES) の欄

  • Sample name: サンプルの名前です。2枚目のシートのサンプル名と一致させる必要があります。重複する名前は使えません(=ユニークであることと表現されます)。テンプレートの例にあるよう、 SAMPLE1, SAMPLE2 などとしておき、WT, KO など、投稿予定の論文におけるサンプルの呼び名は、後述の title に書くほうが無難です。
  • title: サンプルのタイトルです。WT, KO など、投稿予定の論文におけるサンプルの呼び名を書くことができます。
  • raw data file: raw データ(生データ、正規化前のデータ)のファイル名です。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。ここに書かれたファイル名のファイルをGEOarchiveのエクセルファイルといっしょにアップロードします。
  • source name: 簡略化されたサンプルのコンディションを記述します。tissue, dose, timepoint, replicate1 などのように。
  • organism: 生物種です。
  • characteristics, tag: 特徴のタグです。tag は自由に定義できます。よく用いられるタグは、 tissue, gender, strain, age などです。特にマウスのサンプルは strain の情報を求められることがあります。列が足らない場合は、自由に追加できます。GEOにおいてデータの分類に使われるようです。
  • molecule: 抽出した分子の種別です。total RNA, polyA RNA, cytoplasmic RNA, nuclear RNA, genomic DNA, protein, other から選びます。一般的なマイクロアレイでは、”total RNA”でしょう。
  • label: biotin, Cy3, Cy5 など、ラベルに使用したものを記述します。
  • description: ほかに記述したい情報があれば、ここに自由に記述できます。
  • platform: GPL1708 など、使用したマイクロアレイのGEOにおけるIDを記入します。あらかじめ、Find Platformで調べておきましょう。カスタムのマイクロアレイを使用した場合、まず、その Platform のデータを各自が新規に登録する必要があります。そして、発行された Platform ID をここに記入します。

プロトコル (PROTOCOLS) の欄

  • growth protocol: 培養時のプロトコルです。必須ではありません
  • treatment protocol: 培地などのプロトコルです。必須ではありません
  • extract protocol: RNA抽出時のプロトコルを記述します。受託解析の場合は、受託メーカーに確認することが必要になるかもしれません。
  • label protocol: ラベリングのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • hyb protocol: ハイブリダイゼーションのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • scan protocol: スキャン時のプロトコルです。受託解析の場合は、受託解析の場合は、受託メーカーに確認します。
  • data processing: データの前処理(正規化を含む)の内容を記述します。受託解析の場合は、受託メーカーに確認します。
  • value definition: 2枚目のシートのマトリックスに含まれる値の定義です。正規化後のlog2変換された値、など。受託解析の場合は、受託メーカーに確認します。

GEOにマイクロアレイデータを登録する際には、これらの情報をほぼすべて入力する必要があります。入力が不足していれば、審査が通らず、NCBIから不足箇所の連絡があります。セルイノベーターの受託解析サービスでは、これらのメタデータの記入もお手伝いいたしますので、ご連絡ください。(このGEO登録作業のサポートも解析料金に含まれています。)

 

Gene Expression Omnibus (GEO) にまつわる用語

初めて GEO にマイクロアレイデータを登録する際、GEO の登録要領を見ると、なかなか聞き慣れない用語ばかりがあふれているのではないかと思います。重要と思われる用語について解説します。

GEOarchive: (じーいーおー あーかいぶ)

GEOにアップロードするときのファイルの形式の1つです。1個のエクセルのファイルです。後述するメタデータとマトリックステーブルから構成されます。GEOarchive のほかに SOFTと MINiML という形式も選べますが、通常はGEOarchiveを使用した方がいいでしょう。

Deposit: (でぽじっと)

「ファイルを GEO にアップロードする作業」を指します。submit と同じような意味で使われていますが、意味としては「マイクロアレイデータをGEOに預ける」ということです。

Metadata: (めたでーた)

メタデータ、付帯情報です。著者の連絡先から、実験のデザイン、プロトコル、サンプルの組織や株の情報などを指します。GEOarchive の1枚目のシートに記述します。

Spread sheet: (すぷれっど しーと)

スプレッドシート、いわゆる、「エクセルの表」のことです。

Matrix table: (まとりっくす てーぶる)

マトリックス(=行列)のテーブル(=表)です。これもスプレッドシートの1つです。中身は、マイクロアレイデータのシグナル値 (intensity) の表です。processed data または normalized data という言い方もされます。発現変動しているかどうかに関わらず、正規化後のすべてのプローブのシグナル値を含める必要があります。ratio > 2 以上の遺伝子のみという登録はできません。また、正規化に使用したサンプルをすべて含めなければなりません。4サンプルで正規化して解析したけれど、そのうち、2サンプルだけを登録するということはできません。(その場合は、2サンプルだけで正規化し直して解析しなければなりません。)GEOarchive の2枚目のシートに入力します。

Raw data files: (ろーでーた ふぁいる)

生のデータ、つまり、正規化前のデータのことです。スキャナで読み取った後に出力されるファイルです。各メーカーによって、形式が異なります。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。

Platform: (ぷらっとふぉーむ)

マイクロアレイ実験に使用したマイクロアレイ(チップ)の製品の情報、またはGEOにおけるIDです。各メーカーや研究者によって、製品ごとのプローブ配列とアノテーションの情報が登録されています。 GEO の “Find Platform” のサービスを利用して、自分が使用したマイクロアレイの Platform ID を検索することができます。カスタムのマイクロアレイを使用した場合、Deposit に先立って、その Platform のデータを各自が新規に登録する必要があります。GPLxxxxx という ID で示されます。(xxxxx は数字)

Samples: (さんぷる)

登録されたサンプルは、サンプルごとにIDを割り当てられます。GSMxxxxx というID がそれです。(xxxxx は数字)

Series: (しりーず)

複数の GSMxxxxxx を1セットにしたものが「シリーズ」と呼ばれます。GEOには、最終的にこの1シリーズとして登録され、GSExxxxx というIDが割り当てられます。論文などでサイトする場合は、このシリーズのIDである GSExxxxx を表記します。(xxxxx は数字)

 

その他、ご不明な点は、お問い合わせください。