Gene Expression Omnibus (GEO) にまつわる用語

初めて GEO にマイクロアレイデータを登録する際、GEO の登録要領を見ると、なかなか聞き慣れない用語ばかりがあふれているのではないかと思います。重要と思われる用語について解説します。

GEOarchive: (じーいーおー あーかいぶ)

GEOにアップロードするときのファイルの形式の1つです。1個のエクセルのファイルです。後述するメタデータとマトリックステーブルから構成されます。GEOarchive のほかに SOFTと MINiML という形式も選べますが、通常はGEOarchiveを使用した方がいいでしょう。

Deposit: (でぽじっと)

「ファイルを GEO にアップロードする作業」を指します。submit と同じような意味で使われていますが、意味としては「マイクロアレイデータをGEOに預ける」ということです。

Metadata: (めたでーた)

メタデータ、付帯情報です。著者の連絡先から、実験のデザイン、プロトコル、サンプルの組織や株の情報などを指します。GEOarchive の1枚目のシートに記述します。

Spread sheet: (すぷれっど しーと)

スプレッドシート、いわゆる、「エクセルの表」のことです。

Matrix table: (まとりっくす てーぶる)

マトリックス(=行列)のテーブル(=表)です。これもスプレッドシートの1つです。中身は、マイクロアレイデータのシグナル値 (intensity) の表です。processed data または normalized data という言い方もされます。発現変動しているかどうかに関わらず、正規化後のすべてのプローブのシグナル値を含める必要があります。ratio > 2 以上の遺伝子のみという登録はできません。また、正規化に使用したサンプルをすべて含めなければなりません。4サンプルで正規化して解析したけれど、そのうち、2サンプルだけを登録するということはできません。(その場合は、2サンプルだけで正規化し直して解析しなければなりません。)GEOarchive の2枚目のシートに入力します。

Raw data files: (ろーでーた ふぁいる)

生のデータ、つまり、正規化前のデータのことです。スキャナで読み取った後に出力されるファイルです。各メーカーによって、形式が異なります。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。

Platform: (ぷらっとふぉーむ)

マイクロアレイ実験に使用したマイクロアレイ(チップ)の製品の情報、またはGEOにおけるIDです。各メーカーや研究者によって、製品ごとのプローブ配列とアノテーションの情報が登録されています。 GEO の “Find Platform” のサービスを利用して、自分が使用したマイクロアレイの Platform ID を検索することができます。カスタムのマイクロアレイを使用した場合、Deposit に先立って、その Platform のデータを各自が新規に登録する必要があります。GPLxxxxx という ID で示されます。(xxxxx は数字)

Samples: (さんぷる)

登録されたサンプルは、サンプルごとにIDを割り当てられます。GSMxxxxx というID がそれです。(xxxxx は数字)

Series: (しりーず)

複数の GSMxxxxxx を1セットにしたものが「シリーズ」と呼ばれます。GEOには、最終的にこの1シリーズとして登録され、GSExxxxx というIDが割り当てられます。論文などでサイトする場合は、このシリーズのIDである GSExxxxx を表記します。(xxxxx は数字)

 

その他、ご不明な点は、お問い合わせください。

 

マイクロアレイデータの Gene Expression Omnibus (GEO) への登録

GEOへの登録

最近のジャーナルでは、マイクロアレイデータを用いた論文を投稿する際に、マイクロアレイデータの Gene Expression Omnibus (GEO) への登録を求められることが多いです。GEOは、これまでに多くのマイクロアレイデータが登録されており、自由に閲覧が可能なデータベースです。

GEO にマイクロアレイデータを登録すると、”GSExxxxx” という番号をもらうことができます。他の研究者は、この番号を指定することで、そのマイクロアレイデータを閲覧することが可能です。レビューワーから、このアクセッション番号や、IDという言い方で、求められることもあります。

登録する際に準備するもの

GEOにマイクロアレイデータを登録する際に必要なものは、下記の3点です。(ここでは、GEOarchive という形式の登録方法を紹介します。)

  1. NCBI のアカウント(ユーザー名とパスワード)
  2. メタデータ(論文の要旨や、サンプルの情報など。)
  3. マイクロアレイデータ(CELファイルなどのrawデータを含む。)

1. NCBI のアカウント

NCBIを利用するときのアカウントです。NCBIのサイトで無料で作成できます。左下の “Register for an NCBI account” から先へ進みます。(以前は、GEO専用のアカウントがありましたが、現在は、NCBIアカウントに統合されています。)

アカウント作成後、登録されたメールアドレスに、confirm 用のメールが届きます。そのメールに書かれたリンクをクリックすることで、確認されたことになり、アカウントが有効化されます。(迷惑メールと判断されることもあるようですので、ご注意ください。)

2. メタデータ

論文の要旨や、サンプルの情報を専用のエクセルのフォームに記入します。Affymetrix, Agilent, Illumina ごとに専用のフォームがあります。テンプレートのエクセルファイルをダウンロードして記入します。このテンプレートの3枚目以降のシートに記入例があります。各項目の意味はこちらをご覧ください。

3. マイクロアレイデータ

正規化済みのマイクロアレイデータと、これに加えて、rawデータ(AffymetrixであればCELファイル、AgilentであればFeatureExtractionから出力されるファイル)も必要です。ratioやアノテーションの情報は、必須ではありません。プローブIDと、シグナル値と(あれば)フラグの情報を登録します。

正規化に用いたすべてのサンプルの情報が必要です。「8サンプルで正規化を行って解析した後、論文に使用した4サンプルだけを登録」ということはできません。8サンプルで正規化した場合と、4サンプルで正規化した場合では、若干、シグナル値が変わるためです。上記のような場合は、4サンプルだけで再度、正規化から解析しなおして、登録する必要があります。

 

株式会社セルイノベーターでは、「マイクロアレイデータのGEOへの登録」も受託解析サービスの料金の中に含まれています。登録の際は、ご相談ください

 

エクセルで log 変換

エクセルで log 変換をする方法です。下図のようなマイクロアレイデータがあったとします。1サンプルのデータが示されています。(遺伝子数は3個)

テーブルの例
テーブルの例

B列に表示されているシグナル値を log10 変換してみます。なお、結果をC列に保存するものとします。

(1) まず、C2のセルに “=log10(B2)” と入力します。”=” を忘れずに入力してください。

log10変換
log10変換

C2のセルに計算結果が表示されます。(この場合は、1)

(2) 次に、このセルをコピーしてください。

結果のコピー
結果のコピー

(3) そして、3行目以降のセルを選択した状態で、ペーストします。これで、3行目以降も同様の計算が行われ、計算結果が表示されます。

計算結果のペースト
計算結果のペースト

計算結果が表示されます。底が 10 の変換なので “=log(B2, 10)” でも同じ結果を得られます。 log2変換したい場合は、 “=log(B2, 2)” と入力します。

計算結果の表示
計算結果の表示
 

GO解析(2)

GO解析の考え方

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)の中に、「特定の用語(機能、キーワード)をアノテーションに持つ遺伝子が多い」ことを述べるには、下記の2つの点を考慮する必要があります。

  1. その用語をアノテーションに持つ遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. について

もともとゲノム中に多く含まれる機能は、当然、発現変動遺伝子群においても見つかりやすいです。たとえば、 GO:0005488 : binding は、ほとんどの遺伝子がこの機能をアノテーションされています。(何らかのタンパクと結合することが考えられますので、当然といえます。)GO:0016020 : membrane などもそうです。ほとんどの遺伝子は、膜系か、それ以外に分類されるためです。

「当たり」が多く含まれている宝くじを引いていることをイメージするとよいでしょう。それでは当たったことが重要にはなりません。

2. について

発現が増加または、減少した遺伝子の数が多い場合、あらゆる機能の遺伝子が見つかりやすくなります。マイクロアレイデータによっては、3000個以上の遺伝子が増加、減少していることもあります。この状態では、ほぼすべての機能の遺伝子が含まれていて当然と考えられます。

宝くじをたくさん引いていることをイメージするとよいでしょう。何度も挑戦することで、当然、当たりやすくなるため、当たったことの重要性は薄れます。

好ましい状態

上記を考慮すると、最も重要性が高くなるのは、次の条件です。

「もともとゲノム中に数少なく見られる機能を持つ遺伝子が、少ない発現変動遺伝子群に数多く含まれている。」

言い換えると、「ゲノム中(4万個)に10個程度しか含まれない遺伝子が、マイクロアレイ解析の結果、変動していた100個の遺伝子群の中に、8個も見つかった」というような状況です。(数字は適当です。)

DAVID の解析結果などに表示されている GO についた p-valueEnrichment Score は、上記の点を考慮して算出されたものです。 p-value < 0.05 であれば、偶然ではないことが主張できます。

 

GO解析 (1)

GO解析とは

マイクロアレイ解析の結果、まず得られるのは、発現が増加または減少した遺伝子(発現変動遺伝子)のリストです。一般的には、エクセルの表の形で扱われることが多いと思います。

そのリストを眺めて(または検索して)いると、「特定のGO用語(機能、キーワード)が多く含まれているようだ」ということが直感的に分かると思います。

例えば、GOの列に GO:0006954 : inflammatory response が多いなぁ、というように。

では、どれくらいの頻度で見つかれば、特定の用語が見つかる頻度が高い(エンリッチされている)と言えるのでしょうか?発現変動遺伝子が100個あったとして、10個見つかれば、いいほうなのでしょうか?何個 “inflammatory response” が見つかれば、「マイクロアレイ解析の結果、炎症系の遺伝子に影響があった」と言えるのでしょうか?

これに答えるのが、「GO解析」です。GO解析(2) へ。