マイクロアレイデータの解析例 1.1 (データのダウンロード)

GEO に公開されたデータを利用して、実際に解析を行ってみましょう。マイクロアレイ解析によって、どのような情報が得られるのかイメージがつかめると思います。

マイクロアレイデータ

まずは、 GSE53614 のデータを使ってみます。293T cell lines を用いた解析のようです。サンプル名から推測するに、3つのタイムポイント (16hr, 24hr, 40hr) があり、それぞれに、コントロールと対照サンプルがあるようです。また、使用されたアレイは、 Agilent SurePrint G3 Human GE 8x60Kv2 です。

GSE53614

マイクロアレイデータの取得

データを取得します。取得する方法は、いくつかあります。著者らが正規化したデータをそのまま利用するには、 “Series Matrix Files(s)” をダウンロードしましょう。正規化からやり直す場合は、その下の GSE53614_RAW.tar をダウンロードします。 (ここでは、正規化前のデータを用いました。)

マイクロアレイデータの取得

なお、 SOFT形式のデータをダウンロードすれば、アノテーションが付いた状態のファイルを取得できますが、計算時に読み込むときに苦労する場合があります。また、MINiML形式の場合も、XML形式のデータであるため、計算に用いない情報が含まれています。

Series Matrix File の始めの行(ヘッダー)は、サンプル情報です。 ID_REF から始まる行以降のデータが、正規化後のデータです。1列目はプローブのIDです。2列目以降に各サンプルのシグナル値があります。(6サンプルなので6列)プローブの ID が A_ で始まらないものは、バックグラウンドなどの値です。

サンプル情報がヘッダーに含まれています。
サンプル情報がヘッダーに含まれています。
 

GEO と NCBI アカウント

2012年12月より、GEO のアカウントが、 NCBI のアカウントに統合されたようです。現在、GEO のサイトからログインを試みると、下図のような注意書きが表示されます。

GEO アカウントから NCBI アカウントへ。
GEO アカウントから NCBI アカウントへ統合。

すでに、新しく GEO アカウントを作成することはできなくなっており、代わりに NCBI のアカウントを作成することを求められています。 NCBI のアカウントを持っている人は、GEO のアカウントとリンクさせる必要があるそうです。なお、既存の GEO アカウントによるログインは、2013年3月1日以降、行えなくなる模様です。

NCBI アカウントでは、NCBI を検索した結果を保存できます。これに加えて、GEO へのマイクロアレイデータの登録も行えるようになっています。NCBI アカウントでログイン後、GEOのサイトに移動すれば、これまで通り submit の画面に進めます。

NCBI にログインしているかどうかは、右上にユーザー名が表示されているかどうかで確認できます。ログインしていなければ、 “Not logged in” と表示されます。

 

Broad-Novartis Cancer Cell Line Encyclopedia (CCLE)

CCLE プロジェクトという、がんのセルラインのデータを収集するプロジェクトがあります。 Broad Institute を中心に行われており、得られたデータが公開されています。 現在、CNV, SNP と mRNA のマイクロアレイデータが公開されています。mRNA のマイクロアレイデータとしては、1000サンプルに近いデータがあります。raw データで 4.7GB と巨大ですが、ダウンロードすれば独自に解析することも可能です。このデータは、 GEO にも

GPL15308 として登録されています。

CCLE home
Cancer Cell Line Encyclopedia (CCLE).
 

GEOに登録された代表的な Platform

FIND PLATFORM を検索した例として、GEOに登録された代表的な Platform を挙げます。(一例ですので、必ず GEO のサイトでご確認ください。)

Affymetrix (GeneChip)

  • Affymetrix Human Genome U133 Plus 2.0 Array: GPL570
  • Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]: GPL6244 (probe set version とは異なります。)
  • Affymetrix Mouse Genome 430 2.0 Array: GPL1261
  • Affymetrix Mouse Gene 1.0 ST Array [transcript (gene) version]: GPL6246 (probe set version とは異なります。)
  • Affymetrix Rat Genome 230 2.0 Array: GPL1355
  • Affymetrix Rat Gene 1.0 ST Array [transcript (gene) version]: GPL6247

Agilent

  •  Agilent-028004 SurePrint G3 Human GE 8x60K Microarray (Probe Name Version): GPL14550
  • Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version): GPL13497 (v1 とは異なります。)
  • Agilent-028005 SurePrint G3 Mouse GE 8x60K Microarray (Probe Name version): GPL10787?
  • Agilent-026655 Whole Mouse Genome Microarray 4x44K v2 (Probe Name version): GPL11202 (v1 とは異なります。)
  • Agilent-028279 SurePrint G3 Rat GE 8x60K Microarray (Probe Name version): GPL15084
  • Agilent-028282 Whole Rat Genome Microarray 4x44K v3 (Probe Name version): GPL14746

Illumina

  • Illumina HumanWG-6 v3.0 expression beadchip: GPL6884
  • Illumina MouseWG-6 v2.0 expression beadchip: GPL6887
  • Illumina ratRef-12 v1.0 expression beadchip: GPL6101
 

GEO の FIND PLATFORM の使い方

GEOFIND PLATFORM の使い方を解説します。

(1) Company name: Affymetrix, Agilent, Illumina などのメーカー名を選択します。通常の製品であれば、distribution は、”commercial” のままにしておきます。

(2) 生物種を選択します。”FIND PLATFORM” のボタンをクリックして検索します。

Find platform
Find platform

検索結果が多い場合は、Title contains の欄に、キーワードを入力して絞り込みましょう。(U133A, 1.0 Gene ST, 8x44K, 8x60K など、製品名の一部を入力します。)

Find Platform keywords
検索結果。キーワードで絞り込み。

それでも、複数の候補が表示されることがあります。この場合、下記のポイントが参考になるでしょう。

  • A. 登録者の名前を見る。
  • B. マイクロアレイデータの行数を見る。
  • C. 登録されているサンプルの数を見る。

A. について:たいていの場合、各製品の製造元のメーカーが提供しています。個人の研究者の名前になっているものは、カスタムメイドのマイクロアレイと考えられます。

B. について:同じマイクロアレイ製品でも複数の書式で登録されている場合があります。(Agilent の Probe Name バージョンと Feature Number バージョンのように。)マトリックステーブルに入力したマイクロアレイデータの行数と同じものを選びます。(コントロールプローブの有無などで若干は異なる場合もあります。)

C. について:その Platform を使用して、GEOに登録されているサンプルの数です。これも少ない場合は、カスタムメイドのマイクロアレイのときがあります。(製品が新しいため、登録数が少ない場合もありますので、確認しましょう。)

platform_info
Platform の情報。確認するポイント。

なお、使用したマイクロアレイ製品が新しい場合は、まだ、”Platform” が登録されていないこともあります。その場合、各メーカーに問い合わせると、対応してもらえると思います。