Broad-Novartis Cancer Cell Line Encyclopedia (CCLE)

CCLE プロジェクトという、がんのセルラインのデータを収集するプロジェクトがあります。 Broad Institute を中心に行われており、得られたデータが公開されています。 現在、CNV, SNP と mRNA のマイクロアレイデータが公開されています。mRNA のマイクロアレイデータとしては、1000サンプルに近いデータがあります。raw データで 4.7GB と巨大ですが、ダウンロードすれば独自に解析することも可能です。このデータは、 GEO にも

GPL15308 として登録されています。

CCLE home
Cancer Cell Line Encyclopedia (CCLE).
 

GEOに登録された代表的な Platform

FIND PLATFORM を検索した例として、GEOに登録された代表的な Platform を挙げます。(一例ですので、必ず GEO のサイトでご確認ください。)

Affymetrix (GeneChip)

  • Affymetrix Human Genome U133 Plus 2.0 Array: GPL570
  • Affymetrix Human Gene 1.0 ST Array [transcript (gene) version]: GPL6244 (probe set version とは異なります。)
  • Affymetrix Mouse Genome 430 2.0 Array: GPL1261
  • Affymetrix Mouse Gene 1.0 ST Array [transcript (gene) version]: GPL6246 (probe set version とは異なります。)
  • Affymetrix Rat Genome 230 2.0 Array: GPL1355
  • Affymetrix Rat Gene 1.0 ST Array [transcript (gene) version]: GPL6247

Agilent

  •  Agilent-028004 SurePrint G3 Human GE 8x60K Microarray (Probe Name Version): GPL14550
  • Agilent-026652 Whole Human Genome Microarray 4x44K v2 (Probe Name version): GPL13497 (v1 とは異なります。)
  • Agilent-028005 SurePrint G3 Mouse GE 8x60K Microarray (Probe Name version): GPL10787?
  • Agilent-026655 Whole Mouse Genome Microarray 4x44K v2 (Probe Name version): GPL11202 (v1 とは異なります。)
  • Agilent-028279 SurePrint G3 Rat GE 8x60K Microarray (Probe Name version): GPL15084
  • Agilent-028282 Whole Rat Genome Microarray 4x44K v3 (Probe Name version): GPL14746

Illumina

  • Illumina HumanWG-6 v3.0 expression beadchip: GPL6884
  • Illumina MouseWG-6 v2.0 expression beadchip: GPL6887
  • Illumina ratRef-12 v1.0 expression beadchip: GPL6101
 

GEO の FIND PLATFORM の使い方

GEOFIND PLATFORM の使い方を解説します。

(1) Company name: Affymetrix, Agilent, Illumina などのメーカー名を選択します。通常の製品であれば、distribution は、”commercial” のままにしておきます。

(2) 生物種を選択します。”FIND PLATFORM” のボタンをクリックして検索します。

Find platform
Find platform

検索結果が多い場合は、Title contains の欄に、キーワードを入力して絞り込みましょう。(U133A, 1.0 Gene ST, 8x44K, 8x60K など、製品名の一部を入力します。)

Find Platform keywords
検索結果。キーワードで絞り込み。

それでも、複数の候補が表示されることがあります。この場合、下記のポイントが参考になるでしょう。

  • A. 登録者の名前を見る。
  • B. マイクロアレイデータの行数を見る。
  • C. 登録されているサンプルの数を見る。

A. について:たいていの場合、各製品の製造元のメーカーが提供しています。個人の研究者の名前になっているものは、カスタムメイドのマイクロアレイと考えられます。

B. について:同じマイクロアレイ製品でも複数の書式で登録されている場合があります。(Agilent の Probe Name バージョンと Feature Number バージョンのように。)マトリックステーブルに入力したマイクロアレイデータの行数と同じものを選びます。(コントロールプローブの有無などで若干は異なる場合もあります。)

C. について:その Platform を使用して、GEOに登録されているサンプルの数です。これも少ない場合は、カスタムメイドのマイクロアレイのときがあります。(製品が新しいため、登録数が少ない場合もありますので、確認しましょう。)

platform_info
Platform の情報。確認するポイント。

なお、使用したマイクロアレイ製品が新しい場合は、まだ、”Platform” が登録されていないこともあります。その場合、各メーカーに問い合わせると、対応してもらえると思います。

 

Gene Expression Omnibus (GEO) の Matrix table (マトリックステーブル) の書式

GEOarchive の Matrix table (マトリックステーブル) の書式を解説します。マトリックステーブルは、エクセルファイルの2枚目のシートに記入します。テンプレートに含まれる # から始まる行はコメントで、書式の説明です。”ID_REF” から始まる7行目以降の行にマイクロアレイデータを記入することになります。

ID_REF の列

マトリックステーブルの1列目が、 “ID_REF” の列です。この “ID_REF” は、いわゆる、Probe の ID のことです。マイクロアレイのメーカーや、製品の種類によって表現が異なるので、このような表記になっているのだと思います。例えば、Affymetrix の場合は、ID, Probe Set ID (e.g. 1007_s_at)などと呼ばれます。Agilent  の場合は、ID, Probe Name (e.g. A_23_P100001)のように呼ばれます。

重要なポイントは、ここで使用することになる ID を、GEO の “Platform” として登録されている情報の “ID” と一致させる必要があることです。言葉で書くと難しいのですが、通常の Probe ID (1007_s_at や A_23_P100001) を ID_REF に使用した上で、正しい Platform  (GPLxxxx) をメタデータ(1枚目のシート)の platform 欄に記入していれば問題ありません。

(Illumina のマイクロアレイデータの場合、”ProbeID” と呼ばれるものが、GEO の Platform の情報においては、”Array_Address_ID” となっていることがあります。その場合は、Platform の情報における “ID” (1, 2, 3, …) に付け替える必要があります。)

 SAMPLE の列

2列目以降は、サンプルの正規化されたシグナル値を記入します。1列につき、1サンプルのマイクロアレイデータということになります。もしあれば、シグナル値の次の列にフラグの値を記入します。よって、 ID_REF, SAMPLE1 のシグナル値, SAMPLE1のフラグ, SAMPLE2のシグナル値, SAMPLE2のフラグ, …, の順に続くことになります。

ここで重要なポイントは、SAMPLE1, SAMPLE2 などの各列の名前は、1枚目のシートの “Sample name” の欄に記入した名前と一致させる必要があることです。また、重複する名前も使えません。title に書いた呼び名ではありません。(間違いを防ぐために、SAMPLE1, SAMPLE2 などとしておくことをお勧めします。WT, KO などの呼び名は、title に書けます。)

フラグは、ABS_CALL (A, M, Pの情報)や、Detection p-value の情報です。各列の名前は、同じ “ABS_CALL” でもかまいません。ただし、シグナル値の列の次に来るよう、位置に気をつけましょう。

 

Gene Expression Omnibus (GEO) のテンプレートの種類

マイクロアレイデータを GEOarchive 形式で保存するには、まず、テンプレートのエクセルファイルを GEO から取得します。このテンプレートのファイルは、AffymetrixAgilent などのメーカーごとに用意されています。

なお、このテンプレートは、使用したマイクロアレイの種類ごとに分かれており、また、データの処理方法によって、さらにオプションが分かれています。例として、 Affymetrix と Agilent の場合を紹介します。

Affymetrix

使用したマイクロアレイが 3′ or Whole Gene Expression Array または、Exon Array または、Tiling Array または SNP Array なのかによって異なります。また、始めの2つのマイクロアレイには、正規化後のデータの形式によって CHP file なのか Matrix table なのかを選択します。

  • CHP file オプション: 正規化の方法が MAS5.0 のときはこちらです。正規化後のシグナル値を CHP ファイルとして添付します。(GEOarchive のエクセルファイルに含める必要はありません。)
  • Matrix table オプション: 正規化の方法が RMA (GC-RMA) のときはこちらです。正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含めます。

最近では、 3′ or Whole Gene Expression Array – Matrix table option が多いのではないでしょうか。(セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データである CEL ファイルは必要です。

Agilent

まず、使用したマイクロアレイが、 Two-color なのか One-color なのかで異なります。また、正規化後のデータの形式によって Matrix table なのか Feature Extraction files なのかを選択します。

  • Matrix table オプション: 正規化後のシグナル値を GEOarchive のエクセルファイルの2枚目のシートに含める場合です。
  • Feature Extraction files オプション: 正規化後のシグナル値を Feature Extraction のファイルに含めて登録する場合です。

One-color の Matrix table option というケースが多いのではないかと思います。 (セルイノベーターで受託解析を行った場合は、こちらです。)

いずれのオプションを選んだとしても、 raw データを含む Feature Extraction のファイルは必要です。