Gene Expression Omnibus (GEO) のメタデータ記入

GEO からダウンロードしたエクセルファイル(テンプレート)をもとに、メタデータを記入する際、いくつか気をつけることがあります。テンプレートの記入欄の各項目のセルを矢印でポイントする(マウスで矢印を動かし、セルの上でしばらく停止させる)ことで、その注意点を読むことができます。また、テンプレートの3枚目以降のシートに記入例もありますので、そちらも参考にしてください。

シリーズ (SERIES) の欄

  • title: 登録するマイクロアレイデータのタイトルです。投稿予定の論文のタイトルでもよいかもしれません。
  • summary: 登録するマイクロアレイデータのサマリーです。投稿予定の論文のアブストラクトをそのまま用いても良いでしょう。
  • overall design: 研究自体のデザインです。何を見る目的で、どのような条件でサンプルを取得し、どのサンプルとどのサンプルを比較したのか、記入します。
  • contributor: 著者の名前です。1行に1人記入します。また、”Firstname,Lastname” のように記入します。例: Atsushi,Doi

サンプル (SAMPLES) の欄

  • Sample name: サンプルの名前です。2枚目のシートのサンプル名と一致させる必要があります。重複する名前は使えません(=ユニークであることと表現されます)。テンプレートの例にあるよう、 SAMPLE1, SAMPLE2 などとしておき、WT, KO など、投稿予定の論文におけるサンプルの呼び名は、後述の title に書くほうが無難です。
  • title: サンプルのタイトルです。WT, KO など、投稿予定の論文におけるサンプルの呼び名を書くことができます。
  • raw data file: raw データ(生データ、正規化前のデータ)のファイル名です。Affymetrix の場合は、CEL ファイル(拡張子が .CEL  のファイルです。)Agilent の場合は、 Feature Extraction から出力されるファイル(US22502696_251486831404_S01_GE1-v5_95_Feb07_1_3.txt のような名前のファイル)です。ここに書かれたファイル名のファイルをGEOarchiveのエクセルファイルといっしょにアップロードします。
  • source name: 簡略化されたサンプルのコンディションを記述します。tissue, dose, timepoint, replicate1 などのように。
  • organism: 生物種です。
  • characteristics, tag: 特徴のタグです。tag は自由に定義できます。よく用いられるタグは、 tissue, gender, strain, age などです。特にマウスのサンプルは strain の情報を求められることがあります。列が足らない場合は、自由に追加できます。GEOにおいてデータの分類に使われるようです。
  • molecule: 抽出した分子の種別です。total RNA, polyA RNA, cytoplasmic RNA, nuclear RNA, genomic DNA, protein, other から選びます。一般的なマイクロアレイでは、”total RNA”でしょう。
  • label: biotin, Cy3, Cy5 など、ラベルに使用したものを記述します。
  • description: ほかに記述したい情報があれば、ここに自由に記述できます。
  • platform: GPL1708 など、使用したマイクロアレイのGEOにおけるIDを記入します。あらかじめ、Find Platformで調べておきましょう。カスタムのマイクロアレイを使用した場合、まず、その Platform のデータを各自が新規に登録する必要があります。そして、発行された Platform ID をここに記入します。

プロトコル (PROTOCOLS) の欄

  • growth protocol: 培養時のプロトコルです。必須ではありません
  • treatment protocol: 培地などのプロトコルです。必須ではありません
  • extract protocol: RNA抽出時のプロトコルを記述します。受託解析の場合は、受託メーカーに確認することが必要になるかもしれません。
  • label protocol: ラベリングのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • hyb protocol: ハイブリダイゼーションのプロトコルを記述します。受託解析の場合は、受託メーカーに確認します。
  • scan protocol: スキャン時のプロトコルです。受託解析の場合は、受託解析の場合は、受託メーカーに確認します。
  • data processing: データの前処理(正規化を含む)の内容を記述します。受託解析の場合は、受託メーカーに確認します。
  • value definition: 2枚目のシートのマトリックスに含まれる値の定義です。正規化後のlog2変換された値、など。受託解析の場合は、受託メーカーに確認します。

GEOにマイクロアレイデータを登録する際には、これらの情報をほぼすべて入力する必要があります。入力が不足していれば、審査が通らず、NCBIから不足箇所の連絡があります。セルイノベーターの受託解析サービスでは、これらのメタデータの記入もお手伝いいたしますので、ご連絡ください。(このGEO登録作業のサポートも解析料金に含まれています。)

 

エクセルで log 変換

エクセルで log 変換をする方法です。下図のようなマイクロアレイデータがあったとします。1サンプルのデータが示されています。(遺伝子数は3個)

テーブルの例
テーブルの例

B列に表示されているシグナル値を log10 変換してみます。なお、結果をC列に保存するものとします。

(1) まず、C2のセルに “=log10(B2)” と入力します。”=” を忘れずに入力してください。

log10変換
log10変換

C2のセルに計算結果が表示されます。(この場合は、1)

(2) 次に、このセルをコピーしてください。

結果のコピー
結果のコピー

(3) そして、3行目以降のセルを選択した状態で、ペーストします。これで、3行目以降も同様の計算が行われ、計算結果が表示されます。

計算結果のペースト
計算結果のペースト

計算結果が表示されます。底が 10 の変換なので “=log(B2, 10)” でも同じ結果を得られます。 log2変換したい場合は、 “=log(B2, 2)” と入力します。

計算結果の表示
計算結果の表示
 

ratioのヒストグラム

シグナル値そのものを書く以外に、ヒストグラムには便利な使い方があります。それは、ratio のヒストグラムです。まず、2サンプルのシグナル値から、ratio を計算します。対応するプローブ(遺伝子)ごとに、実験群のシグナル値をコントロールのシグナル値で割ることで算出できます。そして、シグナル値の代わりに、算出された ratio でヒストグラムを作成してみましょう。横軸に ratio の大きさ、縦軸に一定の区間のratioとなる遺伝子の個数を表します。また、横軸は対数目盛とします。シグナル値の場合と異なり、ratioのヒストグラムの形状としては、真ん中に高い山があり、左右の端にかけて、低くなる形状となります。

ratio のヒストグラム

真ん中の山は、ratio が1に近いことを表します。左右に分布しているのは、ratio が1以上、または、1以下ということですから、どちらかのサンプルでシグナル値が高いか、または低いということです。真ん中の山が高いことから、ほとんどの遺伝子で ratio が1付近、つまり、発現変動していない、ということが分かります。また、左右につれて山が低くなることから、大きく増減する遺伝子ほど、存在する数が少ないということが分かります。

さらに、真ん中付近の山の度数を足すと、どれくらいの遺伝子が発現変動していないか分かります。サンプルにも依りますが、ほとんどのケースで、3万個以上の遺伝子において、発現変動が見られない(0.5 < ratio < 2)ことが多いです。発現変動したと判定される遺伝子は、たかだか数千個です。

 

ヒートマップとクラスタリング図

これらの2つの用語は、同じような意味で使われます。しかし、厳密には少し違った意味を持っています。「ヒートマップ」のほうが、広い意味を持っていると言えます。「クラスタリング図」は、いわば、クラスタリング処理を施されたヒートマップです。よって、どちらか分からない場合は、ヒートマップと呼ぶほうが無難でしょう。

クラスタリング処理は、簡単にいうと、並べ替えです。ヒートマップ中の個々の遺伝子を、発現パターンの似ている順に並べる作業です。また、並べ方には、方向があります。サンプルを似ている順に並べるか、遺伝子を似ている順に並べるか、というものです。

例:3つのサンプルA, B, C があり、それぞれ、gene1, gene2, gene3 のシグナル値を測定したとします。

サンプルA サンプルB サンプルC
gene1 30 20 35
gene2 10 50 15
gene3 10 20 15

クラスタリング図(=クラスタリング処理したヒートマップ)

クラスタリング:サンプルを似ている順に並べ替え
クラスタリング:遺伝子を似ている順に並べ替え

両方向というパターンもあります。

クラスタリング:サンプルを似ている順に並べ替え+遺伝子を似ている順に並べ替え
 

簡単!Linuxコマンドでマイクロアレイ解析結果自由自在6

今回も、引き続き、マイクロアレイ解析結果をLinuxコマンドを用いて簡単に操作する方法を紹介していきたいと思います。今回は、端末操作を楽にするコマンドを紹介したいと思います。

端末操作を煩わしく感じるのは、ディレクトリを行き来する際や、同じようなコマンドを何度も入力する時と思います。しかし、ちょっとした工夫で操作が楽しくなるので、活用頂けると幸いです。

使い方① (ディレクトリ移動)
pushd 記憶したいディレクトリ(例:. ~/work, /usr/bin 等)
popd 記憶されたディレクトリに戻る

サンプル>

$ work       # 現在作業中のディレクトリ
pushd .      # pushdで、作業ディレクトリを記憶します。(. はカレント)

$ cd ../temp # 別のディレクトリに移動しました。
             # 移動後、色々なコマンドを使って作業を行います。
popd         # workディレクトリに戻りたい時、popdを使います。

$ work       # 前回記憶した作業ディレクトリに戻ります。

使い方②(以前使用したコマンドを呼び出す)
コマンドプロンプトに対して、[Ctrl を押しながら、 r]

サンプル>

$ work       # 作業中に、以前のコマンドを編集したり、再利用したい場合
             # [Ctrl + r]を押すと、コマンド候補検索用の表示に変わります。

(reverse-i-search)`':
             # ヒントを入力すると、候補コマンドを表示します。
             # 以下は、cuと入力した例です。コマンド群が表示されました。

(reverse-i-search)`cu': cut -f1-3 file1.txt | sort > check/cut_file1.txt
             # 候補が表示された時、リターンキーで、候補が実行されます。
             # カーソルを右や左に移動すると、編集が可能です。
             # 編集が完了したら、リターンで実行します。