マイクロアレイデータを見てみよう (1): エクセルで表示

マイクロアレイデータの構成

以前の投稿で述べたように、マイクロアレイデータの表示方法には、下記のようなものがあります。

  • テーブル形式で表示(エクセル)
  • ヒストグラム
  • ボックスプロット
  • 散布図
  • MAプロット

まず、エクセルで開いてみましょう(参考)。マイクロアレイデータは、主に下記の項目から構成されています。(Agilent 社のマイクロアレイを例として用いています。)

  • ProbeName (ProbeID): マイクロアレイ上のプローブのIDです。重複しません。例:A_23_P26810, A_33_P3315764 など。
  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • サンプル名(シグナル値): サンプル名で示された列に、シグナル値を表示することが多いです。例:WT, KO など。任意の名称です。
  • フラグ:Absent (A), Marginal (M), Present (P) のフラグです。そのプローブによって、対象の遺伝子が検出できたかどうか判定したものです。コールとも呼ばれます。(メーカーによっては、フラグがない場合もあります。)
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID があります。

マイクロアレイデータは、1行に1プローブの情報が記録されています。これが、プローブの数だけ、縦に並んだ構造となっています。例えば、4万プローブを搭載したマイクロアレイの結果は、4万行のデータとなります。1行目にヘッダーと呼ばれる項目名の行があります。なお、ヘッダーより前の行に各種のパラメーターや情報が記載されている場合があります。列の並び(横の並び)は、自由なため、上記の項目の順に並んでいるとは限りません。また、行の並びも特に決まった順序がありません。ProbeID の順や、GeneSymbol の順(アルファベット順)、ratio の大きい順などの順で並べ替えられて(ソートされて)いることがあります。

 

マイクロアレイデータ

このうち、マイクロアレイデータの解析において、最低限必要なのは、「ProbeID」、「シグナル値」の2つの項目です。これ以外の情報はすべて、いわゆる、「アノテーション」と呼ばれる情報です。ProbeIDさえあれば、それに関連づけされた(annotateされた)アノテーションは、すべてデータベースから取得可能です。また、ヘッダーより上の情報も通常、解析に用いることはありません。

 

マイクロアレイデータ(最小構成)

アノテーションの情報が含まれていると、難しそうに見えますが、マイクロアレイ解析に用いる純粋なデータは、行数が多いものの、数字が並んでいるだけの単純な構造となっています。

 

投稿者:

Atsushi Doi

株式会社セルイノベーター、主任研究員。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

「マイクロアレイデータを見てみよう (1): エクセルで表示」への1件のフィードバック

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください