マイクロアレイデータを見てみよう (3): ヒストグラム

ヒストグラム(histogram, 度数分布)

シグナル値の分布に偏りがあるかどうかは、ヒストグラムを書いてみると分かります。ヒストグラムでは、横軸にシグナル値の大きさ、縦軸に一定のシグナル値の区間に存在するプローブ(遺伝子)の数を表します。また、普通の等間隔の目盛では見づらいため、横軸に対数目盛を用います。



シグナル値のヒストグラム

図:シグナル値のヒストグラム:普通の目盛(左)と対数目盛(右)。左の横軸は指数表示になっているが、0, 100000, 200000, 300000, 400000, 500000 ということ。同じデータを使用*[1]。

 

マイクロアレイデータのヒストグラムは、おおむね図のような形状になります。(メーカーによって、若干の違いはあります。)シグナル値が、かなり低いところに大きな尖った山ができます。また、その右側は比較的なだらかな山が、シグナル値が数十万となるところまで続きます。
尖った山は、この部分に分布している遺伝子の数が極端に多いことを意味します。だいたい、4万個の遺伝子中、約1万個の遺伝子が、この部分に含まれるケースが多いです。ここに含まれる遺伝子のシグナル値は、1桁から2桁程度であり、マイクロアレイにより検出されていない*[2]可能性が高い遺伝子です。シグナル値が低くても、マイクロアレイデータから発現していないと言い切ることはできません*[3]。しかしながら、イメージとして、どのような細胞であっても、その中で1万遺伝子程度は、発現していないというのは生物学的に自然なことではないでしょうか。
右側の比較的なだらかな山は、残りの3万個程度の遺伝子が、数百から数十万までの区間に広く分布していることを意味します。通常、この部分に偏りは少なく、シグナル値の高い区間になるほど、そこに分布する遺伝子の数は、少なくなっていきます。つまり、マイクロアレイでは、高いシグナル値になるほど、稀な値だということです。

 

ヒストグラムから分かること

シグナル値の分布の偏りが分かります。検出されていない遺伝子の山以外の比較的なだらかな部分に、極端に高い凹凸があれば、データのクオリティが疑われます。

 

ヒストグラムから分からないこと

特定の遺伝子に発現変動があるかどうかは、ヒストグラムからも判別できません。(それには、散布図を用います。)ヒストグラムは、1サンプルに1つ書けますが、ボックスプロットのように複数のサンプルを並べて同時に比較することには向きません。

 

ここまでのまとめ

ボックスプロットとヒストグラムから、シグナル値が低い部分に集中している形状を取るのが、マイクロアレイデータの特性と言えます。1桁から数十万まで幅広い値を取ります。また、約4分の1程度は、検出されず、検出された遺伝子も数百程度のシグナル値のものまでが75%を占め、高い値を示すのは残りの1万個程度です。そのため、マイクロアレイデータの解析結果は、これらの事実を考慮した上で、見ていく必要があります。(マイクロアレイは、このようなバイアスを持った測定手法だということが、前提となります。)マイクロアレイデータは、その特性上、発現レベルが低く、微妙な発現変動を示す遺伝子の検出には向かないと考えられます。


[1] GSM830131
[2] 検出されたかどうかは、データにフラグがあれば、その判定を見ます。
[3] シグナル値が低い場合であっても、リアルタイムPCRなど、マイクロアレイより測定精度の高いとされる他の手法では、検出される可能性があります。

 

マイクロアレイデータを見てみよう (2): ボックスプロット

数字(シグナル値)が4万行並んだ構造であるマイクロアレイデータを漠然と眺めていても、なかなかイメージはつかみにくいでしょう。そこで、ボックスプロット、ヒストグラム、散布図などの図にすることで、データ全体のイメージをつかむことができます。

 

ボックスプロット(boxplot, 箱ひげ図)

まず、ボックスプロットの例を示します。ボックスプロットは、箱ひげ図とも呼ばれます。シグナル値を点で表し(プロット)、最も小さいものから最も大きいものまで、縦に並べたような図です。一般的に、シグナル値は、最小のものが1桁程度、最大のものが数十万の値となります。そのまま、表示すると見づらいため、縦軸の座標は対数目盛が用いられます。たとえば、1, 10, 100, 1000, 10000, 100000などです。もしくは、log変換された値で表示されます。(その場合の目盛は、2, 3, 4, 5, 6, …,など。)なお、最小値、最大値は、点ではなく、短い横線で表されます*[1]。



ボックスプロットの例

図:ボックスプロットの例。普通の目盛(左)と対数目盛(右)。同じデータ*[2]を使用。

 

また、4万個の数字を、4万個の点で表してもよいのですが、ボックスプロットの名の示すように、点が集中している部分は、ボックス(箱)として表現されます。箱の下端と上端には意味があり、下端は、25パーセンタイル、上端は、75パーセンタイルを表します。すなわち、最小値から箱の下端までの区間に全体の25パーセントのシグナル値が存在し、箱の上端までの区間に75パーセントのシグナル値が存在するということです。さらに箱の中央に横線があり、これが50パーセンタイル(=中央値)を示します。

 

ボックスプロットから分かる事

ボックスプロットは、1サンプルにつき、1つ書きます。マイクロアレイデータは、1桁から数十万まで、幅広い値を持つことが見て取れると思います。また、箱の位置と大きさから、大多数のシグナル値(遺伝子)が数十から数百と低い値を持つ事も分かります。箱が75パーセンタイルなので、4万遺伝子中、3万遺伝子のシグナル値は、それほど大きくない*[3]ということです。

 

2サンプルのボックスプロット

図:2サンプルのボックスプロット。

複数サンプルがある場合は、それぞれのボックスプロットを横に並べて比較することになります。サンプルによって、最小値も最大値も異なることが分かります。また、中央値や箱の位置も異なっています。ただ、箱の大きさは、それほど変わらないことも分かります。これがどのような状態を意味しているかというと、サンプルによって、データが全体的に上(または下)にシフトしているということです。大きく上下にずれているサンプルどうしで ratio を計算すると、どの遺伝子の ratio も高い(または低い)という結果になってしまいます。そのため、ratio の計算の前に「正規化」という作業が必要になってきます。

また、サンプルの状態が悪いときは、箱の大きさが小さかったり、全体的に大きく下にシフトしていたりすることがあります。これもボックスプロットを書くことで確認できます。

 

ボックスプロットから分からないこと

シグナル値の分布に偏りがあるかどうかは、ボックスプロットから分かりません。また、特定の遺伝子に発現変動があるかどうかもボックスプロットから判定できません。これらを見るためには、マイクロアレイデータを別の図で表現してみる必要があります。

 

[1] 集団から外れている値があれば、横線の外側にプロットされます。
[2] GSM830131
[3] 発現していないということではありません。

 

マイクロアレイデータを見てみよう (1): エクセルで表示

マイクロアレイデータの構成

以前の投稿で述べたように、マイクロアレイデータの表示方法には、下記のようなものがあります。

  • テーブル形式で表示(エクセル)
  • ヒストグラム
  • ボックスプロット
  • 散布図
  • MAプロット

まず、エクセルで開いてみましょう(参考)。マイクロアレイデータは、主に下記の項目から構成されています。(Agilent 社のマイクロアレイを例として用いています。)

  • ProbeName (ProbeID): マイクロアレイ上のプローブのIDです。重複しません。例:A_23_P26810, A_33_P3315764 など。
  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • サンプル名(シグナル値): サンプル名で示された列に、シグナル値を表示することが多いです。例:WT, KO など。任意の名称です。
  • フラグ:Absent (A), Marginal (M), Present (P) のフラグです。そのプローブによって、対象の遺伝子が検出できたかどうか判定したものです。コールとも呼ばれます。(メーカーによっては、フラグがない場合もあります。)
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID があります。

マイクロアレイデータは、1行に1プローブの情報が記録されています。これが、プローブの数だけ、縦に並んだ構造となっています。例えば、4万プローブを搭載したマイクロアレイの結果は、4万行のデータとなります。1行目にヘッダーと呼ばれる項目名の行があります。なお、ヘッダーより前の行に各種のパラメーターや情報が記載されている場合があります。列の並び(横の並び)は、自由なため、上記の項目の順に並んでいるとは限りません。また、行の並びも特に決まった順序がありません。ProbeID の順や、GeneSymbol の順(アルファベット順)、ratio の大きい順などの順で並べ替えられて(ソートされて)いることがあります。

 

マイクロアレイデータ

このうち、マイクロアレイデータの解析において、最低限必要なのは、「ProbeID」、「シグナル値」の2つの項目です。これ以外の情報はすべて、いわゆる、「アノテーション」と呼ばれる情報です。ProbeIDさえあれば、それに関連づけされた(annotateされた)アノテーションは、すべてデータベースから取得可能です。また、ヘッダーより上の情報も通常、解析に用いることはありません。

 

マイクロアレイデータ(最小構成)

アノテーションの情報が含まれていると、難しそうに見えますが、マイクロアレイ解析に用いる純粋なデータは、行数が多いものの、数字が並んでいるだけの単純な構造となっています。

 

マイクロアレイのイメージの誤解

マイクロアレイと聞いて、最初に思い浮かぶイメージはどのようなものでしょうか?多くの人が、の画像をイメージするでしょう。しかし、この画像は誤解されたイメージかもしれません。

おそらく、イメージは、下の2パターンに別れると思います。

マイクロアレイのイメージ



左側をイメージされた方、正解です。これは、マイクロアレイの2色法のイメージです。比較するサンプルをの2色でラベルするので、そう呼ばれています(two color, two channelとも)。一方のサンプルで高い発現を示す遺伝子は、またはに見え、両方のサンプルで発現している遺伝子は、に見え、両方のサンプルで発現していない遺伝子はに見えるという原理です。

しかし、これは古いイメージといえるでしょう。ここ数年の間にマイクロアレイの環境は変わり、近年では1色法が主流です。実際に NCBI のマイクロアレイのデータベースである Gene Expression Omnibus (GEO) に登録されているマイクロアレイデータのほとんどが、 Affymetrix 社の GeneChip® であり、 この GeneChip® は、1色法のマイクロアレイです。また、Agilent 社のマイクロアレイも2色法と1色法の両方に対応しています。

1色でどうやって比較するのか?と疑問を持たれる方もいるかもしれません。端的に言って、マイクロアレイ解析とは画像処理ではありません。解析に用いるのは数値となったデータであり、単純に数字の大小を比較しているに過ぎないのです。考え方としては、1色でも濃淡で比較できると考えていただいてもよいかもしれません。(1色法、2色法それぞれにデメリットとメリットがあります。)

 

マイクロアレイ != ヒートマップ

右の画像をイメージされたかたも、ある意味正解です。正確にはヒートマップですが、マイクロアレイデータの表示方法として、論文によく登場するため、このイメージが強いのかもしれません。

しかし、「1色法なのに、どうして、の色がついているのだろう?」と思われた方もいるのではないでしょうか。その場合は、本サイトの「MeV の使い方 3. t-検定(続き)」などをご覧ください。シグナル値の色づけは自由です。コントラストが強いため、を選ばれることが多いのでしょう。

色とシグナル値の大きさの関係

また、色の意味が異なることにご注意ください。=発現が高い=発現が低い黒=発現していない、ではありません。「黒=発現していない」というのは、上記に述べた2色法の画像での話です。ヒートマップにおいて、「黒=中くらいの値(高くも低くもない)」を意味します。また、ヒートマップの色には「黄(オレンジ)」がないことにもご注意ください。

マイクロアレイの画像とヒートマップは、まったく異なるものです。マイクロアレイの画像を整理して並べ替える(クラスタリング処理する)と、ヒートマップが得られるというものではありません。

 

ヒートマップとクラスタリング図

これらの2つの用語は、同じような意味で使われます。しかし、厳密には少し違った意味を持っています。「ヒートマップ」のほうが、広い意味を持っていると言えます。「クラスタリング図」は、いわば、クラスタリング処理を施されたヒートマップです。よって、どちらか分からない場合は、ヒートマップと呼ぶほうが無難でしょう。

クラスタリング処理は、簡単にいうと、並べ替えです。ヒートマップ中の個々の遺伝子を、発現パターンの似ている順に並べる作業です。また、並べ方には、方向があります。サンプルを似ている順に並べるか、遺伝子を似ている順に並べるか、というものです。

例:3つのサンプルA, B, C があり、それぞれ、gene1, gene2, gene3 のシグナル値を測定したとします。

サンプルA サンプルB サンプルC
gene1 30 20 35
gene2 10 50 15
gene3 10 20 15

クラスタリング図(=クラスタリング処理したヒートマップ)

クラスタリング:サンプルを似ている順に並べ替え
クラスタリング:遺伝子を似ている順に並べ替え

両方向というパターンもあります。

クラスタリング:サンプルを似ている順に並べ替え+遺伝子を似ている順に並べ替え