Z-score (発現変動遺伝子を判定するもう1つの方法)

ratio (logFC) 以外に発現変動遺伝子を判定する方法として用いられるものに、 Z-score があります。あまり聞きなれない用語かもしれませんが、偏差値というとどうでしょうか?

ある値が、その群の平均値から、標準偏差 (SD) の何個ぶん離れているかを求めたものが、 Z-score です。Z-score の考え方自体は、特殊なものではありません。Z-検定 (Z-test) という使われ方もあります。(Z-score 化されるのは、logFC に限りません。例えば、 cBioPortal では、シグナル値が Z-score 化されています。)

ここで用いるのは、 logFC を Z-score 化したものです。ある logFC  が、 logFC の平均値から、標準偏差の何個ぶん離れているか計算します。

ratio (logFC) のヒストグラム

ratio (logFC) のヒストグラムを示します。データは、解析例1のものを使っています。

ratio (logFC) のヒストグラム。
ratio (logFC) のヒストグラム。

ほとんどの遺伝子の logFC が0(つまりratio=1)、変動していないことが分かるかと思います。ratio で判定するなら、 ratio > 2 または、 ratio < 0.5 を満たす部分に含まれる遺伝子を発現変動遺伝子と判定していることになります。(ヒストグラムの右側と左側)。

標準偏差と Z-score

次に、同じヒストグラムに標準偏差 (SD) と Z-score の関係を示してみます。

標準偏差とZ-scoreを示したヒストグラム。
標準偏差とZ-scoreを示したヒストグラム。

解析例1のデータ (sample2/control2) の場合、計算してみると、logFC の平均値は、ほぼ0になります。SDは、約 0.672 です。また、分布関数の考え方から、平均値から標準偏差2個分離れていれば、稀な値 (p-value < 0.05) ということになります。

したがって、 Z-score で判定する場合は、下記のようになります。

  • 増加した遺伝子: Z-score > 2
  • 減少した遺伝子: Z-score < -2

絶対値の記号を用いれば、両方を合わせて、  |Z-score| > 2 とも書けます。

追記:2SDだと、2 x 0.672 = 1.344 なので、 logFC > 1.344 であれば、 Z-score > 2 です。ratio で言い換えると、ratio > 2.54 であれば、Z-score > 2 となります。

参考

https://www.khanacademy.org/math/probability/statistics-inferential/normal_distribution/v/ck12-org-normal-distribution-problems-z-score

 

MA プロット (MA Plot)

ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。

MAプロットに用いるデータ

MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。

  • M = log2(実験サンプル) – log2(コントロールサンプル)
  • A =  { log2(実験サンプル) + log2(コントロールサンプル) } / 2

M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。

MAplot
MA プロットの例。

作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: redG: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。

続きを読む MA プロット (MA Plot)

 

ratioのヒストグラム

シグナル値そのものを書く以外に、ヒストグラムには便利な使い方があります。それは、ratio のヒストグラムです。まず、2サンプルのシグナル値から、ratio を計算します。対応するプローブ(遺伝子)ごとに、実験群のシグナル値をコントロールのシグナル値で割ることで算出できます。そして、シグナル値の代わりに、算出された ratio でヒストグラムを作成してみましょう。横軸に ratio の大きさ、縦軸に一定の区間のratioとなる遺伝子の個数を表します。また、横軸は対数目盛とします。シグナル値の場合と異なり、ratioのヒストグラムの形状としては、真ん中に高い山があり、左右の端にかけて、低くなる形状となります。

ratio のヒストグラム

真ん中の山は、ratio が1に近いことを表します。左右に分布しているのは、ratio が1以上、または、1以下ということですから、どちらかのサンプルでシグナル値が高いか、または低いということです。真ん中の山が高いことから、ほとんどの遺伝子で ratio が1付近、つまり、発現変動していない、ということが分かります。また、左右につれて山が低くなることから、大きく増減する遺伝子ほど、存在する数が少ないということが分かります。

さらに、真ん中付近の山の度数を足すと、どれくらいの遺伝子が発現変動していないか分かります。サンプルにも依りますが、ほとんどのケースで、3万個以上の遺伝子において、発現変動が見られない(0.5 < ratio < 2)ことが多いです。発現変動したと判定される遺伝子は、たかだか数千個です。

 

マイクロアレイデータを見てみよう (3): ヒストグラム

ヒストグラム(histogram, 度数分布)

シグナル値の分布に偏りがあるかどうかは、ヒストグラムを書いてみると分かります。ヒストグラムでは、横軸にシグナル値の大きさ、縦軸に一定のシグナル値の区間に存在するプローブ(遺伝子)の数を表します。また、普通の等間隔の目盛では見づらいため、横軸に対数目盛を用います。



シグナル値のヒストグラム

図:シグナル値のヒストグラム:普通の目盛(左)と対数目盛(右)。左の横軸は指数表示になっているが、0, 100000, 200000, 300000, 400000, 500000 ということ。同じデータを使用*[1]。

 

マイクロアレイデータのヒストグラムは、おおむね図のような形状になります。(メーカーによって、若干の違いはあります。)シグナル値が、かなり低いところに大きな尖った山ができます。また、その右側は比較的なだらかな山が、シグナル値が数十万となるところまで続きます。
尖った山は、この部分に分布している遺伝子の数が極端に多いことを意味します。だいたい、4万個の遺伝子中、約1万個の遺伝子が、この部分に含まれるケースが多いです。ここに含まれる遺伝子のシグナル値は、1桁から2桁程度であり、マイクロアレイにより検出されていない*[2]可能性が高い遺伝子です。シグナル値が低くても、マイクロアレイデータから発現していないと言い切ることはできません*[3]。しかしながら、イメージとして、どのような細胞であっても、その中で1万遺伝子程度は、発現していないというのは生物学的に自然なことではないでしょうか。
右側の比較的なだらかな山は、残りの3万個程度の遺伝子が、数百から数十万までの区間に広く分布していることを意味します。通常、この部分に偏りは少なく、シグナル値の高い区間になるほど、そこに分布する遺伝子の数は、少なくなっていきます。つまり、マイクロアレイでは、高いシグナル値になるほど、稀な値だということです。

 

ヒストグラムから分かること

シグナル値の分布の偏りが分かります。検出されていない遺伝子の山以外の比較的なだらかな部分に、極端に高い凹凸があれば、データのクオリティが疑われます。

 

ヒストグラムから分からないこと

特定の遺伝子に発現変動があるかどうかは、ヒストグラムからも判別できません。(それには、散布図を用います。)ヒストグラムは、1サンプルに1つ書けますが、ボックスプロットのように複数のサンプルを並べて同時に比較することには向きません。

 

ここまでのまとめ

ボックスプロットとヒストグラムから、シグナル値が低い部分に集中している形状を取るのが、マイクロアレイデータの特性と言えます。1桁から数十万まで幅広い値を取ります。また、約4分の1程度は、検出されず、検出された遺伝子も数百程度のシグナル値のものまでが75%を占め、高い値を示すのは残りの1万個程度です。そのため、マイクロアレイデータの解析結果は、これらの事実を考慮した上で、見ていく必要があります。(マイクロアレイは、このようなバイアスを持った測定手法だということが、前提となります。)マイクロアレイデータは、その特性上、発現レベルが低く、微妙な発現変動を示す遺伝子の検出には向かないと考えられます。


[1] GSM830131
[2] 検出されたかどうかは、データにフラグがあれば、その判定を見ます。
[3] シグナル値が低い場合であっても、リアルタイムPCRなど、マイクロアレイより測定精度の高いとされる他の手法では、検出される可能性があります。