ヒートマップの色づけ (6): 中央値からの距離とシグナル値の関係

log変換した後、さらに、中央値(または平均値でも可)の距離に変換することで、コントロール群と実験群の差が見えやすくなります。このとき、もとのシグナル値との関係はどうなっているでしょうか?

中央値からの距離に変換したヒートマップ。
中央値からの距離に変換したヒートマップ。

シグナル値が異なる複数の遺伝子を色づけ

上記は、2つの遺伝子のシグナル値を、中央値からの距離に変換して色付けした場合の例です。中央値は、それぞれの遺伝子ごとに算出します。つまり、 Gene A の中央値は、4.5 であり、 Gene B の中央値は、9.5 です。それぞれの中央値を使って、距離を求めます。

したがって、 Gene A の WT1 は、 4 – 4.5 = -0.5 となり、 Gene B の WT1 は、9 – 9.5 = -0.5 となります。同様にすべてのサンプルについて算出し、色づけします。凡例にあるように、色づけの基準は、1つで複数の遺伝子に対応できます。

結果として、どちらも WT は -0.5 、 KO は、 +0.5 となり、色づけは、 Gene A も Gene B も同じパターンになります。

もとのシグナル値の高低に注意

このように、中央値からの距離に変換した場合、コントロール群と実験群の差は分かりやすくなりますが、 各遺伝子のシグナル値の高低は分からなくなります。

よって、ヒートマップからは、一見、差があるように見えても、マイクロアレイデータからシグナル値を確認すると、低い部分の変化であることもあります。シグナル値が低い場合は、ノイズである可能性もあるので、重要な遺伝子であれば、ヒートマップの色だけで判断せずに、もとの数値をチェックした方がよいでしょう。

 

主流メーカー (Affymetrix, Agilent) のマイクロアレイ製品の特徴

近年の使用されている主なマイクロアレイ製品のメーカーとして、 Affymetrix, Agilent の2社があります。それぞれのメーカーの製品の主な特徴をあげます。 続きを読む 主流メーカー (Affymetrix, Agilent) のマイクロアレイ製品の特徴

 

ヒートマップの色づけ (5): 中央値からの距離に変換して色付け

「コントロールで低いところは、実験群で高いところは」のように色づけするには、 log変換した後、さらに、中央値からの距離に変換することが必要です。

中央値からの距離

中央値 (median) は、文字通り、真ん中の値です。例の場合、6サンプルのシグナル値は、9から10の間に分布しています。よって、その真ん中である 9.5 が中央値となります。(奇数サンプルの場合は、平均を取る必要はありません。5サンプルなら、3番目に大きい値が中央値です。)

中央値からの距離は、単純に「差」を取ればよいです。例えば、WT1のシグナル値は、9なので、9-9.5 = -0.5 となります。同様にKO1のシグナル値は、10-9.5 = 0.5 です。

中央値からの距離で色づけ。
中央値からの距離で色づけ。

中央値からの距離で色づけ

中央値からの距離に変換したら、色づけします。「どのくらいの差を何色にするか」は作者が決めます。ここでは、-1であれば、、+1であれば、としました。中央値からの距離なので、必然的に中央値に該当するものが、真ん中=となります。どのような色づけにしているかは、必ず凡例を付けましょう。

MeV の使い方で紹介している色づけ方法は、この作業を意味しています。

ここでは、一例として、中央値を使いました。これ以外に、平均値を使う場合もあります。また、標準偏差を求めて、平均値からSD何個分離れているか、という値に変換する場合もあります。