マイクロアレイデータを見てみよう (2): ボックスプロット

数字(シグナル値)が4万行並んだ構造であるマイクロアレイデータを漠然と眺めていても、なかなかイメージはつかみにくいでしょう。そこで、ボックスプロット、ヒストグラム、散布図などの図にすることで、データ全体のイメージをつかむことができます。

 

ボックスプロット(boxplot, 箱ひげ図)

まず、ボックスプロットの例を示します。ボックスプロットは、箱ひげ図とも呼ばれます。シグナル値を点で表し(プロット)、最も小さいものから最も大きいものまで、縦に並べたような図です。一般的に、シグナル値は、最小のものが1桁程度、最大のものが数十万の値となります。そのまま、表示すると見づらいため、縦軸の座標は対数目盛が用いられます。たとえば、1, 10, 100, 1000, 10000, 100000などです。もしくは、log変換された値で表示されます。(その場合の目盛は、2, 3, 4, 5, 6, …,など。)なお、最小値、最大値は、点ではなく、短い横線で表されます*[1]。



ボックスプロットの例

図:ボックスプロットの例。普通の目盛(左)と対数目盛(右)。同じデータ*[2]を使用。

 

また、4万個の数字を、4万個の点で表してもよいのですが、ボックスプロットの名の示すように、点が集中している部分は、ボックス(箱)として表現されます。箱の下端と上端には意味があり、下端は、25パーセンタイル、上端は、75パーセンタイルを表します。すなわち、最小値から箱の下端までの区間に全体の25パーセントのシグナル値が存在し、箱の上端までの区間に75パーセントのシグナル値が存在するということです。さらに箱の中央に横線があり、これが50パーセンタイル(=中央値)を示します。

 

ボックスプロットから分かる事

ボックスプロットは、1サンプルにつき、1つ書きます。マイクロアレイデータは、1桁から数十万まで、幅広い値を持つことが見て取れると思います。また、箱の位置と大きさから、大多数のシグナル値(遺伝子)が数十から数百と低い値を持つ事も分かります。箱が75パーセンタイルなので、4万遺伝子中、3万遺伝子のシグナル値は、それほど大きくない*[3]ということです。

 

2サンプルのボックスプロット

図:2サンプルのボックスプロット。

複数サンプルがある場合は、それぞれのボックスプロットを横に並べて比較することになります。サンプルによって、最小値も最大値も異なることが分かります。また、中央値や箱の位置も異なっています。ただ、箱の大きさは、それほど変わらないことも分かります。これがどのような状態を意味しているかというと、サンプルによって、データが全体的に上(または下)にシフトしているということです。大きく上下にずれているサンプルどうしで ratio を計算すると、どの遺伝子の ratio も高い(または低い)という結果になってしまいます。そのため、ratio の計算の前に「正規化」という作業が必要になってきます。

また、サンプルの状態が悪いときは、箱の大きさが小さかったり、全体的に大きく下にシフトしていたりすることがあります。これもボックスプロットを書くことで確認できます。

 

ボックスプロットから分からないこと

シグナル値の分布に偏りがあるかどうかは、ボックスプロットから分かりません。また、特定の遺伝子に発現変動があるかどうかもボックスプロットから判定できません。これらを見るためには、マイクロアレイデータを別の図で表現してみる必要があります。

 

[1] 集団から外れている値があれば、横線の外側にプロットされます。
[2] GSM830131
[3] 発現していないということではありません。

 

投稿者:

Atsushi Doi

株式会社セルイノベーター、主任研究員。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

「マイクロアレイデータを見てみよう (2): ボックスプロット」への1件のフィードバック

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください