アノテーション (annotation)

アノテーションは、直訳すると、「注釈」ということになります。意味としては、「情報」や「説明」と考えた方が分かりやすいかもしれません。

マイクロアレイデータの構成」で触れたように、マイクロアレイデータをエクセルなどを用いて、テーブルとして表示させたときに、シグナル値やフラグのデータ以外に付加されている情報が「アノテーション」です。例えば、下記のようなものがあります。

  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID や、染色体上の位置情報などがあります。

個々のプローブ(遺伝子)それぞれに、これらの情報が割り当てられています。「アノテーションする」という言い方をされるときもありますが、それは、あるプローブや塩基配列に対して、これらの情報を割り当てる作業を指します。 続きを読む アノテーション (annotation)

 

マイクロアレイデータを見てみよう (4): 散布図

発現変動のある遺伝子が、どの程度存在しているか、大まかに把握したい場合は、「散布図」を用います。散布図は、ボックスプロットヒストグラムと違い、1つの散布図を作成するのに、2サンプルのデータが必要です。横軸、縦軸とも、シグナル値を表します。横軸に1つのサンプルのシグナル値を用い、縦軸にもう一方のサンプルのシグナル値を用います。また、ボックスプロットやヒストグラムと同様に、見やすくするため、マイクロアレイデータでは対数目盛を用います。



散布図の例

図:左は普通の目盛。右は対数目盛。普通の目盛は、等間隔であるため、シグナル値の低い部分が見づらい。マイクロアレイデータでは、散布図に右のような対数目盛を用いる。同じデータを使用*[1]。

2サンプルのデータを用いるので、特定のプローブ(遺伝子)に対して、シグナル値は2個あります。その2個のシグナル値の一方を横軸(=x軸)の値として使用し、もう一方を縦軸(=y軸)の値として使用します。つまり、2個シグナル値を、x座標とy座標として、1つの点としてプロットします。例えば、WTとKOの2つのサンプルがあり、遺伝子AのWTのシグナル値が100で、KOのシグナル値が200なら、(x, y) = (100, 200) という座標に点を1つ書きます。したがって、4万個の遺伝子について、同様のことを行うと、4万個の点が書けます。この点のパターンを見るのが散布図です。

遺伝子Aのテーブル。

ProbeID(Gene) WT KO
A 100 200

シグナル値と座標の関係から分かるように、同一サンプルで散布図を作成すると、y=x に沿った線ができます。(xとyが、4万個の遺伝子で常に同じだからです。)つまり、発現変動していない遺伝子は、xとyの大きさが近いため、y=x付近にプロットされることになります。実際に、異なる2サンプルの散布図を見ると、左下から右上にかけて(y=x)、プロットされているように見えます。したがって、「ほとんどの遺伝子が発現変動していない」ということが、視覚的に確認できます。どのメーカーのマイクロアレイを使用しても、散布図の形状は、おおむねこのような形状となります。

同一サンプル、繰り返しサンプルの散布図。



図:左、同一サンプルの散布図。右、繰り返しサンプルの散布図。

散布図は、ボックスプロットやヒストグラムに比べ、エクセルでも比較的簡単に書くことができます(対数目盛にもできます)。ほかの2つが書けない場合でも、散布図だけは見ておいたほうがいいでしょう。

散布図から分かること

上記の例の遺伝子Aのように、一方のサンプルで高い(または低い)遺伝子は、y=xから外れたところにプロットされます。場所としては、左上や右下に位置します。左上にプロットされた遺伝子は、横軸としたサンプルで低く、縦軸としたサンプルで高いことを意味します。逆に、右下にプロットされた遺伝子は、横軸としたサンプルで高く、縦軸としたサンプルで低いということです。
使用する2サンプルのマイクロアレイデータの分布が異なる場合、左上と右下のどちらかに偏って、点が分布していることが多いです。通常、正規化されたデータであれば、その偏りは見られません。(増加した遺伝子と減少した遺伝子の数がほぼ同じ。)
正規化後であっても、点の分布に著しく偏りがある場合は、サンプルのクオリティが疑われることもあります。

また、同一サンプルの場合、直線になることから、繰り返しサンプル(n=3など)の2サンプルで散布図を作成した場合、細いほうが理想的と言えます。太ければ、繰り返しサンプル内で、発現変動している遺伝子が数多く存在するということです。

対照的に、がん患者のサンプルのように、個体差も大きく、細胞の状態も異なると考えられる2サンプルで散布図を作成すると、太く、全体的に広がった散布図が得られます。

散布図から分からないこと

点の数が4万個と多いため、重なって表示される点も多いです。そのため、ある点がどの遺伝子を指すのか、散布図から特定するのは難しいです。また、発現変動している遺伝子の数が、具体的に何個か数えることも大変です。

まとめ

まとめると図のようになります。

散布図の表すもの。


[1] GSM830131, GSM830137

 

マイクロアレイデータを見てみよう (3): ヒストグラム

ヒストグラム(histogram, 度数分布)

シグナル値の分布に偏りがあるかどうかは、ヒストグラムを書いてみると分かります。ヒストグラムでは、横軸にシグナル値の大きさ、縦軸に一定のシグナル値の区間に存在するプローブ(遺伝子)の数を表します。また、普通の等間隔の目盛では見づらいため、横軸に対数目盛を用います。



シグナル値のヒストグラム

図:シグナル値のヒストグラム:普通の目盛(左)と対数目盛(右)。左の横軸は指数表示になっているが、0, 100000, 200000, 300000, 400000, 500000 ということ。同じデータを使用*[1]。

 

マイクロアレイデータのヒストグラムは、おおむね図のような形状になります。(メーカーによって、若干の違いはあります。)シグナル値が、かなり低いところに大きな尖った山ができます。また、その右側は比較的なだらかな山が、シグナル値が数十万となるところまで続きます。
尖った山は、この部分に分布している遺伝子の数が極端に多いことを意味します。だいたい、4万個の遺伝子中、約1万個の遺伝子が、この部分に含まれるケースが多いです。ここに含まれる遺伝子のシグナル値は、1桁から2桁程度であり、マイクロアレイにより検出されていない*[2]可能性が高い遺伝子です。シグナル値が低くても、マイクロアレイデータから発現していないと言い切ることはできません*[3]。しかしながら、イメージとして、どのような細胞であっても、その中で1万遺伝子程度は、発現していないというのは生物学的に自然なことではないでしょうか。
右側の比較的なだらかな山は、残りの3万個程度の遺伝子が、数百から数十万までの区間に広く分布していることを意味します。通常、この部分に偏りは少なく、シグナル値の高い区間になるほど、そこに分布する遺伝子の数は、少なくなっていきます。つまり、マイクロアレイでは、高いシグナル値になるほど、稀な値だということです。

 

ヒストグラムから分かること

シグナル値の分布の偏りが分かります。検出されていない遺伝子の山以外の比較的なだらかな部分に、極端に高い凹凸があれば、データのクオリティが疑われます。

 

ヒストグラムから分からないこと

特定の遺伝子に発現変動があるかどうかは、ヒストグラムからも判別できません。(それには、散布図を用います。)ヒストグラムは、1サンプルに1つ書けますが、ボックスプロットのように複数のサンプルを並べて同時に比較することには向きません。

 

ここまでのまとめ

ボックスプロットとヒストグラムから、シグナル値が低い部分に集中している形状を取るのが、マイクロアレイデータの特性と言えます。1桁から数十万まで幅広い値を取ります。また、約4分の1程度は、検出されず、検出された遺伝子も数百程度のシグナル値のものまでが75%を占め、高い値を示すのは残りの1万個程度です。そのため、マイクロアレイデータの解析結果は、これらの事実を考慮した上で、見ていく必要があります。(マイクロアレイは、このようなバイアスを持った測定手法だということが、前提となります。)マイクロアレイデータは、その特性上、発現レベルが低く、微妙な発現変動を示す遺伝子の検出には向かないと考えられます。


[1] GSM830131
[2] 検出されたかどうかは、データにフラグがあれば、その判定を見ます。
[3] シグナル値が低い場合であっても、リアルタイムPCRなど、マイクロアレイより測定精度の高いとされる他の手法では、検出される可能性があります。

 

マイクロアレイデータを見てみよう (2): ボックスプロット

数字(シグナル値)が4万行並んだ構造であるマイクロアレイデータを漠然と眺めていても、なかなかイメージはつかみにくいでしょう。そこで、ボックスプロット、ヒストグラム、散布図などの図にすることで、データ全体のイメージをつかむことができます。

 

ボックスプロット(boxplot, 箱ひげ図)

まず、ボックスプロットの例を示します。ボックスプロットは、箱ひげ図とも呼ばれます。シグナル値を点で表し(プロット)、最も小さいものから最も大きいものまで、縦に並べたような図です。一般的に、シグナル値は、最小のものが1桁程度、最大のものが数十万の値となります。そのまま、表示すると見づらいため、縦軸の座標は対数目盛が用いられます。たとえば、1, 10, 100, 1000, 10000, 100000などです。もしくは、log変換された値で表示されます。(その場合の目盛は、2, 3, 4, 5, 6, …,など。)なお、最小値、最大値は、点ではなく、短い横線で表されます*[1]。



ボックスプロットの例

図:ボックスプロットの例。普通の目盛(左)と対数目盛(右)。同じデータ*[2]を使用。

 

また、4万個の数字を、4万個の点で表してもよいのですが、ボックスプロットの名の示すように、点が集中している部分は、ボックス(箱)として表現されます。箱の下端と上端には意味があり、下端は、25パーセンタイル、上端は、75パーセンタイルを表します。すなわち、最小値から箱の下端までの区間に全体の25パーセントのシグナル値が存在し、箱の上端までの区間に75パーセントのシグナル値が存在するということです。さらに箱の中央に横線があり、これが50パーセンタイル(=中央値)を示します。

 

ボックスプロットから分かる事

ボックスプロットは、1サンプルにつき、1つ書きます。マイクロアレイデータは、1桁から数十万まで、幅広い値を持つことが見て取れると思います。また、箱の位置と大きさから、大多数のシグナル値(遺伝子)が数十から数百と低い値を持つ事も分かります。箱が75パーセンタイルなので、4万遺伝子中、3万遺伝子のシグナル値は、それほど大きくない*[3]ということです。

 

2サンプルのボックスプロット

図:2サンプルのボックスプロット。

複数サンプルがある場合は、それぞれのボックスプロットを横に並べて比較することになります。サンプルによって、最小値も最大値も異なることが分かります。また、中央値や箱の位置も異なっています。ただ、箱の大きさは、それほど変わらないことも分かります。これがどのような状態を意味しているかというと、サンプルによって、データが全体的に上(または下)にシフトしているということです。大きく上下にずれているサンプルどうしで ratio を計算すると、どの遺伝子の ratio も高い(または低い)という結果になってしまいます。そのため、ratio の計算の前に「正規化」という作業が必要になってきます。

また、サンプルの状態が悪いときは、箱の大きさが小さかったり、全体的に大きく下にシフトしていたりすることがあります。これもボックスプロットを書くことで確認できます。

 

ボックスプロットから分からないこと

シグナル値の分布に偏りがあるかどうかは、ボックスプロットから分かりません。また、特定の遺伝子に発現変動があるかどうかもボックスプロットから判定できません。これらを見るためには、マイクロアレイデータを別の図で表現してみる必要があります。

 

[1] 集団から外れている値があれば、横線の外側にプロットされます。
[2] GSM830131
[3] 発現していないということではありません。

 

マイクロアレイデータを見てみよう (1): エクセルで表示

マイクロアレイデータの構成

以前の投稿で述べたように、マイクロアレイデータの表示方法には、下記のようなものがあります。

  • テーブル形式で表示(エクセル)
  • ヒストグラム
  • ボックスプロット
  • 散布図
  • MAプロット

まず、エクセルで開いてみましょう(参考)。マイクロアレイデータは、主に下記の項目から構成されています。(Agilent 社のマイクロアレイを例として用いています。)

  • ProbeName (ProbeID): マイクロアレイ上のプローブのIDです。重複しません。例:A_23_P26810, A_33_P3315764 など。
  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • サンプル名(シグナル値): サンプル名で示された列に、シグナル値を表示することが多いです。例:WT, KO など。任意の名称です。
  • フラグ:Absent (A), Marginal (M), Present (P) のフラグです。そのプローブによって、対象の遺伝子が検出できたかどうか判定したものです。コールとも呼ばれます。(メーカーによっては、フラグがない場合もあります。)
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID があります。

マイクロアレイデータは、1行に1プローブの情報が記録されています。これが、プローブの数だけ、縦に並んだ構造となっています。例えば、4万プローブを搭載したマイクロアレイの結果は、4万行のデータとなります。1行目にヘッダーと呼ばれる項目名の行があります。なお、ヘッダーより前の行に各種のパラメーターや情報が記載されている場合があります。列の並び(横の並び)は、自由なため、上記の項目の順に並んでいるとは限りません。また、行の並びも特に決まった順序がありません。ProbeID の順や、GeneSymbol の順(アルファベット順)、ratio の大きい順などの順で並べ替えられて(ソートされて)いることがあります。

 

マイクロアレイデータ

このうち、マイクロアレイデータの解析において、最低限必要なのは、「ProbeID」、「シグナル値」の2つの項目です。これ以外の情報はすべて、いわゆる、「アノテーション」と呼ばれる情報です。ProbeIDさえあれば、それに関連づけされた(annotateされた)アノテーションは、すべてデータベースから取得可能です。また、ヘッダーより上の情報も通常、解析に用いることはありません。

 

マイクロアレイデータ(最小構成)

アノテーションの情報が含まれていると、難しそうに見えますが、マイクロアレイ解析に用いる純粋なデータは、行数が多いものの、数字が並んでいるだけの単純な構造となっています。