アノテーションは、直訳すると、「注釈」ということになります。意味としては、「情報」や「説明」と考えた方が分かりやすいかもしれません。
「マイクロアレイデータの構成」で触れたように、マイクロアレイデータをエクセルなどを用いて、テーブルとして表示させたときに、シグナル値やフラグのデータ以外に付加されている情報が「アノテーション」です。例えば、下記のようなものがあります。
- GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
- Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
- GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
- EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
- その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID や、染色体上の位置情報などがあります。
個々のプローブ(遺伝子)それぞれに、これらの情報が割り当てられています。「アノテーションする」という言い方をされるときもありますが、それは、あるプローブや塩基配列に対して、これらの情報を割り当てる作業を指します。
アノテーションに用いられる情報は、NCBIやMGIなどのデータベースに登録されている情報が元(ソース)になっています。そして、これらのデータベースは、日々更新され続けています。そのため、すでにアノテーションが付加されているプローブであったとしても、アノテーションされた情報の更新が必要になる場合があります(re-annotation)。GeneSymbol が変更されるケースもあります。配列情報をもとに、公的データベースから最新のアノテーション情報を取得することも可能ですが、マイクロアレイデータについては、各メーカーがアノテーションの情報を公開しているため、それを利用できます。(Affymetrix であれば、 NetAffx から、Agilent であれば、eArray から取得できます。)

アノテーションの中で、よく利用されるのは、「GO」と呼ばれる情報でしょう。GOは、Gene Ontology の略称です。正確には、GOはデータベースではありません。用語集といったほうが適切と思います。分子生物学で用いられる用語(単語)を系統立てて整理したものが、「GO」です。例えば、「核内」、「転写活性」、「細胞周期」などの用語があります。これらの用語を複数アノテーションすることで、1つの遺伝子の機能を説明できます(必ずしも詳細な説明になっているとは限りませんが)。アノテーションのGO欄に特定の用語を持つものを検索することで、特定の機能の遺伝子だけを、マイクロアレイデータから抽出できます。