アノテーション (annotation)

アノテーションは、直訳すると、「注釈」ということになります。意味としては、「情報」や「説明」と考えた方が分かりやすいかもしれません。

「マイクロアレイデータの構成」で触れたように、マイクロアレイデータをエクセルなどを用いて、テーブルとして表示させたときに、シグナル値やフラグのデータ以外に付加されている情報が「アノテーション」です。例えば、下記のようなものがあります。

GeneSymbol: プローブのコードする遺伝子（以下、単に遺伝子）の公式な略称 (Official Gene Symbol) です。例：p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
Description: 遺伝子の機能などの説明文です。例：Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例：GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例：7157
その他：GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID や、染色体上の位置情報などがあります。

個々のプローブ（遺伝子）それぞれに、これらの情報が割り当てられています。「アノテーションする」という言い方をされるときもありますが、それは、あるプローブや塩基配列に対して、これらの情報を割り当てる作業を指します。

アノテーションに用いられる情報は、NCBIやMGIなどのデータベースに登録されている情報が元（ソース）になっています。そして、これらのデータベースは、日々更新され続けています。そのため、すでにアノテーションが付加されているプローブであったとしても、アノテーションされた情報の更新が必要になる場合があります（re-annotation）。GeneSymbol が変更されるケースもあります。配列情報をもとに、公的データベースから最新のアノテーション情報を取得することも可能ですが、マイクロアレイデータについては、各メーカーがアノテーションの情報を公開しているため、それを利用できます。(Affymetrix であれば、 NetAffx から、Agilent であれば、eArray から取得できます。）

アノテーションの中で、よく利用されるのは、「GO」と呼ばれる情報でしょう。GOは、Gene Ontology の略称です。正確には、GOはデータベースではありません。用語集といったほうが適切と思います。分子生物学で用いられる用語（単語）を系統立てて整理したものが、「GO」です。例えば、「核内」、「転写活性」、「細胞周期」などの用語があります。これらの用語を複数アノテーションすることで、1つの遺伝子の機能を説明できます（必ずしも詳細な説明になっているとは限りませんが）。アノテーションのGO欄に特定の用語を持つものを検索することで、特定の機能の遺伝子だけを、マイクロアレイデータから抽出できます。

投稿者:

Atsushi Doi

コメントを残す

関連記事:

投稿者:

Atsushi Doi

コメントを残す