アノテーション (annotation)

アノテーションは、直訳すると、「注釈」ということになります。意味としては、「情報」や「説明」と考えた方が分かりやすいかもしれません。

マイクロアレイデータの構成」で触れたように、マイクロアレイデータをエクセルなどを用いて、テーブルとして表示させたときに、シグナル値やフラグのデータ以外に付加されている情報が「アノテーション」です。例えば、下記のようなものがあります。

  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID や、染色体上の位置情報などがあります。

個々のプローブ(遺伝子)それぞれに、これらの情報が割り当てられています。「アノテーションする」という言い方をされるときもありますが、それは、あるプローブや塩基配列に対して、これらの情報を割り当てる作業を指します。

アノテーションに用いられる情報は、NCBIMGIなどのデータベースに登録されている情報が元(ソース)になっています。そして、これらのデータベースは、日々更新され続けています。そのため、すでにアノテーションが付加されているプローブであったとしても、アノテーションされた情報の更新が必要になる場合があります(re-annotation)。GeneSymbol が変更されるケースもあります。配列情報をもとに、公的データベースから最新のアノテーション情報を取得することも可能ですが、マイクロアレイデータについては、各メーカーがアノテーションの情報を公開しているため、それを利用できます。(Affymetrix であれば、 NetAffx から、Agilent であれば、eArray から取得できます。)

GOによるアノテーションのイメージ

アノテーションの中で、よく利用されるのは、「GO」と呼ばれる情報でしょう。GOは、Gene Ontology の略称です。正確には、GOはデータベースではありません。用語集といったほうが適切と思います。分子生物学で用いられる用語(単語)を系統立てて整理したものが、「GO」です。例えば、「核内」、「転写活性」、「細胞周期」などの用語があります。これらの用語を複数アノテーションすることで、1つの遺伝子の機能を説明できます(必ずしも詳細な説明になっているとは限りませんが)。アノテーションのGO欄に特定の用語を持つものを検索することで、特定の機能の遺伝子だけを、マイクロアレイデータから抽出できます。

 

投稿者:

Atsushi Doi

株式会社セルイノベーター 取締役、研究開発部部長。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

コメントを残す

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください