Gene Ontology (GO) の分類

Gene Ontology (GO) に登録されている用語は、大きく下記の3種類にまず分類されています。

  • biological process
  • cellular component
  • molecular function

biological process

「生物学的機能」と訳されることが多いですが、分かりにくいかもしれません。例としては、アポトーシス (GO:0006915 : apoptotic process) や、細胞周期 (GO:0007049 : cell cycle) など、主に細胞内で起こるイベントが登録されています。

cellular component

細胞膜 (GO:0044425 : membrane part)、核 (GO:0005634 : nucleus)、 染色体 (GO:0005694 : chromosome) といった細胞を構成する名称が登録されています。

molecular function

MAPキナーゼ活性 (GO:0004707 : MAP kinase activity) など、分子の機能を表す用語が登録されています。biological process との区分が分かりにくいかもしれません。

 

通常、これらの区分を意識する必要はないと思います。なお、教科書や論文で使用されている用語が全てGOに登録されているとは限りません。特定の用語が GO に登録されているかどうか確認する場合は、 AmiGO で検索を行います。

 

Gene Ontology (GO) とアノテーション

Gene Ontology (GO)

オントロジー[1]とは、もともとは、工学や情報科学の分野で使用されていた考え方です。このオントロジーを使って、生物学的な言葉(単語、用語)を整理したものが Gene Ontology (GO) です。

論文などで、「GO」というと、時々、遺伝子の機能を説明するデータベースのように扱われていることもありますが、あくまで「用語集」であると理解しておいた方がよいでしょう。

GOとアノテーション

確かに、GO を使ったデータベースとして、 AmiGO などがあります。これは、GOに含まれる特定のターム(用語)に対して、それをアノテーションに持つ遺伝子を逆引きできるようにしたものです。果物を例に考えると、「赤」という用語でデータベースを検索すると、「赤」をアノテーションに持っていることが登録されている「りんご」や「いちご」が表示されるというイメージです。

アノテーションのイメージ
アノテーションのイメージ

しかし、特定の遺伝子に GO を割り当てる(関連づける)作業を AmiGO が行っているわけではありません。その作業は、MGIなどの各コンソーシアムで行われています。上記の例でいうと、「りんご」に「赤」や「丸」、「甘」、「酸」などの用語を関連づける作業(=アノテーション)となります。このとき、各自が自由な用語を使ってアノテーションを行うと、後々、整理に困ります。そこで、あらかじめ使用できる用語を限定しておき、その限定された用語(用語集)を使って、アノテーションを行うようになったのです。遺伝子にアノテーションする場合に用いる用語集が、「GO」というわけです。

[1] http://www.atmarkit.co.jp/aig/04biz/ontology.html

 

アノテーション (annotation)

アノテーションは、直訳すると、「注釈」ということになります。意味としては、「情報」や「説明」と考えた方が分かりやすいかもしれません。

マイクロアレイデータの構成」で触れたように、マイクロアレイデータをエクセルなどを用いて、テーブルとして表示させたときに、シグナル値やフラグのデータ以外に付加されている情報が「アノテーション」です。例えば、下記のようなものがあります。

  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID や、染色体上の位置情報などがあります。

個々のプローブ(遺伝子)それぞれに、これらの情報が割り当てられています。「アノテーションする」という言い方をされるときもありますが、それは、あるプローブや塩基配列に対して、これらの情報を割り当てる作業を指します。 続きを読む アノテーション (annotation)