カテゴリー別アーカイブ: GO

Gene Ontology (GO) とアノテーション

Gene Ontology (GO)

オントロジー[1]とは、もともとは、工学や情報科学の分野で使用されていた考え方です。このオントロジーを使って、生物学的な言葉(単語、用語)を整理したものが Gene Ontology (GO) です。

論文などで、「GO」というと、時々、遺伝子の機能を説明するデータベースのように扱われていることもありますが、あくまで「用語集」であると理解しておいた方がよいでしょう。

GOとアノテーション

確かに、GO を使ったデータベースとして、 AmiGO などがあります。これは、GOに含まれる特定のターム(用語)に対して、それをアノテーションに持つ遺伝子を逆引きできるようにしたものです。果物を例に考えると、「赤」という用語でデータベースを検索すると、「赤」をアノテーションに持っていることが登録されている「りんご」や「いちご」が表示されるというイメージです。

アノテーションのイメージ

アノテーションのイメージ

しかし、特定の遺伝子に GO を割り当てる(関連づける)作業を AmiGO が行っているわけではありません。その作業は、MGIなどの各コンソーシアムで行われています。上記の例でいうと、「りんご」に「赤」や「丸」、「甘」、「酸」などの用語を関連づける作業(=アノテーション)となります。このとき、各自が自由な用語を使ってアノテーションを行うと、後々、整理に困ります。そこで、あらかじめ使用できる用語を限定しておき、その限定された用語(用語集)を使って、アノテーションを行うようになったのです。遺伝子にアノテーションする場合に用いる用語集が、「GO」というわけです。

[1] http://www.atmarkit.co.jp/aig/04biz/ontology.html

 

Gene Ontology (GO) の分類

Gene Ontology (GO) に登録されている用語は、大きく下記の3種類にまず分類されています。

  • biological process
  • cellular component
  • molecular function

biological process

「生物学的機能」と訳されることが多いですが、分かりにくいかもしれません。例としては、アポトーシス (GO:0006915 : apoptotic process) や、細胞周期 (GO:0007049 : cell cycle) など、主に細胞内で起こるイベントが登録されています。

cellular component

細胞膜 (GO:0044425 : membrane part)、核 (GO:0005634 : nucleus)、 染色体 (GO:0005694 : chromosome) といった細胞を構成する名称が登録されています。

molecular function

MAPキナーゼ活性 (GO:0004707 : MAP kinase activity) など、分子の機能を表す用語が登録されています。biological process との区分が分かりにくいかもしれません。

 

通常、これらの区分を意識する必要はないと思います。なお、教科書や論文で使用されている用語が全てGOに登録されているとは限りません。特定の用語が GO に登録されているかどうか確認する場合は、 AmiGO で検索を行います。

 

Gene Ontology (GO) の階層構造

GO の階層構造

整理するために階層構造になっています。用語と用語に親子関係があるとも言えます。例えば、「細胞」の中に「細胞内領域」があり、「細胞内領域」の中に「核」があり、「核」の中に「染色体」があるといった具合です。

これらの用語の階層構造は、 AmiGO の Tree Browser で見ることができます。

GO の Tree Browser 表示。

階層構造の上位の用語ほど、あいまいな用語になっています。また、下位のものほど、より意味の限定された用語になっています。用語に親子関係があると何が便利かというと、階層構造をたどることで、あいまいな用語でまとめて検索ができる点です。

例えば、アポトーシス促進 (GO:0043065 positive regulation of apoptotic process) と、アポトーシス抑制 (GO:0043066 negative regulation of apoptotic process) は、その共通の親であるアポトーシス作用 (GO:0006915 apoptotic process) という用語でまとめて検索できます。

GOの階層構造は、Directed acyclic graph (DAG) という特殊な階層構造で、親を複数持つことができます。しかし、マイクロアレイデータのアノテーションを扱う上で、特に意識する必要はないと思います。

 

AmiGO を使った Gene Ontology (GO) の検索

GOの検索

AmiGO では、特定の用語(キーワード)が GO に登録されているかどうかの検索が行えます。ボックスに検索したい用語を入力し、「送信」ボタンをクリックします。

検索画面

 

下図のような検索結果が表示されます。必ずしも検索した単語が登録されているとは限らないため、その単語を含む用語や、似ている用語、シノニムなどが表示されます。検索結果の各用語の右側に表示されている xxxx gene products は、その用語をアノテーションに持つ遺伝子の数です。この例の場合、 アポトーシス抑制 (GO:0043066 negative regulation of apoptotic process) をアノテーションに持つ遺伝子が、3579個存在するということが示されています。(標準のフィルター無しの設定では、すべての生物種における結果の合計値です。)

検索結果

 

AmiGO を使った Gene Ontology (GO) の検索(結果の表示と取得)

検索結果の表示と取得

用語の検索結果の画面において、用語の右側に表示された遺伝子数をクリックすることで、その用語をアノテーションに持つ遺伝子の一覧を表示できます。このとき、遺伝子数が多い場合は一覧が表示されません。生物種を選択して、フィルターをかける必要があります。

検索結果とフィルター

一覧が表示されます。この結果をファイルとして保存するには、 “gene association format” をクリックします。こうして取得されたリストは、マイクロアレイデータを解析する際に役立ちます。

検索結果の取得。

検索結果には、選択した用語(例の場合は、GO:0043066 negative regulation of apoptotic process)と、その子供の用語をアノテーションに持つ遺伝子も含まれています。例の場合、GO:0071866 negative regulation of apoptotic process in bone marrow をアノテーションに持つ2個の遺伝子が含まれています。

子供の用語を含む結果。

 

Gene Ontology (GO) の得意、不得意

GOを使うと何でも解析できるというわけではありません。GOには、その構造上、得意な点と不得意な点があります。

GOの得意な点

マイクロアレイ解析の結果から、特定の用語(機能、キーワード)を持つ遺伝子だけを取り出せます。マイクロアレイ解析の結果を表示したエクセルのGOの列を検索すればよいです。または、AmiGO で、GOの特定の用語を持つ遺伝子のリストをあらかじめ取得しておき、遺伝子名を検索する方法もあります。(探したい遺伝子が1個か2個なら、よいのですが、大量に検索するときは、データを一度データベースに登録して、SQL言語を利用するなど、情報処理の技術を使うことをお勧めします。人的ミスを防げますし、時間がかかりません。ご相談ください。

GOの不得意な点

当然ながら、GOに登録されていない用語(機能、キーワード)を扱うことができません。例えば、 “apoptosis” ではなく、 “apoptotic process” でなければなりません。”response to tumor necrosis factor” (GO:0034612) はありますが、 “tumorigenesis” はありません。”oncogenesis” という用語も現在は使われていません。流行の stemness genes はありませんが、 “stem cell differentiation” (GO:0048863) はあります。

よく使われる用語であっても、意外と登録されていなかったりします。(登録されていない原因はいろいろです。言い換えができたり、GOの思想と合わないなど。)この場合は、単語を区切るなり、別のいい方を考えたり、もっと細かいプロセスに分解して考える必要があります。

“tumorigenesis” の例でいえば、GOの用語中に “tumor” を含むものすべてという選び方をする必要があります。また、転移 (metastasis) に関連する遺伝子を選びたいとしても、 GO に “metastasis” はありませんので、GO:0051726 : regulation of cell cycle と GO:0007155 : cell adhesion と GO:0042379 : chemokine receptor binding というように複数のプロセスに分けて考え、それらをGOに持つものすべてを対象として選択することになります。

 

GO解析 (1)

GO解析とは

マイクロアレイ解析の結果、まず得られるのは、発現が増加または減少した遺伝子(発現変動遺伝子)のリストです。一般的には、エクセルの表の形で扱われることが多いと思います。

そのリストを眺めて(または検索して)いると、「特定のGO用語(機能、キーワード)が多く含まれているようだ」ということが直感的に分かると思います。

例えば、GOの列に GO:0006954 : inflammatory response が多いなぁ、というように。

では、どれくらいの頻度で見つかれば、特定の用語が見つかる頻度が高い(エンリッチされている)と言えるのでしょうか?発現変動遺伝子が100個あったとして、10個見つかれば、いいほうなのでしょうか?何個 “inflammatory response” が見つかれば、「マイクロアレイ解析の結果、炎症系の遺伝子に影響があった」と言えるのでしょうか?

これに答えるのが、「GO解析」です。GO解析(2) へ。

 

GO解析(2)

GO解析の考え方

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)の中に、「特定の用語(機能、キーワード)をアノテーションに持つ遺伝子が多い」ことを述べるには、下記の2つの点を考慮する必要があります。

  1. その用語をアノテーションに持つ遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. について

もともとゲノム中に多く含まれる機能は、当然、発現変動遺伝子群においても見つかりやすいです。たとえば、 GO:0005488 : binding は、ほとんどの遺伝子がこの機能をアノテーションされています。(何らかのタンパクと結合することが考えられますので、当然といえます。)GO:0016020 : membrane などもそうです。ほとんどの遺伝子は、膜系か、それ以外に分類されるためです。

「当たり」が多く含まれている宝くじを引いていることをイメージするとよいでしょう。それでは当たったことが重要にはなりません。

2. について

発現が増加または、減少した遺伝子の数が多い場合、あらゆる機能の遺伝子が見つかりやすくなります。マイクロアレイデータによっては、3000個以上の遺伝子が増加、減少していることもあります。この状態では、ほぼすべての機能の遺伝子が含まれていて当然と考えられます。

宝くじをたくさん引いていることをイメージするとよいでしょう。何度も挑戦することで、当然、当たりやすくなるため、当たったことの重要性は薄れます。

好ましい状態

上記を考慮すると、最も重要性が高くなるのは、次の条件です。

「もともとゲノム中に数少なく見られる機能を持つ遺伝子が、少ない発現変動遺伝子群に数多く含まれている。」

言い換えると、「ゲノム中(4万個)に10個程度しか含まれない遺伝子が、マイクロアレイ解析の結果、変動していた100個の遺伝子群の中に、8個も見つかった」というような状況です。(数字は適当です。)

DAVID の解析結果などに表示されている GO についた p-valueEnrichment Score は、上記の点を考慮して算出されたものです。 p-value < 0.05 であれば、偶然ではないことが主張できます。

 

マイクロアレイ解析のフローチャート3(その前に)

マイクロアレイ解析のフローチャート2までに得られたのは、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」でした。例えば、「炎症系の遺伝子が増加していた」ということが分かったとしましょう。

次のステップに移る前に、まず、ここで考慮すべきポイントがあります。それは、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」ではない、ということです。

意外に思われる方も少なくないのではないでしょうか?ここにアノテーションの問題があります。

ポイント1

第1に、「炎症系の遺伝子」というアノテーションには、「炎症を活性化する遺伝子」と「炎症を抑制する遺伝子」の両方が含まれています。

GO:0006954: inflammatory response には、 GO:0050728: negative regulation of inflammatory response と GO:0050729: positive regulation of inflammatory response が含まれます。

inflammatory response には、 negative と positive 2つの regulation が含まれる。

inflammatory response には、 negative と positive 2つの regulation が含まれる。

ポイント2

第2に、アノテーションの情報は更新され続けており、完全ではありません。まだ、活性とも抑制とも書かれていないこともありますし、活性抑制のどちらも書かれていることもあります。(おそらくは、ある条件下で逆の働きをすることもあるのでしょう。)例えば、 Angiotensinogen (AGT) は、 negative regulation of neuron apoptotic processpositive regulation of apoptotic process の両方をアノテーションに持ちます。

AGT は、apoptosis に対して抑制と活性のどちらか?

AGT は、apoptosis に対して抑制と活性のどちらか?

ポイント3

第3に生体内の多くの現象が、フィードバックにより恒常性を保っています。よって、ある現象を活性化させる遺伝子の発現が増加したとき、負のフィードバックが働き、その遺伝子を抑制する遺伝子も増加してくることが予想されます。したがって、ある現象を活性化する遺伝子抑制する遺伝子の両方が増加していても、それほど不自然ではないと言えるでしょう。フィードバックループの例としては時計遺伝子がよく知られています。

フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。

フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。

例えば、肝硬変でコラーゲンの産生が過多になっているような組織であれば、コラーゲンの遺伝子である COL1A1 の発現が高く、同時にコラーゲンを分解する MMP の発現も高いという状況が予想されます。MMPによる分解が追いついていないだけと考えれば、矛盾した状態とは言えないでしょう。

以上のようなことから、マイクロアレイデータのみを根拠に、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」と結論づけることは困難と考えられます。

 

NF-kB のターゲットとなる遺伝子を調べるには?

マイクロアレイ解析の結果、確認したくなるのは、特定の生物学的な機能を持った遺伝子の変動パターン(増加したか減少したか)だと思います。この特定の機能を持った遺伝子のリストは、GOなどのアノテーションを見れば分かる場合もありますが、そうでない場合もあります。

例えば、転写因子である NF-kB のターゲットとなる遺伝子(制御される遺伝子、下流の遺伝子)は、アノテーションの情報からは知ることができません。このような場合では、インターネット上に公開された情報が役立つことがあります。

続きを読む