Gene Ontology (GO) とアノテーション

Gene Ontology (GO)

オントロジー[1]とは、もともとは、工学や情報科学の分野で使用されていた考え方です。このオントロジーを使って、生物学的な言葉(単語、用語)を整理したものが Gene Ontology (GO) です。

論文などで、「GO」というと、時々、遺伝子の機能を説明するデータベースのように扱われていることもありますが、あくまで「用語集」であると理解しておいた方がよいでしょう。

GOとアノテーション

確かに、GO を使ったデータベースとして、 AmiGO などがあります。これは、GOに含まれる特定のターム(用語)に対して、それをアノテーションに持つ遺伝子を逆引きできるようにしたものです。果物を例に考えると、「赤」という用語でデータベースを検索すると、「赤」をアノテーションに持っていることが登録されている「りんご」や「いちご」が表示されるというイメージです。

アノテーションのイメージ
アノテーションのイメージ

しかし、特定の遺伝子に GO を割り当てる(関連づける)作業を AmiGO が行っているわけではありません。その作業は、MGIなどの各コンソーシアムで行われています。上記の例でいうと、「りんご」に「赤」や「丸」、「甘」、「酸」などの用語を関連づける作業(=アノテーション)となります。このとき、各自が自由な用語を使ってアノテーションを行うと、後々、整理に困ります。そこで、あらかじめ使用できる用語を限定しておき、その限定された用語(用語集)を使って、アノテーションを行うようになったのです。遺伝子にアノテーションする場合に用いる用語集が、「GO」というわけです。

[1] http://www.atmarkit.co.jp/aig/04biz/ontology.html

 

MeV の使い方:MeV を用いたクラスターの選択と出力

MeV では、クラスタリングした結果から、任意のクラスターを選択し、その選択されたクラスターに含まれる遺伝子群をリストとして出力できます。

クラスターの選択

クラスタリングの結果を表示したヒートマップ上で、任意のクラスターの選択が可能です。ここでは、WTで低く、KOで高い遺伝子群を含むクラスターを選択する例を示します。

ヒートマップの左側には、クラスターの関係を表したツリーが表示されています。このツリーをクリックすることで、任意のクラスターの選択を行います。クリックするツリーの場所(分岐点)により、選択されるクラスターが決定されます。選択されたツリーは、ハイライトされます。また、選択されなかったクラスターは、表示が薄くなります。

クラスターの選択

クラスターの出力

クラスターを選択した状態で、ツリーを「右クリック」し、表示されるメニューから、「Save cluster…」を選択することで、その選択されたクラスターに含まれる遺伝子群をリストとして出力できます。出力されるファイルは、タブ区切りのテキストファイルの形式です。保存するファイルの名前に拡張子(.txt)を含めるようにしてください。出力された遺伝子リストに含まれるシグナル値の値は、MeV で処理された後の値になります。ここでは、ヒートマップ用の色づけを行っているため、log2変換し、中央値からの距離に変換された値となります。

クラスターの出力
 

アノテーション (annotation)

アノテーションは、直訳すると、「注釈」ということになります。意味としては、「情報」や「説明」と考えた方が分かりやすいかもしれません。

マイクロアレイデータの構成」で触れたように、マイクロアレイデータをエクセルなどを用いて、テーブルとして表示させたときに、シグナル値やフラグのデータ以外に付加されている情報が「アノテーション」です。例えば、下記のようなものがあります。

  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID や、染色体上の位置情報などがあります。

個々のプローブ(遺伝子)それぞれに、これらの情報が割り当てられています。「アノテーションする」という言い方をされるときもありますが、それは、あるプローブや塩基配列に対して、これらの情報を割り当てる作業を指します。 続きを読む アノテーション (annotation)

 

ratioのヒストグラム

シグナル値そのものを書く以外に、ヒストグラムには便利な使い方があります。それは、ratio のヒストグラムです。まず、2サンプルのシグナル値から、ratio を計算します。対応するプローブ(遺伝子)ごとに、実験群のシグナル値をコントロールのシグナル値で割ることで算出できます。そして、シグナル値の代わりに、算出された ratio でヒストグラムを作成してみましょう。横軸に ratio の大きさ、縦軸に一定の区間のratioとなる遺伝子の個数を表します。また、横軸は対数目盛とします。シグナル値の場合と異なり、ratioのヒストグラムの形状としては、真ん中に高い山があり、左右の端にかけて、低くなる形状となります。

ratio のヒストグラム

真ん中の山は、ratio が1に近いことを表します。左右に分布しているのは、ratio が1以上、または、1以下ということですから、どちらかのサンプルでシグナル値が高いか、または低いということです。真ん中の山が高いことから、ほとんどの遺伝子で ratio が1付近、つまり、発現変動していない、ということが分かります。また、左右につれて山が低くなることから、大きく増減する遺伝子ほど、存在する数が少ないということが分かります。

さらに、真ん中付近の山の度数を足すと、どれくらいの遺伝子が発現変動していないか分かります。サンプルにも依りますが、ほとんどのケースで、3万個以上の遺伝子において、発現変動が見られない(0.5 < ratio < 2)ことが多いです。発現変動したと判定される遺伝子は、たかだか数千個です。

 

マイクロアレイデータを見てみよう (4): 散布図

発現変動のある遺伝子が、どの程度存在しているか、大まかに把握したい場合は、「散布図」を用います。散布図は、ボックスプロットヒストグラムと違い、1つの散布図を作成するのに、2サンプルのデータが必要です。横軸、縦軸とも、シグナル値を表します。横軸に1つのサンプルのシグナル値を用い、縦軸にもう一方のサンプルのシグナル値を用います。また、ボックスプロットやヒストグラムと同様に、見やすくするため、マイクロアレイデータでは対数目盛を用います。



散布図の例

図:左は普通の目盛。右は対数目盛。普通の目盛は、等間隔であるため、シグナル値の低い部分が見づらい。マイクロアレイデータでは、散布図に右のような対数目盛を用いる。同じデータを使用*[1]。

2サンプルのデータを用いるので、特定のプローブ(遺伝子)に対して、シグナル値は2個あります。その2個のシグナル値の一方を横軸(=x軸)の値として使用し、もう一方を縦軸(=y軸)の値として使用します。つまり、2個シグナル値を、x座標とy座標として、1つの点としてプロットします。例えば、WTとKOの2つのサンプルがあり、遺伝子AのWTのシグナル値が100で、KOのシグナル値が200なら、(x, y) = (100, 200) という座標に点を1つ書きます。したがって、4万個の遺伝子について、同様のことを行うと、4万個の点が書けます。この点のパターンを見るのが散布図です。

遺伝子Aのテーブル。

ProbeID(Gene) WT KO
A 100 200

シグナル値と座標の関係から分かるように、同一サンプルで散布図を作成すると、y=x に沿った線ができます。(xとyが、4万個の遺伝子で常に同じだからです。)つまり、発現変動していない遺伝子は、xとyの大きさが近いため、y=x付近にプロットされることになります。実際に、異なる2サンプルの散布図を見ると、左下から右上にかけて(y=x)、プロットされているように見えます。したがって、「ほとんどの遺伝子が発現変動していない」ということが、視覚的に確認できます。どのメーカーのマイクロアレイを使用しても、散布図の形状は、おおむねこのような形状となります。

同一サンプル、繰り返しサンプルの散布図。



図:左、同一サンプルの散布図。右、繰り返しサンプルの散布図。

散布図は、ボックスプロットやヒストグラムに比べ、エクセルでも比較的簡単に書くことができます(対数目盛にもできます)。ほかの2つが書けない場合でも、散布図だけは見ておいたほうがいいでしょう。

散布図から分かること

上記の例の遺伝子Aのように、一方のサンプルで高い(または低い)遺伝子は、y=xから外れたところにプロットされます。場所としては、左上や右下に位置します。左上にプロットされた遺伝子は、横軸としたサンプルで低く、縦軸としたサンプルで高いことを意味します。逆に、右下にプロットされた遺伝子は、横軸としたサンプルで高く、縦軸としたサンプルで低いということです。
使用する2サンプルのマイクロアレイデータの分布が異なる場合、左上と右下のどちらかに偏って、点が分布していることが多いです。通常、正規化されたデータであれば、その偏りは見られません。(増加した遺伝子と減少した遺伝子の数がほぼ同じ。)
正規化後であっても、点の分布に著しく偏りがある場合は、サンプルのクオリティが疑われることもあります。

また、同一サンプルの場合、直線になることから、繰り返しサンプル(n=3など)の2サンプルで散布図を作成した場合、細いほうが理想的と言えます。太ければ、繰り返しサンプル内で、発現変動している遺伝子が数多く存在するということです。

対照的に、がん患者のサンプルのように、個体差も大きく、細胞の状態も異なると考えられる2サンプルで散布図を作成すると、太く、全体的に広がった散布図が得られます。

散布図から分からないこと

点の数が4万個と多いため、重なって表示される点も多いです。そのため、ある点がどの遺伝子を指すのか、散布図から特定するのは難しいです。また、発現変動している遺伝子の数が、具体的に何個か数えることも大変です。

まとめ

まとめると図のようになります。

散布図の表すもの。


[1] GSM830131, GSM830137