GO解析(2)

GO解析の考え方

発現が増加または、減少した遺伝子の一群(発現変動遺伝子群)の中に、「特定の用語(機能、キーワード)をアノテーションに持つ遺伝子が多い」ことを述べるには、下記の2つの点を考慮する必要があります。

  1. その用語をアノテーションに持つ遺伝子が、ゲノム中にもともと多いのかどうか。
  2. 発現が増加または、減少した遺伝子の数が多いかのどうか。

1. について

もともとゲノム中に多く含まれる機能は、当然、発現変動遺伝子群においても見つかりやすいです。たとえば、 GO:0005488 : binding は、ほとんどの遺伝子がこの機能をアノテーションされています。(何らかのタンパクと結合することが考えられますので、当然といえます。)GO:0016020 : membrane などもそうです。ほとんどの遺伝子は、膜系か、それ以外に分類されるためです。

「当たり」が多く含まれている宝くじを引いていることをイメージするとよいでしょう。それでは当たったことが重要にはなりません。

2. について

発現が増加または、減少した遺伝子の数が多い場合、あらゆる機能の遺伝子が見つかりやすくなります。マイクロアレイデータによっては、3000個以上の遺伝子が増加、減少していることもあります。この状態では、ほぼすべての機能の遺伝子が含まれていて当然と考えられます。

宝くじをたくさん引いていることをイメージするとよいでしょう。何度も挑戦することで、当然、当たりやすくなるため、当たったことの重要性は薄れます。

好ましい状態

上記を考慮すると、最も重要性が高くなるのは、次の条件です。

「もともとゲノム中に数少なく見られる機能を持つ遺伝子が、少ない発現変動遺伝子群に数多く含まれている。」

言い換えると、「ゲノム中(4万個)に10個程度しか含まれない遺伝子が、マイクロアレイ解析の結果、変動していた100個の遺伝子群の中に、8個も見つかった」というような状況です。(数字は適当です。)

DAVID の解析結果などに表示されている GO についた p-valueEnrichment Score は、上記の点を考慮して算出されたものです。 p-value < 0.05 であれば、偶然ではないことが主張できます。

 

GO解析 (1)

GO解析とは

マイクロアレイ解析の結果、まず得られるのは、発現が増加または減少した遺伝子(発現変動遺伝子)のリストです。一般的には、エクセルの表の形で扱われることが多いと思います。

そのリストを眺めて(または検索して)いると、「特定のGO用語(機能、キーワード)が多く含まれているようだ」ということが直感的に分かると思います。

例えば、GOの列に GO:0006954 : inflammatory response が多いなぁ、というように。

では、どれくらいの頻度で見つかれば、特定の用語が見つかる頻度が高い(エンリッチされている)と言えるのでしょうか?発現変動遺伝子が100個あったとして、10個見つかれば、いいほうなのでしょうか?何個 “inflammatory response” が見つかれば、「マイクロアレイ解析の結果、炎症系の遺伝子に影響があった」と言えるのでしょうか?

これに答えるのが、「GO解析」です。GO解析(2) へ。

 

SQL言語 (MySQL)

SQL言語を使った遺伝子の選択

マイクロアレイのデータを処理するときに知っておくと便利なツールとして、SQL言語があります。コンピューターにいろいろな命令を出すのが、プログラミング言語と呼ばれるものです。その中でもデータベースの処理に特化した言語が、SQL言語です。(SQL言語にはいくつかの種類があり、ここでは MySQL という種類を用います。)

プログラミング言語の中でも、SQL言語は、人間にも比較的読みやすい言語です。例えば、次のようなものです。

SELECT ProbeID, GeneSymbol
FROM 'アノテーションのテーブル名';

アノテーションのデータが、データベースのテーブルに格納されていれば、このような表現で、ProbeID と GeneSymbol の一覧を取得できます。

アノテーションの GO に “tumor” を含む遺伝子すべてを取得するには、次のようなSQL(クエリー)を用います。

SELECT a.ProbeID, a.GeneSymbol, a.GO, d.Sample1, d.Sample2
FROM annotation a
INNER JOIN data d
ON a.ProbeID = d.ProbeID
WHERE a.GO LIKE '%tumor%';

 

 

アノテーション (annotation)

アノテーションは、直訳すると、「注釈」ということになります。意味としては、「情報」や「説明」と考えた方が分かりやすいかもしれません。

マイクロアレイデータの構成」で触れたように、マイクロアレイデータをエクセルなどを用いて、テーブルとして表示させたときに、シグナル値やフラグのデータ以外に付加されている情報が「アノテーション」です。例えば、下記のようなものがあります。

  • GeneSymbol: プローブのコードする遺伝子(以下、単に遺伝子)の公式な略称 (Official Gene Symbol) です。例:p53 の場合は、TP53 が GeneSymbol です。他の遺伝子と重複しないように考慮された略称です。
  • Description: 遺伝子の機能などの説明文です。例:Homo sapiens tumor protein p53 (TP53), transcript variant 1, mRNA
  • GO: 遺伝子に付けられた Gene Ontology (GO) の用語です。複数の用語を羅列することで、遺伝子の機能を表現します。例:GO:0000060(protein import into nucleus, translocation)|GO:0000075(cell cycle checkpoint) など。
  • EntrezGeneID (EntrezID): 遺伝子の NCBI における ID です。例:7157
  • その他:GenbankAccession, EnsemblID など、その他のデータベースにおける遺伝子の ID や、染色体上の位置情報などがあります。

個々のプローブ(遺伝子)それぞれに、これらの情報が割り当てられています。「アノテーションする」という言い方をされるときもありますが、それは、あるプローブや塩基配列に対して、これらの情報を割り当てる作業を指します。 続きを読む アノテーション (annotation)