アノテーション – ページ 4 – 遺伝子発現解析（マイクロアレイ解析, RNA-seq）

Gene Expression Omnibus (GEO) の Matrix table (マトリックステーブル) の書式

GEOarchive の Matrix table (マトリックステーブル) の書式を解説します。マトリックステーブルは、エクセルファイルの2枚目のシートに記入します。テンプレートに含まれる # から始まる行はコメントで、書式の説明です。”ID_REF” から始まる7行目以降の行にマイクロアレイデータを記入することになります。

ID_REF の列

マトリックステーブルの1列目が、 “ID_REF” の列です。この “ID_REF” は、いわゆる、Probe の ID のことです。マイクロアレイのメーカーや、製品の種類によって表現が異なるので、このような表記になっているのだと思います。例えば、Affymetrix の場合は、ID, Probe Set ID (e.g. 1007_s_at)などと呼ばれます。Agilent の場合は、ID, Probe Name (e.g. A_23_P100001)のように呼ばれます。

重要なポイントは、ここで使用することになる ID を、GEO の “Platform” として登録されている情報の “ID” と一致させる必要があることです。言葉で書くと難しいのですが、通常の Probe ID (1007_s_at や A_23_P100001) を ID_REF に使用した上で、正しい Platform (GPLxxxx) をメタデータ（1枚目のシート）の platform 欄に記入していれば問題ありません。

（Illumina のマイクロアレイデータの場合、”ProbeID” と呼ばれるものが、GEO の Platform の情報においては、”Array_Address_ID” となっていることがあります。その場合は、Platform の情報における “ID” (1, 2, 3, …) に付け替える必要があります。）

SAMPLE の列

2列目以降は、サンプルの正規化されたシグナル値を記入します。1列につき、1サンプルのマイクロアレイデータということになります。もしあれば、シグナル値の次の列にフラグの値を記入します。よって、 ID_REF, SAMPLE1 のシグナル値, SAMPLE1のフラグ, SAMPLE2のシグナル値, SAMPLE2のフラグ, …, の順に続くことになります。

ここで重要なポイントは、SAMPLE1, SAMPLE2 などの各列の名前は、1枚目のシートの “Sample name” の欄に記入した名前と一致させる必要があることです。また、重複する名前も使えません。title に書いた呼び名ではありません。（間違いを防ぐために、SAMPLE1, SAMPLE2 などとしておくことをお勧めします。WT, KO などの呼び名は、title に書けます。）

フラグは、ABS_CALL (A, M, Pの情報)や、Detection p-value の情報です。各列の名前は、同じ “ABS_CALL” でもかまいません。ただし、シグナル値の列の次に来るよう、位置に気をつけましょう。

GO解析(2)

GO解析の考え方

発現が増加または、減少した遺伝子の一群（発現変動遺伝子群）の中に、「特定の用語（機能、キーワード）をアノテーションに持つ遺伝子が多い」ことを述べるには、下記の2つの点を考慮する必要があります。

その用語をアノテーションに持つ遺伝子が、ゲノム中にもともと多いのかどうか。
発現が増加または、減少した遺伝子の数が多いかのどうか。

1. について

もともとゲノム中に多く含まれる機能は、当然、発現変動遺伝子群においても見つかりやすいです。たとえば、 GO:0005488 : binding は、ほとんどの遺伝子がこの機能をアノテーションされています。（何らかのタンパクと結合することが考えられますので、当然といえます。）GO:0016020 : membrane などもそうです。ほとんどの遺伝子は、膜系か、それ以外に分類されるためです。

「当たり」が多く含まれている宝くじを引いていることをイメージするとよいでしょう。それでは当たったことが重要にはなりません。

2. について

発現が増加または、減少した遺伝子の数が多い場合、あらゆる機能の遺伝子が見つかりやすくなります。マイクロアレイデータによっては、3000個以上の遺伝子が増加、減少していることもあります。この状態では、ほぼすべての機能の遺伝子が含まれていて当然と考えられます。

宝くじをたくさん引いていることをイメージするとよいでしょう。何度も挑戦することで、当然、当たりやすくなるため、当たったことの重要性は薄れます。

好ましい状態

上記を考慮すると、最も重要性が高くなるのは、次の条件です。

「もともとゲノム中に数少なく見られる機能を持つ遺伝子が、少ない発現変動遺伝子群に数多く含まれている。」

言い換えると、「ゲノム中（4万個）に10個程度しか含まれない遺伝子が、マイクロアレイ解析の結果、変動していた100個の遺伝子群の中に、8個も見つかった」というような状況です。（数字は適当です。）

DAVID の解析結果などに表示されている GO についた p-value や Enrichment Score は、上記の点を考慮して算出されたものです。 p-value < 0.05 であれば、偶然ではないことが主張できます。

GO解析 (1)

GO解析とは

マイクロアレイ解析の結果、まず得られるのは、発現が増加または減少した遺伝子（発現変動遺伝子）のリストです。一般的には、エクセルの表の形で扱われることが多いと思います。

そのリストを眺めて（または検索して）いると、「特定のGO用語（機能、キーワード）が多く含まれているようだ」ということが直感的に分かると思います。

例えば、GOの列に GO:0006954 : inflammatory response が多いなぁ、というように。

では、どれくらいの頻度で見つかれば、特定の用語が見つかる頻度が高い（エンリッチされている）と言えるのでしょうか？発現変動遺伝子が100個あったとして、10個見つかれば、いいほうなのでしょうか？何個 “inflammatory response” が見つかれば、「マイクロアレイ解析の結果、炎症系の遺伝子に影響があった」と言えるのでしょうか？

これに答えるのが、「GO解析」です。GO解析(2) へ。

SQL言語 (MySQL)

SQL言語を使った遺伝子の選択

マイクロアレイのデータを処理するときに知っておくと便利なツールとして、SQL言語があります。コンピューターにいろいろな命令を出すのが、プログラミング言語と呼ばれるものです。その中でもデータベースの処理に特化した言語が、SQL言語です。（SQL言語にはいくつかの種類があり、ここでは MySQL という種類を用います。）

プログラミング言語の中でも、SQL言語は、人間にも比較的読みやすい言語です。例えば、次のようなものです。

SELECT ProbeID, GeneSymbol
FROM 'アノテーションのテーブル名';

アノテーションのデータが、データベースのテーブルに格納されていれば、このような表現で、ProbeID と GeneSymbol の一覧を取得できます。

アノテーションの GO に “tumor” を含む遺伝子すべてを取得するには、次のようなSQL（クエリー）を用います。

SELECT a.ProbeID, a.GeneSymbol, a.GO, d.Sample1, d.Sample2
FROM annotation a
INNER JOIN data d
ON a.ProbeID = d.ProbeID
WHERE a.GO LIKE '%tumor%';

Gene Ontology (GO) の得意、不得意

GOを使うと何でも解析できるというわけではありません。GOには、その構造上、得意な点と不得意な点があります。

GOの得意な点

マイクロアレイ解析の結果から、特定の用語（機能、キーワード）を持つ遺伝子だけを取り出せます。マイクロアレイ解析の結果を表示したエクセルのGOの列を検索すればよいです。または、AmiGO で、GOの特定の用語を持つ遺伝子のリストをあらかじめ取得しておき、遺伝子名を検索する方法もあります。（探したい遺伝子が1個か2個なら、よいのですが、大量に検索するときは、データを一度データベースに登録して、SQL言語を利用するなど、情報処理の技術を使うことをお勧めします。人的ミスを防げますし、時間がかかりません。ご相談ください。）

GOの不得意な点

当然ながら、GOに登録されていない用語（機能、キーワード）を扱うことができません。例えば、 “apoptosis” ではなく、 “apoptotic process” でなければなりません。”response to tumor necrosis factor” (GO:0034612) はありますが、 “tumorigenesis” はありません。”oncogenesis” という用語も現在は使われていません。流行の stemness genes はありませんが、 “stem cell differentiation” (GO:0048863) はあります。

よく使われる用語であっても、意外と登録されていなかったりします。（登録されていない原因はいろいろです。言い換えができたり、GOの思想と合わないなど。）この場合は、単語を区切るなり、別のいい方を考えたり、もっと細かいプロセスに分解して考える必要があります。

“tumorigenesis” の例でいえば、GOの用語中に “tumor” を含むものすべてという選び方をする必要があります。また、転移 (metastasis) に関連する遺伝子を選びたいとしても、 GO に “metastasis” はありませんので、GO:0051726 : regulation of cell cycle と GO:0007155 : cell adhesion と GO:0042379 : chemokine receptor binding というように複数のプロセスに分けて考え、それらをGOに持つものすべてを対象として選択することになります。