マイクロアレイ解析のフローチャート3(上流解析)

マイクロアレイ解析のフローチャート2までの結果として、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」が得られます。典型的なデータの場合、それは、数十から数百個の遺伝子となります。

フローチャート2までに得られた遺伝子群。
フローチャート2までに得られた遺伝子群。

次のステップとしては、いろいろ考えられます。その中でも定番ともいえる手法が、「上流解析」です。上流解析の考え方は、次のようなものです。

フローチャート2までに得られた遺伝子群は、同じ発現変動パターンを示しています。つまり、同じ遺伝子Xによって制御されているのでは?と想像します。もし、そのような遺伝子Xが存在するのであれば、その遺伝子Xの変化こそが、特定の遺伝子群を動かした原因と言えるのではないでしょうか?

特定の遺伝子群を制御するような遺伝子Xの存在。
特定の遺伝子群を制御するような遺伝子Xの存在。

マイクロアレイ解析の結果から、特定の遺伝子群が動いていた、その原因または理由を知りたいときは、この上流解析が1つの手段です。

では、どうやって、この遺伝子Xを探すのでしょうか?まず、遺伝子群をリストとして眺めていたのでは全体のイメージがつかみにくいでしょう。同じ機能を持った遺伝子どうしは、シグナル伝達や転写制御など、何らかの制御関係を持っているはずです。よって、それらの情報とともに見ることで、遺伝子どうしの前後関係がつかみやすくなります。これを行うのが、パスウェイ解析ネットワーク解析と呼ばれる手法です。

変動した遺伝子群をパスウェイネットワークの図に当てはめてみて、そこから、遺伝子Xを探そうというものです。

パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。
パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。

 

 

マイクロアレイ解析のフローチャート3(その前に)

マイクロアレイ解析のフローチャート2までに得られたのは、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」でした。例えば、「炎症系の遺伝子が増加していた」ということが分かったとしましょう。

次のステップに移る前に、まず、ここで考慮すべきポイントがあります。それは、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」ではない、ということです。

意外に思われる方も少なくないのではないでしょうか?ここにアノテーションの問題があります。

ポイント1

第1に、「炎症系の遺伝子」というアノテーションには、「炎症を活性化する遺伝子」と「炎症を抑制する遺伝子」の両方が含まれています。

GO:0006954: inflammatory response には、 GO:0050728: negative regulation of inflammatory response と GO:0050729: positive regulation of inflammatory response が含まれます。

inflammatory response には、 negative と positive 2つの regulation が含まれる。
inflammatory response には、 negative と positive 2つの regulation が含まれる。

ポイント2

第2に、アノテーションの情報は更新され続けており、完全ではありません。まだ、活性とも抑制とも書かれていないこともありますし、活性抑制のどちらも書かれていることもあります。(おそらくは、ある条件下で逆の働きをすることもあるのでしょう。)例えば、 Angiotensinogen (AGT) は、 negative regulation of neuron apoptotic processpositive regulation of apoptotic process の両方をアノテーションに持ちます。

AGT は、apoptosis に対して抑制と活性のどちらか?
AGT は、apoptosis に対して抑制と活性のどちらか?

ポイント3

第3に生体内の多くの現象が、フィードバックにより恒常性を保っています。よって、ある現象を活性化させる遺伝子の発現が増加したとき、負のフィードバックが働き、その遺伝子を抑制する遺伝子も増加してくることが予想されます。したがって、ある現象を活性化する遺伝子抑制する遺伝子の両方が増加していても、それほど不自然ではないと言えるでしょう。フィードバックループの例としては時計遺伝子がよく知られています。

フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。
フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。

例えば、肝硬変でコラーゲンの産生が過多になっているような組織であれば、コラーゲンの遺伝子である COL1A1 の発現が高く、同時にコラーゲンを分解する MMP の発現も高いという状況が予想されます。MMPによる分解が追いついていないだけと考えれば、矛盾した状態とは言えないでしょう。

以上のようなことから、マイクロアレイデータのみを根拠に、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」と結論づけることは困難と考えられます。

 

マイクロアレイ解析のフローチャート2: Next step

発現変動遺伝子の抽出後、まず、必要なことは、増加減少した遺伝子(発現変動遺伝子)が、どのような遺伝子であるかを分析することです。この方法は、大きく分けて、次の2通りの方法のいずれかを用います。

A. (生物学的な)機能で見る。

B. 発現変動のパターンで見る。

 

マイクロアレイ解析のフローチャート2: Next step
マイクロアレイ解析のフローチャート2: Next step

A. (生物学的な)機能で見る

何系の遺伝子が多いのかを見ます。(膜タンパク?転写因子?EMT関連遺伝子?薬剤耐性遺伝子?脂質代謝?) これに該当する解析が、GO解析DAVIDなどを使用)です。

B. 発現変動のパターンで見る

特定の注目する遺伝子に似た変動パターンの遺伝子を探します。また、どのサンプルの変動パターンが似ているかを見ます。(MDM4といっしょに増減した遺伝子はどれ?健常者に近いサンプルはどれ?) これに該当する解析が、クラスタリング(k-means, SOM)、ヒートマップです。

 

このA., B. の2通りの解析は、独立したものではなく、また、それだけでは終わりません。GO解析の結果をさらにヒートマップで表示して、発現変動変動のパターンを確認するケース(A. –> B.)や、特定の発現変動パターンの遺伝子を選択して、その機能をGO解析で確認するケース(B. –> A.) が通常です。それぞれの解析を単独で行っても効果的ではありません。(セルイノベーターの解析サービスでは、初めからこれらの解析サービスを含めて提供しています。)

解析はさらに続きます

 

さらに続く解析。A. から B. や、B. の後に A. を行って遺伝子群を絞り込む。
さらに続く解析。A. から B. や、B. の後に A. を行って遺伝子群を絞り込む。

最終的にマイクロアレイ解析の結果として、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」が得られます。(数十個から数 百個の遺伝子)

最終的に得られる遺伝子群。
最終的に得られる遺伝子群。
 

DAVID 操作ガイド3

8. 解析結果1:アノテーションの解析結果を見る例です。ここでは、”Functional
Annotation Clustering” を見る方法を解説します。中程の ”Functional Annotation Clustering” のボタンをクリックします。

新しいウィンドウに解析結果が表示されます。Functional Annotation Clustering では、同じような機能を持った遺伝子群を1つのクラスターとして考え、スコアの高いクラスターの順に表示されます。1つのクラスターには、metabolic process, anion transport などの Gene Ontology (GO) が複数含まれています。アップロードした遺伝子リスト中、それぞれの GO をアノテーションに持つ遺伝子は、GO の隣の青いバーをクリックすることで見ることができます(Gene Report)。 P_Value は、0.05 (5.0E-2)以下が統計的に有意と判断される目安です。

青いバーをクリックして表示される Gene Report は、右上の “Download file” をクリックすることで、ダウンロードできます。

ダウンロードした Gene Report は、Excel で読み込むことができます。開くときに、選択対象を ”すべてのファイル” とします (“すべての読み込み可能なファイル”ではなく)。

9. 解析結果2:パスウェイを表示させる例です。 Annotation Summary Results の画面(7. の画面)の “Pathways (3 selected)” を選択します。

同じウィンドウの中にアノテーション情報として登録されているパスウェイデータベースの一覧が表示されます。パスウェイデータベースの横の数字は、 アップロードした遺伝子リストのうち、パスウェイデータベースにヒットした割合と個数です。 “Chart” ボタンをクリックすると、 “Functional Annotation Chart” のウィンドウが表示されます。また、Chart ボタンの隣の ”青いバー” をクリックすると、 ”Functional Annotation Table” のウィンドウが表示されます。さらに、それぞれのウィンドウにおいて、各パスウェイ名をクリックすると、パスウェイの画像を表示できます。

パスウェイデータベース(ここでは KEGG )に登録されている ”Apoptosis” や ”Cell Cycle” といった個々のパスウェイの中から、アップロードした遺伝子リストに含まれる遺伝子が載っている(マップされる)パスウェイを探すには、 ”Functional Annotation Chart” を参照します。スコアに関係なく、マップされるパスウェイを知りたい場合は、”Functional Annotation Table” を参照します。

Functional Annotation Chart ウィンドウには、アップロードした遺伝子リスト中の遺伝子を、統計的に有意な割合で含むパスウェイだけが表示されます。 “Term” 中の各パスウェイ名をクリックするとパスウェイが表示されます。

Functional Annotation Table ウィンドウには、アップロードした遺伝子リストのうち、パスウェイデータベースにヒットした遺伝子の一覧が表示されます。各パスウェイ名をクリックするとパスウェイが表示されます。パスウェイの数が多い場合は、ブラウザの検索機能を利用すると便利です。

マップされたパスウェイの例:下図は、”Cell Cycle” のパスウェイにマップされた場合の例です。アップロードした遺伝子リストに含まれていた遺伝子は、星印をつけて表示されます。各遺伝子をクリックすると、遺伝子について詳細な情報を見ることができます。

Reference
Huang et al. Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nature Protocols (2009) vol. 4 (1) pp. 44-57.

 

DAVID 操作ガイド2

1. DAVIDにアクセスします。
http://david.abcc.ncifcrf.gov/

2. ショートカットメニューから、 “Functional Annotation” を選択します。

3. Functional Annotation Tool が表示されます。左側のメニューの “Upload” タブを選択します。遺伝子リストをアップロードするフォームが表示されます。

4. Excel で、解析結果を開き、ProbeSetID の列をコピーします。(下図は Affymetrix の場合です。それ以外は、GenbankAccesstion などを用います。)

5. Step 1: Enter Gene List の “A: Paste a list” の枠内に、コピーしたリストを貼付けます(この場合、B: のファイルを選択する必要はありません)。

6. Step 2: Select Identifier が、 ”AFFY_ID” になっていることを確認します。( 4. で、GenbankAccession を選択した場合は、 Select Identifier に、”GENBANK_ACCESSION” を選択します。) さらに、 Step 3: List Type が、”GeneList” になっていることを確認します。最後に、 Step4: Submit List の “Submit List” のボタンをクリックします。(数十秒から数分程度時間がかかります。)

7. 遺伝子リストのアップロードが完了すると、次のような画面になります。対象となる生物種名を候補の中から選択し、”Select” ボタンをクリックします。右側に選択した生物種が反映された Annotation Summary Results が表示されます。