log fold-change (=logFC or log ratio) の算出方法の確認

log fold-change (= logFC or log ratio) の算出方法の確認です。logFC の算出方法として、正しいのは、次のうちどれでしょうか?正解は2つあります。

wild type (WT) と knock out (KO) の2サンプルのシグナル値を比較するものとします。なお、通常の fold-change (ratio) は、以前に紹介したように割り算ですので、KO を WT で割れば(KO/WT)、WTに比べて、何倍になっているか計算できます。

  1. WT と KO の値をlog2変換して、KO を WT で割る
  2. KO を WT で割ってから、算出された値をlog2変換する。
  3. WT と KO の値をlog2変換して、KO から WT を引く
  4. KO から WT を引いてから、算出された値をlog2変換する。
  5. KO を WT で割る。このとき、ratio > 1 なら、そのまま。ratio < 1 なら、逆に WT を KO で割り、ー(マイナス)の符号を付ける。
 

マイクロアレイ解析結果の論文での表現

前回記事の補足として、マイクロアレイ解析の結果について、論文で記述する際の注意点を解説します。

「マイクロアレイ解析の結果、」に続く文章として、適切なものはどれでしょうか?

  • A: 脂質代謝が活性化されていた。
  • B: 脂質代謝系の遺伝子が活性化された。
  • C: 脂質代謝系の遺伝子発現が増加した。
  • D: 脂質代謝系のいくつかの遺伝子の発現増加が見られた。

まず、 A はよくありません。レビューワーにスペキュレーションと見なされるかもしれません。理由は前回記事にあります。おそらく、「マイクロアレイ以外の他の実験結果を示せ」という注文がつくでしょう。

次に、B もよくありません。間違いではないかもしれませんが、「もう少し詳しく」と指摘されそうです。「脂質代謝系の遺伝子が活性化された可能性がある」ならよいでしょう。

C は問題ありません。無難な表現です。厳密には、脂質代謝系の遺伝子すべてが増加したわけではないでしょうから、後述の D がより無難な表現です。

D は事実のみを伝えているので、全く問題ありません。この事実をどう判断したのかは、著者の意見と明記して、追記しておけばよいでしょう。

 

マイクロアレイ解析のフローチャート3(その前に)

マイクロアレイ解析のフローチャート2までに得られたのは、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」でした。例えば、「炎症系の遺伝子が増加していた」ということが分かったとしましょう。

次のステップに移る前に、まず、ここで考慮すべきポイントがあります。それは、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」ではない、ということです。

意外に思われる方も少なくないのではないでしょうか?ここにアノテーションの問題があります。

ポイント1

第1に、「炎症系の遺伝子」というアノテーションには、「炎症を活性化する遺伝子」と「炎症を抑制する遺伝子」の両方が含まれています。

GO:0006954: inflammatory response には、 GO:0050728: negative regulation of inflammatory response と GO:0050729: positive regulation of inflammatory response が含まれます。

inflammatory response には、 negative と positive 2つの regulation が含まれる。
inflammatory response には、 negative と positive 2つの regulation が含まれる。

ポイント2

第2に、アノテーションの情報は更新され続けており、完全ではありません。まだ、活性とも抑制とも書かれていないこともありますし、活性抑制のどちらも書かれていることもあります。(おそらくは、ある条件下で逆の働きをすることもあるのでしょう。)例えば、 Angiotensinogen (AGT) は、 negative regulation of neuron apoptotic processpositive regulation of apoptotic process の両方をアノテーションに持ちます。

AGT は、apoptosis に対して抑制と活性のどちらか?
AGT は、apoptosis に対して抑制と活性のどちらか?

ポイント3

第3に生体内の多くの現象が、フィードバックにより恒常性を保っています。よって、ある現象を活性化させる遺伝子の発現が増加したとき、負のフィードバックが働き、その遺伝子を抑制する遺伝子も増加してくることが予想されます。したがって、ある現象を活性化する遺伝子抑制する遺伝子の両方が増加していても、それほど不自然ではないと言えるでしょう。フィードバックループの例としては時計遺伝子がよく知られています。

フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。
フィードバックループ。mPERはmCLKを抑制し、一方、mCLKはmPERを活性化する。

例えば、肝硬変でコラーゲンの産生が過多になっているような組織であれば、コラーゲンの遺伝子である COL1A1 の発現が高く、同時にコラーゲンを分解する MMP の発現も高いという状況が予想されます。MMPによる分解が追いついていないだけと考えれば、矛盾した状態とは言えないでしょう。

以上のようなことから、マイクロアレイデータのみを根拠に、「炎症系の遺伝子が増加していた」=「炎症反応が亢進した」と結論づけることは困難と考えられます。

 

マイクロアレイ解析のフローチャート2: Next step

発現変動遺伝子の抽出後、まず、必要なことは、増加減少した遺伝子(発現変動遺伝子)が、どのような遺伝子であるかを分析することです。この方法は、大きく分けて、次の2通りの方法のいずれかを用います。

A. (生物学的な)機能で見る。

B. 発現変動のパターンで見る。

 

マイクロアレイ解析のフローチャート2: Next step
マイクロアレイ解析のフローチャート2: Next step

A. (生物学的な)機能で見る

何系の遺伝子が多いのかを見ます。(膜タンパク?転写因子?EMT関連遺伝子?薬剤耐性遺伝子?脂質代謝?) これに該当する解析が、GO解析DAVIDなどを使用)です。

B. 発現変動のパターンで見る

特定の注目する遺伝子に似た変動パターンの遺伝子を探します。また、どのサンプルの変動パターンが似ているかを見ます。(MDM4といっしょに増減した遺伝子はどれ?健常者に近いサンプルはどれ?) これに該当する解析が、クラスタリング(k-means, SOM)、ヒートマップです。

 

このA., B. の2通りの解析は、独立したものではなく、また、それだけでは終わりません。GO解析の結果をさらにヒートマップで表示して、発現変動変動のパターンを確認するケース(A. –> B.)や、特定の発現変動パターンの遺伝子を選択して、その機能をGO解析で確認するケース(B. –> A.) が通常です。それぞれの解析を単独で行っても効果的ではありません。(セルイノベーターの解析サービスでは、初めからこれらの解析サービスを含めて提供しています。)

解析はさらに続きます

 

さらに続く解析。A. から B. や、B. の後に A. を行って遺伝子群を絞り込む。
さらに続く解析。A. から B. や、B. の後に A. を行って遺伝子群を絞り込む。

最終的にマイクロアレイ解析の結果として、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」が得られます。(数十個から数 百個の遺伝子)

最終的に得られる遺伝子群。
最終的に得られる遺伝子群。
 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

これまでを振り返り、再度、マイクロアレイ解析の流れについて解説します。

下図にマイクロアレイ解析のフローチャートを示します。まずは、発現変動遺伝子の抽出までの流れです。左側にフローチャートの各ステップで得られるデータの形式を表記しています。右側に各ステップで行われる処理を示しています。

  • (1) ラベリング、ハイブリダイゼーション。
  • (2) スキャン、数値化。
  • (3) 正規化(コントロールを合わせる処理。全体の分布を統計的に合わせるもの (global normalization) が主流。
  • (4) シグナル値の比較。 ratio (fold-change), Z-score, p-value などを算出する。
  • (5) 発現変動遺伝子の抽出。算出された ratio, Z-score, p-value をもとに遺伝子発現が増加減少)した遺伝子をピックアップ。

 

マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出
マイクロアレイ解析のフローチャート1: 発現変動遺伝子の抽出

 

ここまでの解析ステップが、マイクロアレイの最も基礎的な解析ステップとなります。このステップで、遺伝子発現が増加減少)した遺伝子群のリストが得られます。しかしながら、変動している遺伝子(発現に差のある遺伝子)が、どれか分かっただけであり、その後の解析が必要です。通常、数百個から数千個の遺伝子が発現変動しています。

解析のステップとして、次に何をすべきでしょうか?