繰り返し実験のばらつき(1)

次の散布図を見てください。これは、GEOから取得した繰り返し実験を含むデータのうち、条件の同じ WT の2サンプルを比較したものです。(散布図の見方は前記事を参照。)

繰り返し実験における散布図の例。
繰り返し実験における散布図の例。

理想的に考えると、同じWTという条件で取得された遺伝子発現データなので、全く同じ結果、つまり、発現が変動している遺伝子が存在しないことが期待されるでしょう。確かに、大部分の遺伝子(4万遺伝子のうち3万以上は)変動していないように見えます。

しかしながら、変動しているように見える複数の遺伝子が、散布図から確認できます。(散布図の左上、または右下の点の存在。)

変動しているように見える遺伝子。
変動しているように見える遺伝子。

これらの遺伝子の変動は、いわゆる、「ばらつき」と考えられます。たまたま、変動したように見えただけで、次に同じ実験をしたら、観察されない変動かもしれません。

さらに、意識すべきポイントは、同じ条件であっても、たまたま変動しているように見えるものがあったということです。よって、WTとKOのように異なる条件で比較した際も、このような点が存在する可能性があるといえるでしょう。

したがって、マイクロアレイ実験の場合、1回しか実験しないことは、あまりおすすめできません。(RNA-seq も同様です。)

In particular, biological replication of each condition is crucial. –Nature Protocols, Vol.7, No.3, 2012, p569.

 

遺伝子名 (Gene Symbol) が変わる??

遺伝子名として、一般的なものは、 NCBI の Official Symbol でしょう。単に Gene Symbol と呼ばれたり、 Gene Name と呼ばれることもあります。

この遺伝子名 (Official Symbol) は、現在でも更新が続けられています。そのため、突然、これまで使用していた遺伝子名が変わってしまうということがありえます。

例えば、MDM2遺伝子は、以前 hdm2 と呼ばれていました。以前の呼び名は、各遺伝子のページの “Also known as” というところに一覧として載せてあります。そのため、以前の呼び名で、NCBIを検索しても見つけることができます。

MDM2遺伝子の別名。
MDM2遺伝子の別名。

どうやら、慣習的によく使われている名前であっても変更されることがあるようです。マイクロアレイ解析の結果においては、遺伝子名として、この Official Symbol を使用しますので、更新されていることに気がつかないと、変動しているはずの遺伝子を見つけられないということにもなります。

ちなみに、 MDM2 とすべて大文字で書いてある場合は、ヒトの遺伝子を示すことが多いです。その遺伝子のマウスのホモログは、 Mdm2 と、先頭だけ大文字にすると対応が取れることが多いです。

 

MA プロット (MA Plot)

ボックスプロット、散布図、ヒストグラムのほかに、マイクロアレイのデータの代表的な表示方法として、MAプロット(えむえーぷろっと) [1] があります。図形としては、散布図を45度回転させたようなイメージです。

MAプロットに用いるデータ

MAプロットは、2サンプルのデータの関係を表します。散布図では、log2変換されたシグナル値がそのまま用いられますが、MAプロットを書くためには事前に計算作業が必要です。その名の通り、2サンプルのデータから、MAの値を算出して使用します。ここで、M は「log2変換されたシグナル値の差」であり、A は「log2変換されたシグナル値の平均値」です。数式では、次のように書けます。

  • M = log2(実験サンプル) – log2(コントロールサンプル)
  • A =  { log2(実験サンプル) + log2(コントロールサンプル) } / 2

M は、「log2変換されたシグナル値の差」つまり、logFC のことです。また、A は、Average の A と覚えるとよいでしょう。

MAplot
MA プロットの例。

作図方法については、wikipedia などで紹介されています[2]。当初は2色法のデータをもとに提案されていたため、2サンプルとして、R: redG: green の表記がされていることもありますが、1色法でもMAプロットは使えます。MAプロットは、散布図のひとつです。ただ、シグナル値の代わりにMとAの値を算出して用いているだけです。MとAの値を算出してしまえば、散布図なので、エクセルでも比較的簡単に書けるでしょう。

続きを読む MA プロット (MA Plot)

 

マイクロアレイ解析のフローチャート3(上流解析)

マイクロアレイ解析のフローチャート2までの結果として、「特定の(生物学的な)機能を持ち、かつ、特定の発現変動パターンを示した遺伝子群」が得られます。典型的なデータの場合、それは、数十から数百個の遺伝子となります。

フローチャート2までに得られた遺伝子群。
フローチャート2までに得られた遺伝子群。

次のステップとしては、いろいろ考えられます。その中でも定番ともいえる手法が、「上流解析」です。上流解析の考え方は、次のようなものです。

フローチャート2までに得られた遺伝子群は、同じ発現変動パターンを示しています。つまり、同じ遺伝子Xによって制御されているのでは?と想像します。もし、そのような遺伝子Xが存在するのであれば、その遺伝子Xの変化こそが、特定の遺伝子群を動かした原因と言えるのではないでしょうか?

特定の遺伝子群を制御するような遺伝子Xの存在。
特定の遺伝子群を制御するような遺伝子Xの存在。

マイクロアレイ解析の結果から、特定の遺伝子群が動いていた、その原因または理由を知りたいときは、この上流解析が1つの手段です。

では、どうやって、この遺伝子Xを探すのでしょうか?まず、遺伝子群をリストとして眺めていたのでは全体のイメージがつかみにくいでしょう。同じ機能を持った遺伝子どうしは、シグナル伝達や転写制御など、何らかの制御関係を持っているはずです。よって、それらの情報とともに見ることで、遺伝子どうしの前後関係がつかみやすくなります。これを行うのが、パスウェイ解析ネットワーク解析と呼ばれる手法です。

変動した遺伝子群をパスウェイネットワークの図に当てはめてみて、そこから、遺伝子Xを探そうというものです。

パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。
パスウェイやネットワーク図に当てはめて、遺伝子Xを探す。

 

 

log fold-change (=logFC or log ratio) の算出方法の確認(解答)

前投稿の解答です。WT と KO に、それぞれ具体的な値を入れてみると、分かりやすいかもしれません。

たとえば、WT = 128, KO = 256 であったとします。ratio = KO/WT なので、 256/128 = 2 となり、通常の ratio は、2 です。つまり、2倍に増加したことになります。では、logFC では、どうでしょうか?

  1. 先に log2 変換するので、式で書くと、 log2(KO) / log2(WT) となります。log2(256) = 8, log2(128) = 7 なので、logFC = 8/7 = 1.142 ?? 間違いです。
  2. 後で log2 変換するので、式で書くと、 log2(KO/WT) となります。 log2(256/128) = log2(2) = 1 で、正しいです。
  3. log2 変換してから、差をとります。式では、 log2(KO) – log2(WT) となります。log2(256) – log2(128) = 8-7 = 1 で、これも正しいです。
  4. 先に差をとってから、log2 変換するので、 log2(KO – WT) と書けます。log2(256 – 128) = log2 (128) = 7 ?? 間違いです。
  5. WT = 128, KO = 256 なら、logFC = 2 ?? WT = 256, KO = 128 なら logFC = -2 ?? 間違いです。

正解は、 2. と 3. です。どちらの計算方法でもよいのですが、log2変換されていれば、割り算ではないことに注意が必要です。

計算に用いているシグナル値が、log2変換された値 (log2-transformed) なのか、log2変換されていない値 (non-log) かを確認しておきましょう。