発現変動遺伝子
マイクロアレイデータの正規化の次に行う処理は、「発現変動遺伝子」の抽出です。「発現変動遺伝子」とは、具体的には、シグナル値をコントロールと比較して上がっている(または下がっている)遺伝子のことです。
例えば、ある遺伝子のプローブについて、コントロールとサンプルのシグナル値が下記のようであったとします。
遺伝子名 |
コントロール |
サンプル |
A |
100 |
200 |
コントロールのシグナル値が100であるのに対して、サンプルのシグナル値は200です。直感的にサンプルのほうが高いことが分かります。どれくらい大きいかを議論するには、「差」を用いる方法と、「比」(何倍か)を用いる方法があります。マイクロアレイデータでは、「比」を用いることが多いです。この場合、比=サンプル/コントロールを計算します。結果は、200/100 = 2 となります。つまり、遺伝子Aに関して、サンプルのシグナル値はコントロールの2倍に上がっていることになります。「比」は、ratio または fold-change と表記されます。
では、何倍に上がっていれば(下がっていれば)、発現変動遺伝子といえるのでしょうか?
発現変動遺伝子の定義
多くの研究者にとって、マイクロアレイ解析に期待するのは、「どの遺伝子の発現が上がっていて、どの遺伝子の発現が下がっているのか」ということだと思います。つまり、どれが発現変動遺伝子なのかということですが、単純そうに見えて、残念ながら、それに対する明確な定義は存在しません。しかしながら、多くの人に用いられている判断基準というものは存在します。それは下記のようなものです。
- 上がっている遺伝子(発現増加した遺伝子): ratio が2以上。つまり、2倍以上増加した遺伝子。
- 下がっている遺伝子(発現減少した遺伝子): ratio が0.5以下。つまり、半分以下に減少した遺伝子。
なぜ、”2″ 倍なのかということに対する答えはありません。(科学的または統計的な根拠のある数字ではありません。)とりあえず、2倍以上であれば、「上がっている」ということに対して、多くの人が賛同できるであろうという見込みの数字です。ある研究者が、1.5倍でも上がっていると主張しても、この点に関しては全く問題ありません。
* ratio (fold-change), logFC
論文中において、シグナル値の比は、ratio または fold-change と表記されます。fold-change は省略されて「FC」とも表記されます。log変換されたシグナル値の比が、 “logFC” です。
問題点
ratio を求めるだけであれば、マイクロアレイデータの計算は単純です。データが複雑に感じられるかもしれませんが、遺伝子Aのようなデータを遺伝子の数だけ(例えば4万個)集めたのがマイクロアレイデータです。ratio を求める割り算を4万回繰り返すだけです。
マイクロアレイ解析の難しさは、それ以外のところにあります。2倍以上という基準を用いたとき、1.9倍はどう考えたらよいのでしょうか?また、シグナル値が10から100になったとき、ratioは10ですが、一方で、シグナル値が1,000から10,000になったとき、ratioは同じ10です。同列に扱ってもよいものでしょうか?また、シグナル値が、40,000 から 60,000 になった遺伝子はどうでしょうか? ratio としては 1.5 ですが、20,000増加しています。
つづきます。