マイクロアレイのイメージの誤解

マイクロアレイと聞いて、最初に思い浮かぶイメージはどのようなものでしょうか?多くの人が、の画像をイメージするでしょう。しかし、この画像は誤解されたイメージかもしれません。

おそらく、イメージは、下の2パターンに別れると思います。

マイクロアレイのイメージ



左側をイメージされた方、正解です。これは、マイクロアレイの2色法のイメージです。比較するサンプルをの2色でラベルするので、そう呼ばれています(two color, two channelとも)。一方のサンプルで高い発現を示す遺伝子は、またはに見え、両方のサンプルで発現している遺伝子は、に見え、両方のサンプルで発現していない遺伝子はに見えるという原理です。

しかし、これは古いイメージといえるでしょう。ここ数年の間にマイクロアレイの環境は変わり、近年では1色法が主流です。実際に NCBI のマイクロアレイのデータベースである Gene Expression Omnibus (GEO) に登録されているマイクロアレイデータのほとんどが、 Affymetrix 社の GeneChip® であり、 この GeneChip® は、1色法のマイクロアレイです。また、Agilent 社のマイクロアレイも2色法と1色法の両方に対応しています。

1色でどうやって比較するのか?と疑問を持たれる方もいるかもしれません。端的に言って、マイクロアレイ解析とは画像処理ではありません。解析に用いるのは数値となったデータであり、単純に数字の大小を比較しているに過ぎないのです。考え方としては、1色でも濃淡で比較できると考えていただいてもよいかもしれません。(1色法、2色法それぞれにデメリットとメリットがあります。)

 

マイクロアレイ != ヒートマップ

右の画像をイメージされたかたも、ある意味正解です。正確にはヒートマップですが、マイクロアレイデータの表示方法として、論文によく登場するため、このイメージが強いのかもしれません。

しかし、「1色法なのに、どうして、の色がついているのだろう?」と思われた方もいるのではないでしょうか。その場合は、本サイトの「MeV の使い方 3. t-検定(続き)」などをご覧ください。シグナル値の色づけは自由です。コントラストが強いため、を選ばれることが多いのでしょう。

色とシグナル値の大きさの関係

また、色の意味が異なることにご注意ください。=発現が高い=発現が低い黒=発現していない、ではありません。「黒=発現していない」というのは、上記に述べた2色法の画像での話です。ヒートマップにおいて、「黒=中くらいの値(高くも低くもない)」を意味します。また、ヒートマップの色には「黄(オレンジ)」がないことにもご注意ください。

マイクロアレイの画像とヒートマップは、まったく異なるものです。マイクロアレイの画像を整理して並べ替える(クラスタリング処理する)と、ヒートマップが得られるというものではありません。

 

ヒートマップとクラスタリング図

これらの2つの用語は、同じような意味で使われます。しかし、厳密には少し違った意味を持っています。「ヒートマップ」のほうが、広い意味を持っていると言えます。「クラスタリング図」は、いわば、クラスタリング処理を施されたヒートマップです。よって、どちらか分からない場合は、ヒートマップと呼ぶほうが無難でしょう。

クラスタリング処理は、簡単にいうと、並べ替えです。ヒートマップ中の個々の遺伝子を、発現パターンの似ている順に並べる作業です。また、並べ方には、方向があります。サンプルを似ている順に並べるか、遺伝子を似ている順に並べるか、というものです。

例:3つのサンプルA, B, C があり、それぞれ、gene1, gene2, gene3 のシグナル値を測定したとします。

サンプルA サンプルB サンプルC
gene1 30 20 35
gene2 10 50 15
gene3 10 20 15

クラスタリング図(=クラスタリング処理したヒートマップ)

クラスタリング:サンプルを似ている順に並べ替え
クラスタリング:遺伝子を似ている順に並べ替え

両方向というパターンもあります。

クラスタリング:サンプルを似ている順に並べ替え+遺伝子を似ている順に並べ替え
 

マイクロアレイデータにおける発現変動遺伝子の定義 (2-1)

ratio を用いた発現変動遺伝子の判定の問題点

前回、ratio を用いた発現変動遺伝子の判定基準を述べました。また、下記の3つの問題点を挙げました。今回は、それらの問題点への対策を述べます。

  1. しきい値ギリギリの遺伝子。 (1.9倍に増加している場合など)
  2. シグナル値が低く、 ratio は高い遺伝子。 (10 から 100 に増加した場合など。)
  3. シグナル値が高く、 ratio が低い遺伝子。 (40,000 から 60,000 に増加した場合など。)

問題1. しきい値ギリギリの遺伝子(1.9倍に増加した遺伝子など)

前回、発現変動遺伝子を判定する条件として、2倍(0.5倍)という、しきい値を挙げました。このとき、1.9倍に増加した遺伝子は、発現変動遺伝子と判定されません。わずかの差で発現変動遺伝子とならないのは、惜しい気がします。この場合、どうしたらいいのでしょうか?

解決策1: 「あきらめる」

解決策の1つは、「あきらめる」です。仮に1.9倍もOKとした場合、1.8倍はどうするのか?1.8倍もOKなら、1.7倍は、、、とキリがありません。必ず、どこかで線引きが必要になります。1.9倍は、なにも発現変動しなかったと言っているわけではありません。いったん、2倍という基準を用いて、その後の解析を行って、それから次点の発現変動遺伝子の候補を探しても遅くはないでしょう。また、発現変動遺伝子の判定基準を低く設定すると、新たな問題が発生します。それは、発現変動遺伝子と判定される遺伝子の数が多すぎるという問題です。発現変動遺伝子の数が数千個となった場合は、その後の解析に支障が出ます。(詳しくは別で述べます。)

解決策2: 「ratio 以外の判定基準を使用」

別の解決策としては、「ratio 以外の判定基準を使用する」というものが考えられます。これは、次の問題点の解決策でもあるので、次で述べます。(p-valueZ-score などがあります。)

解決策3:  「他の実験結果をつける」

論文投稿時であれば、リアルタイムPCRなど「他の実験結果をつける」という方法もあります。特定の遺伝子の発現変動の有無に注目されている場合、その特定の遺伝子の ratio が、しきい値以上になっていなければ気になる方も多いと思います。前回、述べたように、判定基準の2倍という数字に根拠はありません。そのため、ほかの実験で確認できているのであれば、1.9倍であっても、1.5倍であってもレビュワーから問題にされることは少ないです。

解決策4: 「正規化のアルゴリズムを変更する」

別の解決策としては、「正規化のアルゴリズムを変更する」というものです。異なるアルゴリズムを用いて正規化を行えば、正規化のシグナル値は、若干、異なる値となります。うまくいけば、あるアルゴリズムで正規化したときに 1.9 倍の増加であった遺伝子が、別のアルゴリズムで正規化されたときに2倍の増加になるかもしれません。ただ、この方法だと、すべての遺伝子のシグナル値に影響があるため、逆のことも起こります。2倍の増加であったものが、1.9倍の増加になるかもしれません。注目しているすべての遺伝子に都合良く、正規化できるアルゴリズムが存在するとは限りません(遺伝子ごとに正規化方法を変えることはできません)。この方法は、いささか、恣意的な行為と考えられるため、奥の手と言えます。

結論1

いくつかの問題点はありますが、 ratio で判定すること自体がイケナイわけではありません。(問題があることを理解した上で判定するのであれば。)また、1度、決めたら判定基準に従うのが無難です。しきい値ギリギリの遺伝子は諦めるのをお勧めします。必ず、どこかで線引きが必要になります。さらに、最近の論文では、マイクロアレイデータだけでは認められず、ほかの実験(リアルタイムPCRなど)の結果も求められることが多いです。そのとき、ほかの実験で結果が出ていれば、ratio の大きさは、あまり問題にされません。いずれにしろ、ほとんどのマイクロアレイデータでは、相当数(数百から千個程度)の遺伝子が発現変動遺伝子と判定されますので、まずは、それらの明らかに変動している遺伝子を中心に結果を見ていくのがよいでしょう。(あえて、微妙な変動を示す遺伝子にこだわる理由があれば別ですが。)

つづきます。