マイクロアレイデータにおける発現変動遺伝子の定義 (2-1)

ratio を用いた発現変動遺伝子の判定の問題点

前回、ratio を用いた発現変動遺伝子の判定基準を述べました。また、下記の3つの問題点を挙げました。今回は、それらの問題点への対策を述べます。

  1. しきい値ギリギリの遺伝子。 (1.9倍に増加している場合など)
  2. シグナル値が低く、 ratio は高い遺伝子。 (10 から 100 に増加した場合など。)
  3. シグナル値が高く、 ratio が低い遺伝子。 (40,000 から 60,000 に増加した場合など。)

問題1. しきい値ギリギリの遺伝子(1.9倍に増加した遺伝子など)

前回、発現変動遺伝子を判定する条件として、2倍(0.5倍)という、しきい値を挙げました。このとき、1.9倍に増加した遺伝子は、発現変動遺伝子と判定されません。わずかの差で発現変動遺伝子とならないのは、惜しい気がします。この場合、どうしたらいいのでしょうか?

解決策1: 「あきらめる」

解決策の1つは、「あきらめる」です。仮に1.9倍もOKとした場合、1.8倍はどうするのか?1.8倍もOKなら、1.7倍は、、、とキリがありません。必ず、どこかで線引きが必要になります。1.9倍は、なにも発現変動しなかったと言っているわけではありません。いったん、2倍という基準を用いて、その後の解析を行って、それから次点の発現変動遺伝子の候補を探しても遅くはないでしょう。また、発現変動遺伝子の判定基準を低く設定すると、新たな問題が発生します。それは、発現変動遺伝子と判定される遺伝子の数が多すぎるという問題です。発現変動遺伝子の数が数千個となった場合は、その後の解析に支障が出ます。(詳しくは別で述べます。)

解決策2: 「ratio 以外の判定基準を使用」

別の解決策としては、「ratio 以外の判定基準を使用する」というものが考えられます。これは、次の問題点の解決策でもあるので、次で述べます。(p-valueZ-score などがあります。)

解決策3:  「他の実験結果をつける」

論文投稿時であれば、リアルタイムPCRなど「他の実験結果をつける」という方法もあります。特定の遺伝子の発現変動の有無に注目されている場合、その特定の遺伝子の ratio が、しきい値以上になっていなければ気になる方も多いと思います。前回、述べたように、判定基準の2倍という数字に根拠はありません。そのため、ほかの実験で確認できているのであれば、1.9倍であっても、1.5倍であってもレビュワーから問題にされることは少ないです。

解決策4: 「正規化のアルゴリズムを変更する」

別の解決策としては、「正規化のアルゴリズムを変更する」というものです。異なるアルゴリズムを用いて正規化を行えば、正規化のシグナル値は、若干、異なる値となります。うまくいけば、あるアルゴリズムで正規化したときに 1.9 倍の増加であった遺伝子が、別のアルゴリズムで正規化されたときに2倍の増加になるかもしれません。ただ、この方法だと、すべての遺伝子のシグナル値に影響があるため、逆のことも起こります。2倍の増加であったものが、1.9倍の増加になるかもしれません。注目しているすべての遺伝子に都合良く、正規化できるアルゴリズムが存在するとは限りません(遺伝子ごとに正規化方法を変えることはできません)。この方法は、いささか、恣意的な行為と考えられるため、奥の手と言えます。

結論1

いくつかの問題点はありますが、 ratio で判定すること自体がイケナイわけではありません。(問題があることを理解した上で判定するのであれば。)また、1度、決めたら判定基準に従うのが無難です。しきい値ギリギリの遺伝子は諦めるのをお勧めします。必ず、どこかで線引きが必要になります。さらに、最近の論文では、マイクロアレイデータだけでは認められず、ほかの実験(リアルタイムPCRなど)の結果も求められることが多いです。そのとき、ほかの実験で結果が出ていれば、ratio の大きさは、あまり問題にされません。いずれにしろ、ほとんどのマイクロアレイデータでは、相当数(数百から千個程度)の遺伝子が発現変動遺伝子と判定されますので、まずは、それらの明らかに変動している遺伝子を中心に結果を見ていくのがよいでしょう。(あえて、微妙な変動を示す遺伝子にこだわる理由があれば別ですが。)

つづきます。

 

マイクロアレイデータにおける発現変動遺伝子の定義 (1)

発現変動遺伝子

マイクロアレイデータの正規化の次に行う処理は、「発現変動遺伝子」の抽出です。「発現変動遺伝子」とは、具体的には、シグナル値をコントロールと比較して上がっている(または下がっている)遺伝子のことです。

例えば、ある遺伝子のプローブについて、コントロールとサンプルのシグナル値が下記のようであったとします。

遺伝子名 コントロール サンプル
A 100 200

コントロールのシグナル値が100であるのに対して、サンプルのシグナル値は200です。直感的にサンプルのほうが高いことが分かります。どれくらい大きいかを議論するには、「」を用いる方法と、「」(何倍か)を用いる方法があります。マイクロアレイデータでは、「」を用いることが多いです。この場合、比=サンプル/コントロールを計算します。結果は、200/100 = 2 となります。つまり、遺伝子Aに関して、サンプルのシグナル値はコントロールの2倍に上がっていることになります。「」は、ratio または fold-change と表記されます。

では、何倍に上がっていれば(下がっていれば)、発現変動遺伝子といえるのでしょうか?

発現変動遺伝子の定義

多くの研究者にとって、マイクロアレイ解析に期待するのは、「どの遺伝子の発現が上がっていて、どの遺伝子の発現が下がっているのか」ということだと思います。つまり、どれが発現変動遺伝子なのかということですが、単純そうに見えて、残念ながら、それに対する明確な定義は存在しません。しかしながら、多くの人に用いられている判断基準というものは存在します。それは下記のようなものです。

  • 上がっている遺伝子(発現増加した遺伝子): ratio が2以上。つまり、2倍以上増加した遺伝子。
  • 下がっている遺伝子(発現減少した遺伝子): ratio が0.5以下。つまり、半分以下に減少した遺伝子。

なぜ、”2″ 倍なのかということに対する答えはありません。(科学的または統計的な根拠のある数字ではありません。)とりあえず、2倍以上であれば、「上がっている」ということに対して、多くの人が賛同できるであろうという見込みの数字です。ある研究者が、1.5倍でも上がっていると主張しても、この点に関しては全く問題ありません。

* ratio (fold-change), logFC

論文中において、シグナル値の比は、ratio または fold-change と表記されます。fold-change は省略されて「FC」とも表記されます。log変換されたシグナル値の比が、 “logFC” です。

問題点

ratio を求めるだけであれば、マイクロアレイデータの計算は単純です。データが複雑に感じられるかもしれませんが、遺伝子Aのようなデータを遺伝子の数だけ(例えば4万個)集めたのがマイクロアレイデータです。ratio を求める割り算を4万回繰り返すだけです。

マイクロアレイ解析の難しさは、それ以外のところにあります。2倍以上という基準を用いたとき、1.9倍はどう考えたらよいのでしょうか?また、シグナル値が10から100になったとき、ratioは10ですが、一方で、シグナル値が1,000から10,000になったとき、ratioは同じ10です。同列に扱ってもよいものでしょうか?また、シグナル値が、40,000 から 60,000 になった遺伝子はどうでしょうか? ratio としては 1.5 ですが、20,000増加しています。

つづきます

 

MeV の使い方 3. t-検定(続き)

例:t-検定の結果

  • 左側の “Analysis Results” に “T Tests” の結果が表示される。
  • “Significant Genes” に含まれる遺伝子群が、 t-検定の結果、有意となった遺伝子群。(標準の設定では、p-value < 0.01 で有意。0.01 または 0.05 を用いることが多い。)
  • サンプルデータの場合、有意となる遺伝子はない。すべての有意でない遺伝子は、 Non-significant Genes に表示される。

 

例:t-検定の結果

 

3.(3) 検定結果の色づけ

  • 現在の色づけは、他の遺伝子と比べている(図の赤枠)。遺伝子AとBが遺伝子Cより低いため、遺伝子AとBがになり、遺伝子Cがになっている。
  • 他のサンプルと比べて、シグナルの高いところは、低いところはになって欲しい。図に青枠で示されたように、遺伝子Cの6サンプル間での差を見たい。
  • 色づけのための調整が必要。調整の手段は、いろいろ考えられる。各遺伝子の中央値からの距離に変換してもよいし、各遺伝子の平均値からの距離(SD何個分か)に変換してもよい。ここでは、簡単な方法として、各遺伝子の中央値からの距離に変換する方法を紹介する。

 

推定結果の色づけ

3.(4) 遺伝子ごとの中央値からの距離を求める

1) “Adjust Data -> Gene/Row Adjustments -> Median Center Genes/Rows” を選択。 この処理は取り消すことができないので注意。元のシグナル値やほかの調整を行うには、データの読み込みから、すべての作業をやり直す必要がある。

2) 再度、“Display -> Set Color Scale Limits” を選択し、色づけのスケーリングを合わせる。

  • Lower Limit = -2
  • Midpoint Value = 0
  • Upper Limit = 2

*色の濃さは適宜、調節可能。中央値からの距離の場合、Midpoint Value は、0 以外を用いることはない。Lower = -1 , Upper Limit = 1 のように低く設定すると、色が濃くなり強調された状態となる。あまり、低い値を設定すると、どの遺伝子の差も大きいような誤解を与えるので注意。

 

遺伝子ごとの中央値からの距離
スケーリング後、再度、色づけをやり直した結果

 

3.(5) t-検定結果の保存

クラスタリング図を右クリックして出るメニューから、 “Save cluster…” を選択すると、画像ファイルとして結果を保存できる。

t-検定結果の保存
 

MeV の使い方 3. t-検定

Agilent のマイクロアレイデータを想定して、 MeV の操作方法を紹介します。

  1. MeV の起動とファイルの読み込み
  2. 階層的クラスタリング
  3. t-検定

3. t-検定

t-検定により、WT vs KO で差のある遺伝子を求める。

(1) 検定方法の選択

  • “Statistics” ボタンから “t Tests” を選択。
検定方法の選択

(2)  t-検定のパラメーター

検定を行った上で、有意な差を持つ遺伝子群のクラスタリング図を作成。

  • 1) “Between subjects” タブを選択。
  • 2) “Cluster Selection” タブを選択。
  • 3) 2つのグループに割り当てる。
  • 4) “Hierarchical Clustering” タブを選択。”Construct Hierarchical Trees for:” にチェックを入れる。
t-検定のパラメーター

続きます。

 

 

MeV の使い方 2. 階層的クラスタリング

Agilent のマイクロアレイデータを想定して、 MeV の操作方法を紹介します。

  1. MeV の起動とファイルの読み込み
  2. 階層的クラスタリング
  3. t-検定

2. 階層的クラスタリング

(1) クラスタリングの方向

ヒートマップのクラスタリングには、比較する方向によって、サンプル(横方向) と、遺伝子(縦方向)の2種類に分けられます。どちらの方向でクラスタリングを行うかは、見たいものによって異なります。似ているサンプルを知りたいときは、サンプル方向でクラスタリングを行います。(がん細胞と正常細胞のデータを比較する場合など。)また、発現パターンの似ている遺伝子を知りたい場合は、遺伝子方向でクラスタリングを行います。(特定の遺伝子に興味があり、その遺伝子と発現パターンの似ている遺伝子を探す場合。)

場合によっては、サンプル、遺伝子の両方向で行うこともあるかもしれません。ただ、サンプルが時系列に並んだタイムコースのデータの場合は、サンプル方向のクラスタリングは行わない方が、発現パターンが分かりやすいと思います。

クラスタリングの方向

(2) 階層的クラスタリング

MeV で階層的クラスタリングを行う方法です。

  • “Clustering” ボタンから “Hierarchical Clustering” を選択。
  • クラスタリングの各オプションは変更しなくてもよい。
階層的クラスタリング

例:クラスタリング結果

  • 左側の “Analysis Results” にクラスタリング結果が作成される。
  • ツリーの計算と結果の色づけ (赤、緑)は、独立した作業。
  • 1色で表示されているのは、log2 変換前のスケールで色づけされているため。(スケールの設定が合っていない。)
例:クラスタリング結果

(3) クラスタリング図の色づけ

クラスタリング図を適切な表示にするには、「色づけ」の作業が必要です。論文などではシグナル値の低い遺伝子を緑色、中間の遺伝子を黒色、高い遺伝子を赤色に色付けされることが多いです。しかしながら、シグナル値がどれくらい低ければ、緑色、どれくらい高ければ赤色という決まりはありません。よって、作者が色付けを定義しなければなりません。MeV では、下記の操作で色づけを定義できます。

  • 1) “Display -> Set Color Scale Limits” を選択。
  • 2) 色付けする Lower Limit, Midpoint Value, Upper Limit を入力

追記:Color Scale Limits ウィンドウ内の Color Range Selection には、 ()内に参考までの値が表示されています。Lower Limit に「最小値」、Midoint Value に「中央値」、Upper Limit に「最大値」が表示されますが、右側のボックスへの入力自体は、ユーザーが行わなければなりません。

クラスタリング図の色づけ

例: 色づけを変更した後のクラスタリング図

色づけを変更した後のクラスタリング図

(4) クラスタリング図の出力

作成したクラスタリング図は、画像ファイルとして出力できます。

  • 1) “File -> Save Image” を選択
  • 2) ファイル名を入力。 (.pngを付ける)
  • 3) 保存形式は、PNG を推奨。
クラスタリング図の出力