繰り返し実験のばらつき(2)

前回は、同じ条件のサンプルを散布図で比較した例を紹介しました。同じデータを MA プロットでも見てみましょう。(見方は、こちらその続きを参照してください。)

繰り返しサンプルのMAプロット。シグナル値が低い部分で変動しているように見える。
繰り返しサンプルのMAプロット。シグナル値が低い部分で変動しているように見える。縦軸、横軸とも対数目盛りで表示。

ほとんどの遺伝子が、 0.5 < ratio < 2 の区間 (-1 < M < 1 の区間) に分布しています。つまり、発現変動していないように見えます(黒い部分)。

一方、一部の遺伝子は、 ratio = 2 または、 ratio = 0.5 のライン(赤線)を超えていることも確認できます。よく見ると、これらの遺伝子は、シグナル値の低い部分に多く見られることが分かります。図ではに色づけされた遺伝子が3300個ほどありますが、このうち、2サンプルのシグナル値の平均値が100以下のものが3100個ほどです。(例えば、WT1=50, WT2=100 で、ratio = 2 のものなど) 続きを読む 繰り返し実験のばらつき(2)

 

繰り返し実験のばらつき(1)

次の散布図を見てください。これは、GEOから取得した繰り返し実験を含むデータのうち、条件の同じ WT の2サンプルを比較したものです。(散布図の見方は前記事を参照。)

繰り返し実験における散布図の例。
繰り返し実験における散布図の例。

理想的に考えると、同じWTという条件で取得された遺伝子発現データなので、全く同じ結果、つまり、発現が変動している遺伝子が存在しないことが期待されるでしょう。確かに、大部分の遺伝子(4万遺伝子のうち3万以上は)変動していないように見えます。

しかしながら、変動しているように見える複数の遺伝子が、散布図から確認できます。(散布図の左上、または右下の点の存在。)

変動しているように見える遺伝子。
変動しているように見える遺伝子。

これらの遺伝子の変動は、いわゆる、「ばらつき」と考えられます。たまたま、変動したように見えただけで、次に同じ実験をしたら、観察されない変動かもしれません。

さらに、意識すべきポイントは、同じ条件であっても、たまたま変動しているように見えるものがあったということです。よって、WTとKOのように異なる条件で比較した際も、このような点が存在する可能性があるといえるでしょう。

したがって、マイクロアレイ実験の場合、1回しか実験しないことは、あまりおすすめできません。(RNA-seq も同様です。)

In particular, biological replication of each condition is crucial. –Nature Protocols, Vol.7, No.3, 2012, p569.

 

遺伝子名 (Gene Symbol) が変わる??

遺伝子名として、一般的なものは、 NCBI の Official Symbol でしょう。単に Gene Symbol と呼ばれたり、 Gene Name と呼ばれることもあります。

この遺伝子名 (Official Symbol) は、現在でも更新が続けられています。そのため、突然、これまで使用していた遺伝子名が変わってしまうということがありえます。

例えば、MDM2遺伝子は、以前 hdm2 と呼ばれていました。以前の呼び名は、各遺伝子のページの “Also known as” というところに一覧として載せてあります。そのため、以前の呼び名で、NCBIを検索しても見つけることができます。

MDM2遺伝子の別名。
MDM2遺伝子の別名。

どうやら、慣習的によく使われている名前であっても変更されることがあるようです。マイクロアレイ解析の結果においては、遺伝子名として、この Official Symbol を使用しますので、更新されていることに気がつかないと、変動しているはずの遺伝子を見つけられないということにもなります。

ちなみに、 MDM2 とすべて大文字で書いてある場合は、ヒトの遺伝子を示すことが多いです。その遺伝子のマウスのホモログは、 Mdm2 と、先頭だけ大文字にすると対応が取れることが多いです。

 

Homologene

ある遺伝子のホモログを知りたいときは、 NCBI の HomoloGene データベースが利用できます。

Homologene データベース。
Homologene データベース。

 

検索方法

遺伝子名などを入力して、”Search” をクリックすると、入力した遺伝子のホモログの一覧が表示されます。 続きを読む Homologene

 

転写因子を抽出(GOを使って)

マイクロアレイ解析の結果、発現が変動した遺伝子のうち、転写因子を抽出するには、どうすればよいでしょうか?

発現変動遺伝子のリストがエクセルの形式であるならば、アノテーションのうち、GOを検索する方法が考えられます。

何を選ぶ?

では、転写因子を抽出するには、どの GO を選べばよいでしょうか?これは意外に難しい問題でもあります。

まず、どのような用語が GO に登録されているか、AmiGOで探してみます。AmiGOを “transcription facotr” で検索すると、223個もの用語がヒットします。

AmiGO を "transcription factor" で検索した結果。
AmiGO を “transcription factor” で検索した結果。

続きを読む 転写因子を抽出(GOを使って)