特定の組織で発現の高い遺伝子を探す(ES細胞だけで発現の高いものは?)

ヒートマップとクラスタリングを応用することで、特定の組織で発現の高い遺伝子を探すことも可能です。

例えば、ES細胞だけで発現の高い遺伝子を探してみましょう。

公開データ (GEO, BioGPS) を利用して、いろいろな組織のデータを取得

まず、データとしては、様々な組織のマイクロアレイデータが必要になります。個々の研究室レベルで揃えようと思うと大変ですが、幸い近年では公開データがあるので、うまく利用しましょう。

いろいろな組織の遺伝子発現を比較したければ、 BioGPS のデータが使えます。心臓、肝臓、肺などの種々の組織、約180サンプルぶんのマイクロアレイデータがあります。

クラスタリングしてヒートマップで表示

データを取得したら、正規化して、クラスタリングを行い、結果をヒートマップで表示します。ここでは、RMA と quantile アルゴリズムによって正規化し、階層的クラスタリングを行いました。

全遺伝子では結果を見るのが大変なので、正規化後、アノテーションを元に stem cell 関連遺伝子だけを抽出しています。また、MeV上で、シグナル値を log2変換して、中央値からの距離に変換しています。クラスタリングは、遺伝子方向、サンプル方向とも階層的クラスタリングで行っています。

結果は下図のようになります。遺伝子が縦に並んでいます(行)。組織(サンプル)が横に並んでいます(列)。

stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。
stem cell 関連遺伝子のクラスタリング結果。BioGPSのデータを利用。

ES細胞だけで発現が高い遺伝子

左から3分の1ほどの列に、ES細胞のデータ(4列)が並んでいます。これらの4列だけで、赤くなっている遺伝子があれば、それらが、ES細胞だけで発現が高い遺伝子です。

探してみると、真ん中より少し上にある遺伝子のクラスターに、ちょうど4列だけ赤い部分があります。ハイライトすると下図の部分です。遺伝子名を確認すると、Pou5f1 = Oct3, Nanog など有名な遺伝子が該当しているのが分かります。(見やすいように横方向を縮小しています。)

ES細胞だけで発現の高い遺伝子をハイライト。
ES細胞だけで発現の高い遺伝子をハイライト。

なお、色付けの設定から、「黒=発現していない」ではない、ので注意してください。