Connectivity Map

Connectivity Map は、 Broad Institute によって提供されている薬剤投与時のマイクロアレイデータのデータベースです。自分のデータにおいて変動した遺伝子が、「どの薬剤を加えた時に動いた遺伝子と似ているか?」を探すことができます。

Connectivity Map のログイン画面。メールアドレスを登録して利用。
Connectivity Map のログイン画面。メールアドレスを登録して利用。

論文は、2006年のものなので、データとしては新しくありません。使用されているマイクロアレイも当時のもの (Affymetrix GeneChip Human Genome U133A) です。

サンプル数が、6100個と多いのが特徴です。その中に、1300種類の薬剤を投与した時のデータがあります。ただ、使用されている細胞は限定的(5種類: HL60, MCF7, PC3, SKMEL5, ssMCF7)です。

Connectivity Map の結果の表示例。
Connectivity Map の結果の表示例。

MSigDBGSEA と同様に、メールアドレスを登録してから使用します。研究者自身のマイクロアレイデータ(遺伝子発現データ)において、変動していた遺伝子を増加 (up) と減少 (down) に分けて、アップロードすると、似ている薬剤のリストが表示されます。

 

KEGG パスウェイ色付け (KEGG WebLinks)

KEGG Mapper による色付けでは、1つのシンボルの色は、1色しか指定できません。そのため、解析例1のようなタイムコースのデータの場合、パスウェイ上での色の変化を時系列で観察するには、各タイムポイントの比較結果ごとに色付けを繰り返し行うことになります。

タイムコースデータの色付け

解析例1の場合は、16hr, 24hr, 40hr の3パターンの比較結果があるので、3回色付けを行います。前回は、24hr の結果で色付けを行っていました。このデータの場合、16hr は1つも色がつかない(変動している遺伝子が KEGG の Apoptosis にヒットしない)ので省略します。40hr の変動遺伝子を色付けした結果を下図に示します。

40hr の発現変動遺伝子を色付けした場合。
40hr の発現変動遺伝子を色付けした場合。

24hr の結果と比べると、PKAに色がつかなくなっています。これらの色付けされたパスウェイの図だけを見るならば、 16hr で1つも色がつかず、24hr, 40hr で CASP12 などが増加しているように見えるため、 Apoptosis が活性化しているような印象を与えるかもしれません。(閾値ぎりぎりで、変動ありとなっていない場合もありますので、正確には、エクセルなどでシグナル値をチェックする必要があります。)

KEGG WebLinks の利用

このように、複数のパターンで(or 複数のパスウェイに対して)色付けする必要がある場合は、 KEGG WebLinks を利用するのが便利です。

KEGG WebLinks の書式。
KEGG WebLinks の書式。

URL (リンク)に決まった書式(フォーマット)で、 IDカラーを指定することで、色付けしたパスウェイの結果にアクセスできます。

今回の例であれば、下記のようなアドレスとなります。(詳しい書式は、KEGG WebLinks のページを参照してください。)

http://www.kegg.jp/kegg-bin/show_pathway?map=hsa04210&multi_query=100506742+%23FF6699%2C%23000000%0A23533+%23FF6699%2C%23000000%0A

KEGG WebLinks を利用することで、直接結果にアクセスできるため、前回のようなフォームに入力する手間を省くことができます。

 

マイクロアレイデータの解析例 1.8 (KEGG パスウェイに ratio で色付けする)

発現変動遺伝子を抽出した結果、特定のパスウェイの変動を確認するには、 KEGG パスウェイデータベースを利用できます。

KEGG のパスウェイのうち、「どのパスウェイに発現変動遺伝子が多く含まれるか」は、DAVID の結果からも確認できます。しかし、その場合は、パスウェイ上の発現変動遺伝子が☆印で示されるだけであり、増加しているのか、減少しているのかは、すぐには確認できません。(元のエクセルファイルで ratio をチェックすることになります。)

KEGG パスウェイに ratio で色付けする

KEGG には、 KEGG Mapper というサービスがあります。このサービスを使えば、特定のパスウェイの遺伝子に、増加したものは減少したものは、といった具合に色付けができます。

KEGG Mapper による色付けの指定。
KEGG Mapper による色付けの指定。

KEGG Mapper の Search against に生物種名を指定します。human なら、hsa になります。(mouse は、 mmu)

フィールドの中に、 EntrezGeneIDcolorスペース区切りで入力します。複数の遺伝子に色付けする場合は、さらに , (カンマ)と改行で区切って続けます。

どの遺伝子を、どの色にするかは、発現変動遺伝子のリストを元に ratio の値を確認して、決めてください。上の例では、解析例1の 24hr の比較 (sample2/control2) において増加していた3つの遺伝子を指定しています。(この段階で、色付けしたいパスウェイの名前を指定する必要はありません。)

下部の Exec をクリックすると、検索結果の一覧が表示されます。

パスウェイの検索結果。
パスウェイの検索結果。

前述のフィールドに入力した遺伝子が、多くヒットしたパスウェイの順に検索結果が表示されます。さらに、パスウェイの名前をクリックして、色付けの結果を確認します。

ratio で色付けされたパスウェイの例。
ratio で色付けされたパスウェイの例。

エクセルのデータから確認できるように、このパスウェイ上の遺伝子のうち、変動していたのは3つだけでした。増加していたものがありましたが、減少したものはありません。DAVIDの結果によると、Apoptosis のアノテーションを持つものは 20 個程度あるはずですが、そのうちの3遺伝子が KEGG に登録されていたことになります。(全ての遺伝子がパスウェイ上に表示されるわけではありません。)

この結果からも、アポトーシスが活性化されたというには、今ひとつ説得力に欠けるように思います(数が少ない)。CASP3 につながる CASP12 は増加していますが、 CASP3 は変動していません。ただ、 CASP3 のシグナル値を確認すると、5000程度はあるので、発現していないわけではないと考えられます。タンパクレベルで、活性化されるのであれば、mRNAの変動はなくても説明がつくのかもしれません。

 

マイクロアレイデータの解析例 1.7 (変動パターン、ヒートマップ)

前回は、先に特定の機能の遺伝子をピックアップし、その後、ヒートマップで変動パターンをチェックする方法を紹介しました。これに対し、先に変動パターンをチェックするという方法もあります。

変動パターンで抽出したのち、ヒートマップを確認する

解析例1のデータは、各タイムポイントごとに、3つの比較を行いました。

  • 16hr: sample1/control1
  • 24hr: sample2/control2
  • 40hr: sample3/control3

この3つの比較のいずれかの比較において、変動している遺伝子増加:ratio>2 かつ Z-score > 2、減少:ratio < 0.5 かつ Z-score < -2)の遺伝子を抽出して、ヒートマップを作成しました。ヒートマップの色付けなどは、これまでと同様です(logFC の中央値からの距離)。図には、2678個の変動遺伝子が含まれています。縮小しているため、画像のサイズは前回のアポトーシスのヒートマップと同じですが、こちらが多くの遺伝子が含まれています。

いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。
いずれかの比較で変動した遺伝子のヒートマップ。変動パターンを確認できる。

ヒートマップを見ることで、変動パターンを把握できます。例えば、16hrと24hrで共通に増加した遺伝子があるのか、24hrと40hrで共通に減少した遺伝子があるのか、あるとしたら何個くらいか、すべてヒートマップから見て取れます(数値は、おおよそではありますが)。

「共通の変動遺伝子が何個ある」というのをチェックするために、「ベン図」が用いられることもありますが、比較の組み合わせが、2つのときはよくても、今回のように3つ以上の場合は、複雑になりますので、ヒートマップで確認することをお勧めします。(また、マイクロアレイデータの場合、データの見せ方にもよりますが、変動遺伝子の個数には、あまり意味がない場合が多いです。)

特徴的な変動パターンから機能解析 (DAVID)

実験条件から、いくつかの変動パターンが予想されるかもしれませんが、もし、特徴的なパターンがあるのなら、ヒートマップで見えるはずです。このデータの場合、24hrだけで増加、40hrだけで増加という部分が特徴的なようです。(=なぜか、16hrだけ増加は少ない?)

すべての変動パターンが見られる。
すべての変動パターンが見られる。

ヒートマップの結果、気になる変動パターンが見つかれば、その部分だけを取り出して、再び、DAVIDなどで確認します。そうすれば、24hrだけで増加する遺伝子に、何系の遺伝子が多いのか、判断できます。しかしながら、その結果、生物学的な意味があるのかは、個人の仮説次第です。(ヒートマップから結論が得られるわけではありません。)

参考:

  • ヒートマップの拡大図
  • 発現変動遺伝子のエクセルファイル。エクセルのフィルター機能を使えば、特定のパターンの部分だけ取り出せます。
 

マイクロアレイデータの解析例 1.6 (機能で抽出、ヒートマップ)

解析例1の続きです。あらかじめ、アポトーシス関連の遺伝子に変動が見られることが予想されるのであれば、 アノテーションをもとにそれらの遺伝子をピックアップして(抽出して)、ヒートマップを書いてみても良いでしょう。

アポトーシス関連遺伝子を抽出してヒートマップを作成

アポトーシス関連遺伝子を抽出して、ヒートマップを作成した例を示します。(ヒートマップの作成方法は、リンク先を参照してください。)

アポトーシス関連遺伝子のヒートマップ(縮小図)。
アポトーシス関連遺伝子のヒートマップ(縮小図)。

ここでは、概略を見るために、発現変動の有無に関わらず、アポトーシス関連のアノテーションを持つ遺伝子を全て抽出しています。また、ヒートマップの色付けは、各遺伝子ごとにログ変換されたシグナル値の中央値からの距離を色付けしています。結果、色の意味としては、その他のサンプルより低いものは緑に、中程度のものは黒に、その他のサンプルより高いものは赤に見えています。(横での比較(サンプルどうし)のみに意味があります。縦での比較(遺伝子どうし)に意味はありません。)

遺伝子名を確認するには、拡大図を参照してください。

の順に高くなるため、左から、の順に色付けされていれば、いずれのタイムポイントにおいても減少する傾向にあると言えます。

逆に、左から、の順に色付けされていれば、いずれのタイムポイントにおいても増加する傾向にあると言えます。

縮小図を見た印象としては、アポトーシス関連遺伝子全体としては、それほど、タイムポイントによる違いが見えている部分はないようです。(DAVIDでも20個程度しか見つからないようです。)また、増加減少の傾向が見えている部分も変動幅は大きくないように見えます。さらに、コントロールのサンプル内でもタイムポイントによって増減しているように見える部分があるのも気になります。

アポトーシス関連遺伝子に見られる変動パターン。
アポトーシス関連遺伝子に見られる変動パターン。

色だけでは、正確な変動は分からないため、最終的には、シグナル値、ratio, Z-score の値を確認します。ヒートマップは、あくまで、おおまかな傾向を掴むものと考えてください。