Connectivity Map

Connectivity Map は、 Broad Institute によって提供されている薬剤投与時のマイクロアレイデータのデータベースです。自分のデータにおいて変動した遺伝子が、「どの薬剤を加えた時に動いた遺伝子と似ているか?」を探すことができます。

Connectivity Map のログイン画面。メールアドレスを登録して利用。
Connectivity Map のログイン画面。メールアドレスを登録して利用。

論文は、2006年のものなので、データとしては新しくありません。使用されているマイクロアレイも当時のもの (Affymetrix GeneChip Human Genome U133A) です。

サンプル数が、6100個と多いのが特徴です。その中に、1300種類の薬剤を投与した時のデータがあります。ただ、使用されている細胞は限定的(5種類: HL60, MCF7, PC3, SKMEL5, ssMCF7)です。

Connectivity Map の結果の表示例。
Connectivity Map の結果の表示例。

MSigDBGSEA と同様に、メールアドレスを登録してから使用します。研究者自身のマイクロアレイデータ(遺伝子発現データ)において、変動していた遺伝子を増加 (up) と減少 (down) に分けて、アップロードすると、似ている薬剤のリストが表示されます。

 

NCBI からの塩基配列取得 (API)

NCBI のウェブサイトには、様々な情報が集積されています。遺伝子名などで検索をすると、非常に多くの情報が表示されます。しかしながら、場合によっては、一部の情報だけ取得できればいいこともあります。

塩基配列だけを取得するには?

例えば、ある遺伝子の塩基配列だけを閲覧したい場合です。特に、複数の遺伝子について、それぞれの配列を調べようと思うと、IDを何回も入力したり、何度もリンクをクリックしたり、という操作をしなくてはなりません。

塩基配列だけが欲しい場合。
塩基配列だけが欲しい場合。

このようなニーズに応えて、多くのウェブサイト(またはデータベース)には、データの取得専用の問い合わせ方法(APIなどと呼ばれます)が用意されていることがほとんどです。

特定の遺伝子の塩基配列だけを取得する

特定の遺伝子の塩基配列だけを取得するには、下記のアドレスに問い合わせます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

上記の例では、FASTA形式のファイルがダウンロードされます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

id の部分を変更すれば、ほかの遺伝子にも対応できます。また、rettype, retmode の部分を変更すれば、結果のファイルの形式の変更も可能です。

db の部分を変更すれば、タンパクの配列や、PubMed の情報も取得できます。どのようなオプションが使用できるかは、下記に詳しく書かれています。

http://www.ncbi.nlm.nih.gov/books/NBK25501/

 

cBioPortal 経由で TCGA のデータを閲覧 (4)

cBioPortal では、データをダウンロードすることもできます。操作は、閲覧するときと同様ですが、最初に “Query” ではなく、 “Download Data” タブを選択してから行います。

データのダウンロード手順。
データのダウンロード手順。

(1) Download Data タブをクリックします。

(2) データセット(がんの種類、 CancerStudy)を選択します。

(3) データの種類を選択します。RNASeq、microRNA、通常のマイクロアレイなどから選択します。 mRNA expression の Z-scores は、 Z-score 化されたシグナル値です。(ratio とは異なります。) コントロールまたは全サンプルの平均値から、標準偏差 (=SD) の何個ぶん離れているかを表したものです。Z-score > 2 (増加)もしくは、 Z-score < -2 (減少)で有意となります。

上図の例では、Z-score ではなく、シグナル値の形式を選択しています。

(4) 取得したい遺伝子名を Official Symbol で入力します。リストから決まった遺伝子群を選択することも可能です。

(5) Submit をクリックすると、タブ区切りのテキスト形式のデータを取得できます。

 

cBioPortal 経由で TCGA のデータを閲覧 (3)

cBioPortal を利用して、特定のがん(データセット、CancerStudy)における、特定の遺伝子群の発現変動を閲覧する方法を紹介します。この操作により、自分のマイクロアレイデータで発現変動していた遺伝子が、TCGAのデータではどう変動しているかチェックすることができます。

cBioPortal のホームには、データセットを選択するための、クエリーを入力する欄があります。ここから、

  1. データセット(がんの種類)
  2. データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )
  3. 見たい遺伝子群(遺伝子の名前)

を選択します。

1. クエリーから、データセットを選択

まず、データセット(がんの種類、 CancerStudy)を選択します。例では、 Lung Adenocarcinoma (TCGA, Nature, in press)を選択しています。

データセットを選択。
データセットを選択。

2. データ形式を選択

データ形式(変異、コピー数、マイクロアレイ、miRNA、RNASeq )を選択します。選んだデータセットによって、利用可能なデータ形式のみ表示されます。すべてのデータ形式があるとは限りません。例では、mRNA =マイクロアレイのデータを選択しています。

(また、必要に応じて、データセットに含まれるサンプルのうち、特定の患者のものだけを選択することも可能。)

データ形式を選択。
データ形式を選択。

3. 見たい遺伝子群の入力

データセットのうち、特定の遺伝子(群)を指定して閲覧できます。ボックスの中に、見たい遺伝子の Official Symbol 公式な遺伝子名)を入力します。あらかじめ、いくつかの有名な遺伝子については、リストが用意されているので、プルダウンメニューから選択してもよいでしょう。例では、Cell Cycle を選択しています。

遺伝子群を入力または選択する。
遺伝子群を入力または選択する。

入力された遺伝子名が見つからない場合は、その旨が表示されます。昔の名前や通称の場合は、NCBIなどで、公式な遺伝子名を確認してください。

入力後に、 Submit をクリックします。

Submit
Submit

4. 結果の表示(OncoPrint)

データを Submit すると、しばらくして、 OncoPrint という画面が表示されます。例では、マイクロアレイデータを選択したので、遺伝子ごとに、その遺伝子の発現が増加している(または減少している)サンプルがハイライトされて表示されます。ここでは、遺伝子発現の増加減少Z-score によって判定されています。ヘルプによると、 Z-score を算出するときのコントロールは、全がんサンプルの場合と、健常者のデータの場合があるようです。どちらが使われているか、個々のデータセットを確認してください。

OncoPrint による遺伝子発現の増減を表示。
OncoPrint による遺伝子発現の増減を表示。
 

cBioPortal 経由で TCGA のデータを閲覧 (2)

各データセット(CancerStudy)のサマリーのページから、各種の情報をたどることができます。例えば、”Mutated Genes” のタブをクリックすると、変異のある遺伝子を確認できます。

データセットのサマリーから、変異のある遺伝子のリストへ。
データセットのサマリーから、変異のある遺伝子のリストへ。

1. 変異のある遺伝子リスト

選択したデータセット(CancerStudy)において、変異のある遺伝子のリストが表示されます。ここを見れば、乳癌に多く変異のある遺伝子はどれか?肺がんに多い変異はどれか?、数百サンプルの情報を元に確認できます。

変異のある遺伝子のリスト。
変異のある遺伝子のリスト。

さらに遺伝子名をクリックすることで、染色体上のどの部分にミューテーション(=変異)があるかが表示されます。下には変異のある検体のリストが表示されます。また、図のピンをマウスでポイントすることで、どの検体に見られる変異なのか対応を確認できます。

さらに、上部のタブをクリックして、ほかの情報を参照できます。

変異のある遺伝子のリスト。
変異の位置と検体の関係。

2. 共発現(遺伝子発現の相関関係)

Co-Expression タブをクリックすると、(現在選択中の)変異のある遺伝子と、遺伝子発現レベルで相関のある遺伝子のリストを表示できます。元となるデータとしては、マイクロアレイや RNASeq のデータがあります。遺伝子名をクリックすると散布図の形で相関関係を確認できます。

共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。
共発現している遺伝子のリスト。遺伝子名をクリックすると散布図の形で相関関係を確認できる。

3. 生存曲線

Survival タブをクリックして、変異と生存曲線の関係を表示することもできます。

変異と生存曲線の関係。
変異と生存曲線の関係。

4. ネットワーク図

Network タブをクリックして、その他の関連する遺伝子をネットワーク図から確認できます。ネットワークの情報は、REACTOME などが用いられています。(表示には、Cytoscape のプラグインを利用。Adobe Flash Player が必要。)

その他の関連する遺伝子を表示したネットワーク図。
その他の関連する遺伝子を表示したネットワーク図。