NCBI からの塩基配列取得 (API)

NCBI のウェブサイトには、様々な情報が集積されています。遺伝子名などで検索をすると、非常に多くの情報が表示されます。しかしながら、場合によっては、一部の情報だけ取得できればいいこともあります。

塩基配列だけを取得するには?

例えば、ある遺伝子の塩基配列だけを閲覧したい場合です。特に、複数の遺伝子について、それぞれの配列を調べようと思うと、IDを何回も入力したり、何度もリンクをクリックしたり、という操作をしなくてはなりません。

塩基配列だけが欲しい場合。
塩基配列だけが欲しい場合。

このようなニーズに応えて、多くのウェブサイト(またはデータベース)には、データの取得専用の問い合わせ方法(APIなどと呼ばれます)が用意されていることがほとんどです。

特定の遺伝子の塩基配列だけを取得する

特定の遺伝子の塩基配列だけを取得するには、下記のアドレスに問い合わせます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

上記の例では、FASTA形式のファイルがダウンロードされます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

id の部分を変更すれば、ほかの遺伝子にも対応できます。また、rettype, retmode の部分を変更すれば、結果のファイルの形式の変更も可能です。

db の部分を変更すれば、タンパクの配列や、PubMed の情報も取得できます。どのようなオプションが使用できるかは、下記に詳しく書かれています。

http://www.ncbi.nlm.nih.gov/books/NBK25501/

 

主流メーカー (Affymetrix, Agilent) のマイクロアレイ製品の特徴

近年の使用されている主なマイクロアレイ製品のメーカーとして、 Affymetrix, Agilent の2社があります。それぞれのメーカーの製品の主な特徴をあげます。 続きを読む 主流メーカー (Affymetrix, Agilent) のマイクロアレイ製品の特徴

 

遺伝子名 (Gene Symbol) が変わる??

遺伝子名として、一般的なものは、 NCBI の Official Symbol でしょう。単に Gene Symbol と呼ばれたり、 Gene Name と呼ばれることもあります。

この遺伝子名 (Official Symbol) は、現在でも更新が続けられています。そのため、突然、これまで使用していた遺伝子名が変わってしまうということがありえます。

例えば、MDM2遺伝子は、以前 hdm2 と呼ばれていました。以前の呼び名は、各遺伝子のページの “Also known as” というところに一覧として載せてあります。そのため、以前の呼び名で、NCBIを検索しても見つけることができます。

MDM2遺伝子の別名。
MDM2遺伝子の別名。

どうやら、慣習的によく使われている名前であっても変更されることがあるようです。マイクロアレイ解析の結果においては、遺伝子名として、この Official Symbol を使用しますので、更新されていることに気がつかないと、変動しているはずの遺伝子を見つけられないということにもなります。

ちなみに、 MDM2 とすべて大文字で書いてある場合は、ヒトの遺伝子を示すことが多いです。その遺伝子のマウスのホモログは、 Mdm2 と、先頭だけ大文字にすると対応が取れることが多いです。

 

log fold-change (=logFC or log ratio) の算出方法の確認(解答)

前投稿の解答です。WT と KO に、それぞれ具体的な値を入れてみると、分かりやすいかもしれません。

たとえば、WT = 128, KO = 256 であったとします。ratio = KO/WT なので、 256/128 = 2 となり、通常の ratio は、2 です。つまり、2倍に増加したことになります。では、logFC では、どうでしょうか?

  1. 先に log2 変換するので、式で書くと、 log2(KO) / log2(WT) となります。log2(256) = 8, log2(128) = 7 なので、logFC = 8/7 = 1.142 ?? 間違いです。
  2. 後で log2 変換するので、式で書くと、 log2(KO/WT) となります。 log2(256/128) = log2(2) = 1 で、正しいです。
  3. log2 変換してから、差をとります。式では、 log2(KO) – log2(WT) となります。log2(256) – log2(128) = 8-7 = 1 で、これも正しいです。
  4. 先に差をとってから、log2 変換するので、 log2(KO – WT) と書けます。log2(256 – 128) = log2 (128) = 7 ?? 間違いです。
  5. WT = 128, KO = 256 なら、logFC = 2 ?? WT = 256, KO = 128 なら logFC = -2 ?? 間違いです。

正解は、 2. と 3. です。どちらの計算方法でもよいのですが、log2変換されていれば、割り算ではないことに注意が必要です。

計算に用いているシグナル値が、log2変換された値 (log2-transformed) なのか、log2変換されていない値 (non-log) かを確認しておきましょう。

 

log fold-change (=logFC or log ratio) の算出方法の確認

log fold-change (= logFC or log ratio) の算出方法の確認です。logFC の算出方法として、正しいのは、次のうちどれでしょうか?正解は2つあります。

wild type (WT) と knock out (KO) の2サンプルのシグナル値を比較するものとします。なお、通常の fold-change (ratio) は、以前に紹介したように割り算ですので、KO を WT で割れば(KO/WT)、WTに比べて、何倍になっているか計算できます。

  1. WT と KO の値をlog2変換して、KO を WT で割る
  2. KO を WT で割ってから、算出された値をlog2変換する。
  3. WT と KO の値をlog2変換して、KO から WT を引く
  4. KO から WT を引いてから、算出された値をlog2変換する。
  5. KO を WT で割る。このとき、ratio > 1 なら、そのまま。ratio < 1 なら、逆に WT を KO で割り、ー(マイナス)の符号を付ける。