NCBI からの塩基配列取得 (API)

NCBI のウェブサイトには、様々な情報が集積されています。遺伝子名などで検索をすると、非常に多くの情報が表示されます。しかしながら、場合によっては、一部の情報だけ取得できればいいこともあります。

塩基配列だけを取得するには?

例えば、ある遺伝子の塩基配列だけを閲覧したい場合です。特に、複数の遺伝子について、それぞれの配列を調べようと思うと、IDを何回も入力したり、何度もリンクをクリックしたり、という操作をしなくてはなりません。

塩基配列だけが欲しい場合。
塩基配列だけが欲しい場合。

このようなニーズに応えて、多くのウェブサイト(またはデータベース)には、データの取得専用の問い合わせ方法(APIなどと呼ばれます)が用意されていることがほとんどです。

特定の遺伝子の塩基配列だけを取得する

特定の遺伝子の塩基配列だけを取得するには、下記のアドレスに問い合わせます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

上記の例では、FASTA形式のファイルがダウンロードされます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

id の部分を変更すれば、ほかの遺伝子にも対応できます。また、rettype, retmode の部分を変更すれば、結果のファイルの形式の変更も可能です。

db の部分を変更すれば、タンパクの配列や、PubMed の情報も取得できます。どのようなオプションが使用できるかは、下記に詳しく書かれています。

http://www.ncbi.nlm.nih.gov/books/NBK25501/

 

遺伝子名 (Gene Symbol) が変わる??

遺伝子名として、一般的なものは、 NCBI の Official Symbol でしょう。単に Gene Symbol と呼ばれたり、 Gene Name と呼ばれることもあります。

この遺伝子名 (Official Symbol) は、現在でも更新が続けられています。そのため、突然、これまで使用していた遺伝子名が変わってしまうということがありえます。

例えば、MDM2遺伝子は、以前 hdm2 と呼ばれていました。以前の呼び名は、各遺伝子のページの “Also known as” というところに一覧として載せてあります。そのため、以前の呼び名で、NCBIを検索しても見つけることができます。

MDM2遺伝子の別名。
MDM2遺伝子の別名。

どうやら、慣習的によく使われている名前であっても変更されることがあるようです。マイクロアレイ解析の結果においては、遺伝子名として、この Official Symbol を使用しますので、更新されていることに気がつかないと、変動しているはずの遺伝子を見つけられないということにもなります。

ちなみに、 MDM2 とすべて大文字で書いてある場合は、ヒトの遺伝子を示すことが多いです。その遺伝子のマウスのホモログは、 Mdm2 と、先頭だけ大文字にすると対応が取れることが多いです。

 

GEO と NCBI アカウント

2012年12月より、GEO のアカウントが、 NCBI のアカウントに統合されたようです。現在、GEO のサイトからログインを試みると、下図のような注意書きが表示されます。

GEO アカウントから NCBI アカウントへ。
GEO アカウントから NCBI アカウントへ統合。

すでに、新しく GEO アカウントを作成することはできなくなっており、代わりに NCBI のアカウントを作成することを求められています。 NCBI のアカウントを持っている人は、GEO のアカウントとリンクさせる必要があるそうです。なお、既存の GEO アカウントによるログインは、2013年3月1日以降、行えなくなる模様です。

NCBI アカウントでは、NCBI を検索した結果を保存できます。これに加えて、GEO へのマイクロアレイデータの登録も行えるようになっています。NCBI アカウントでログイン後、GEOのサイトに移動すれば、これまで通り submit の画面に進めます。

NCBI にログインしているかどうかは、右上にユーザー名が表示されているかどうかで確認できます。ログインしていなければ、 “Not logged in” と表示されます。

 

特定の遺伝子を含むパスウェイの検索

「ある特定の遺伝子が、どのパスウェイに載っているのか?」知りたいことがあると思います。この場合、 NCBI で検索することで、簡単にパスウェイの一覧を得ることができます。

1. NCBI で検索

(1) NCBI のサイトで、対象に “Gene” を選択します。(2) 目的となる遺伝子の名前(Official Gene Symbol など)を入力します。(3) Search をクリックします。

NCBI_Gene_Search
NCBIで検索。

2. 検索結果

検索した遺伝子の候補が表示されます。生物種などを手がかりに、目的の遺伝子を選択します。

NCBI_Search_Result
検索結果、候補の遺伝子。

3. 遺伝子の詳細な情報

目的となる遺伝子の詳細な情報が表示されます。さまざまな情報を確認できますが、画面をずっと下までスクロールさせていくと、”Pathways from BioSystems” という項目があります。

Search_Result_Detail
遺伝子の詳細な情報。

4. Pathways from BioSystems

パスウェイの一覧が見つかります。パスウェイは、各パスウェイデータベースの情報とリンクしています。同じ名前のパスウェイであっても、元となるパスウェイデータベースによって中身が少しずつ異なっています。また、パスウェイとして扱われていても、パスウェイのマップ(ダイアグラム、絵)が描かれていないものも多数あります。KEGGパスウェイデータベースのマップが一番参考になると思います。

Pathways_from_BioSystems
パスウェイの一覧。