NCBI からの塩基配列取得 (API)

NCBI のウェブサイトには、様々な情報が集積されています。遺伝子名などで検索をすると、非常に多くの情報が表示されます。しかしながら、場合によっては、一部の情報だけ取得できればいいこともあります。

塩基配列だけを取得するには?

例えば、ある遺伝子の塩基配列だけを閲覧したい場合です。特に、複数の遺伝子について、それぞれの配列を調べようと思うと、IDを何回も入力したり、何度もリンクをクリックしたり、という操作をしなくてはなりません。

塩基配列だけが欲しい場合。
塩基配列だけが欲しい場合。

このようなニーズに応えて、多くのウェブサイト(またはデータベース)には、データの取得専用の問い合わせ方法(APIなどと呼ばれます)が用意されていることがほとんどです。

特定の遺伝子の塩基配列だけを取得する

特定の遺伝子の塩基配列だけを取得するには、下記のアドレスに問い合わせます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

上記の例では、FASTA形式のファイルがダウンロードされます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

id の部分を変更すれば、ほかの遺伝子にも対応できます。また、rettype, retmode の部分を変更すれば、結果のファイルの形式の変更も可能です。

db の部分を変更すれば、タンパクの配列や、PubMed の情報も取得できます。どのようなオプションが使用できるかは、下記に詳しく書かれています。

http://www.ncbi.nlm.nih.gov/books/NBK25501/