NCBI からの塩基配列取得 (API)

NCBI のウェブサイトには、様々な情報が集積されています。遺伝子名などで検索をすると、非常に多くの情報が表示されます。しかしながら、場合によっては、一部の情報だけ取得できればいいこともあります。

塩基配列だけを取得するには?

例えば、ある遺伝子の塩基配列だけを閲覧したい場合です。特に、複数の遺伝子について、それぞれの配列を調べようと思うと、IDを何回も入力したり、何度もリンクをクリックしたり、という操作をしなくてはなりません。

塩基配列だけが欲しい場合。
塩基配列だけが欲しい場合。

このようなニーズに応えて、多くのウェブサイト(またはデータベース)には、データの取得専用の問い合わせ方法(APIなどと呼ばれます)が用意されていることがほとんどです。

特定の遺伝子の塩基配列だけを取得する

特定の遺伝子の塩基配列だけを取得するには、下記のアドレスに問い合わせます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

上記の例では、FASTA形式のファイルがダウンロードされます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

id の部分を変更すれば、ほかの遺伝子にも対応できます。また、rettype, retmode の部分を変更すれば、結果のファイルの形式の変更も可能です。

db の部分を変更すれば、タンパクの配列や、PubMed の情報も取得できます。どのようなオプションが使用できるかは、下記に詳しく書かれています。

http://www.ncbi.nlm.nih.gov/books/NBK25501/

 

投稿者:

Atsushi Doi

株式会社セルイノベーター 取締役、研究開発部部長。理学博士。山口大学大学院理工学研究科修了。東京大学医科学研究所ヒトゲノム解析センターの特任助手を経て、株式会社GNIに主任研究員として勤務。その後、株式会社セルイノベーターの立ち上げに参加し、現在に至る。専門は、バイオインフォマティクス、おもにシステムバイオロジー。

「NCBI からの塩基配列取得 (API)」への1件のフィードバック

  1. このような API を手動ではなく、コンピューターにプログラムして用いる場合は、アクセスの頻度にご注意ください。NCBIでは、サーバーに負荷がかからないように、「1秒間に3回以上の問い合わせを避けるように」とされています。また、週末に大規模な問い合わせ(ジョブ)をすることも避けるべきです。(万が一トラブルが発生したときに対応できる人がいないためと思われます。)

    “In order not to overload the E-utility servers, NCBI recommends that users post no more than three URL requests per second and limit large jobs to either weekends or between 9:00 PM and 5:00 AM Eastern time during weekdays. ”
    > http://www.ncbi.nlm.nih.gov/books/NBK25497/

    もし、過度な違反があった場合は、組織レベル(ラボ単位、大学単位)でのアクセス制限が課せられる場合もありますので、ご注意ください。

コメントを残す