NGSデータ解析時のファイルのフォーマット (1)

NGSのデータ解析時に用いられるファイルの形式は様々なフォーマットがあります。名前もよく似ているものが多く、初めは混乱するかもしれません。代表的なシーケンスのデータベースである UCSC に各種フォーマットの解説があります。

https://genome.ucsc.edu/FAQ/FAQformat.html

RNA-seq において、代表的なフォーマットは、FASTQ (ふぁすときゅー)とBAM(ばむ)です。

FASTQ

FASTQ は、シーケンサーで検出されたリードの配列を保存したものです。もとは、ATGCの文字を記述するだけの FASTA(ふぁすた)というフォーマットがあり、それに加え、シーケンサーで読み取った各塩基のクオリティーのスコアを格納したものです。リードを1本1本、記録しているため、数千万行から数億行の大きなサイズのファイルです。テキストファイルですので、テキストエディタで開くと、文字が読めます。(圧縮されている場合は、一度展開する必要があります。エディタによってはそのまま読めるものもあります。)

ファイルの拡張子は、.fastq, .fq などです。圧縮されていれば、.fastq.gz, .fq.gz のようになります。(FASTA の場合は、.fasta, .fa, fa.gz など。)また、_1.fq.gz, _2.fq.gz のように番号がついているものは、ペアエンドモードでシーケンスされた結果です。この場合、1サンプルあたり、2つのFASTQファイルがあります。

BAM (SAM)

シーケンサーから出力されたリード(FASTQ) を、リファレンスとなる配列にマッピングした結果は、SAM(さむ)形式のファイルになります。1本1本のリードが、ゲノム上のどこにマップされたかを示します。FASTQ の中身も含むので、ファイルのサイズは数十ギガバイト (GB) と大きくなります。ファイルの拡張子は、.sam です。SAMフォーマットの仕様は、GitHub で確認できます。

BAM は、上記の SAM を圧縮したものです。データの中身は、SAMと同一のものです。通常、マッピングした結果として提供されるのは、このBAMファイルです。1サンプルにつき1個の BAM ファイルになります(ペアエンドでもマッピング後のファイルは1個)。ファイルの拡張子は、.bam です。圧縮といっても、単純に gzip や、bzip2 で圧縮したわけではないため、専用のツール (samtools) を使って圧縮や展開を行います。(よって、sam.gz や sam.bz2 ではありません。念のため)

BAM は圧縮されているので、テキストエディタで開いても読めません。通常は、IGVなどのゲノムブラウザに読み込ませて、結果を確認することになります。(ゲノムブラウザでは、手動でSAMに変換することなく、BAMのまま読め場合がほとんどです。)

RNA-seq の場合、マッピング後の結果を比較することになりますが、単純に BAM ファイルどうしを比較するわけではありません。BAMファイルから、各遺伝子ごとに何本のリードがあるのかをカウントする作業が必要になります。

 

NCBI からの塩基配列取得 (API)

NCBI のウェブサイトには、様々な情報が集積されています。遺伝子名などで検索をすると、非常に多くの情報が表示されます。しかしながら、場合によっては、一部の情報だけ取得できればいいこともあります。

塩基配列だけを取得するには?

例えば、ある遺伝子の塩基配列だけを閲覧したい場合です。特に、複数の遺伝子について、それぞれの配列を調べようと思うと、IDを何回も入力したり、何度もリンクをクリックしたり、という操作をしなくてはなりません。

塩基配列だけが欲しい場合。
塩基配列だけが欲しい場合。

このようなニーズに応えて、多くのウェブサイト(またはデータベース)には、データの取得専用の問い合わせ方法(APIなどと呼ばれます)が用意されていることがほとんどです。

特定の遺伝子の塩基配列だけを取得する

特定の遺伝子の塩基配列だけを取得するには、下記のアドレスに問い合わせます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

上記の例では、FASTA形式のファイルがダウンロードされます。

http://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=nuccore&id=NM_001154&rettype=fasta&retmode=text

id の部分を変更すれば、ほかの遺伝子にも対応できます。また、rettype, retmode の部分を変更すれば、結果のファイルの形式の変更も可能です。

db の部分を変更すれば、タンパクの配列や、PubMed の情報も取得できます。どのようなオプションが使用できるかは、下記に詳しく書かれています。

http://www.ncbi.nlm.nih.gov/books/NBK25501/