NGSデータ解析時のファイルのフォーマット (2)

FASTQ, BAM (SAM) に続いて、よく利用されるのが、BED (べっど)形式のファイルです。

BED

BED は、Browser Extensible Data の略です。Browser (ブラウザ)は、UCSC のゲノムブラウザのことです。染色体(ゲノム)上の位置情報に、何らかのスコアを加えて表現するためのファイルです。

これもテキスト形式のファイルで、1行ごとに、位置情報 (chrom, chromStart, chromEnd) とスコア (name, score)、その他の情報をオプションで記述します。

最低限のデータとしては、下記のようなものです。(各項目の区切りはタブ文字)

chr1 100 200 geneA 1000
chr2 1000 2000 geneB 10

chrom は染色体の番号、chromStart は、指定したい配列の開始位置、chromEnd は終了位置です。name は、ブラウザに表示するときのラベル名、score は、表示したい任意の数字 (0-1000) です。ここまでが、BEDファイルに必須の項目です。残りのオプション部分にいろいろな情報を指定できるので、同じ BED ファイルでも様々なバリエーションがあります。

https://genome.ucsc.edu/FAQ/FAQformat.html#format1

基本的には座標を指定するものなので、プロモーターやエンハンサーの位置を示したり、ChIP-seq の結果のピークの位置とスコアを表したり、様々なことに使用されています。

BED を元にさらに拡張されたフォーマットとして、bigBed, bedGraph があります。同様に、ゲノム上の位置(区間、領域)に情報を記述するものとして、WIG とそれを拡張、圧縮した bigWig などがあります。

bedtools

ゲノム上の位置情報どうしを演算するためのツールとして、 bedtools というソフトウェアがあります。bed で指定した配列の座標から、1000 base 上流の座標を求めたり、指定した座標の両端 500 から 1000 base の座標求めることができます。

さらにリファレンスゲノム(FASTAファイル)から、求めた座標に該当する領域の配列を抽出することも可能です。具体的な配列操作のイメージは、下記の解説が分かりやすいです。

getfasta

その他の操作もイメージつきで解説されています。(このようなソフトウェアの解説は、まず、作成者の準備したドキュメントに目を通すことをお勧めします。有用なことが多く書かれています。)

http://bedtools.readthedocs.io/en/latest/content/bedtools-suite.html

Mac であれば、brew を使ってインストールできます。

brew install bedtools

* science タップを追加する必要があります。ない場合は上記のコマンドのログにその旨が表示されますので、それに従います。

 

NGSデータ解析時のファイルのフォーマット (1)

NGSのデータ解析時に用いられるファイルの形式は様々なフォーマットがあります。名前もよく似ているものが多く、初めは混乱するかもしれません。代表的なシーケンスのデータベースである UCSC に各種フォーマットの解説があります。

https://genome.ucsc.edu/FAQ/FAQformat.html

RNA-seq において、代表的なフォーマットは、FASTQ (ふぁすときゅー)とBAM(ばむ)です。

FASTQ

FASTQ は、シーケンサーで検出されたリードの配列を保存したものです。もとは、ATGCの文字を記述するだけの FASTA(ふぁすた)というフォーマットがあり、それに加え、シーケンサーで読み取った各塩基のクオリティーのスコアを格納したものです。リードを1本1本、記録しているため、数千万行から数億行の大きなサイズのファイルです。テキストファイルですので、テキストエディタで開くと、文字が読めます。(圧縮されている場合は、一度展開する必要があります。エディタによってはそのまま読めるものもあります。)

ファイルの拡張子は、.fastq, .fq などです。圧縮されていれば、.fastq.gz, .fq.gz のようになります。(FASTA の場合は、.fasta, .fa, fa.gz など。)また、_1.fq.gz, _2.fq.gz のように番号がついているものは、ペアエンドモードでシーケンスされた結果です。この場合、1サンプルあたり、2つのFASTQファイルがあります。

BAM (SAM)

シーケンサーから出力されたリード(FASTQ) を、リファレンスとなる配列にマッピングした結果は、SAM(さむ)形式のファイルになります。1本1本のリードが、ゲノム上のどこにマップされたかを示します。FASTQ の中身も含むので、ファイルのサイズは数十ギガバイト (GB) と大きくなります。ファイルの拡張子は、.sam です。SAMフォーマットの仕様は、GitHub で確認できます。

BAM は、上記の SAM を圧縮したものです。データの中身は、SAMと同一のものです。通常、マッピングした結果として提供されるのは、このBAMファイルです。1サンプルにつき1個の BAM ファイルになります(ペアエンドでもマッピング後のファイルは1個)。ファイルの拡張子は、.bam です。圧縮といっても、単純に gzip や、bzip2 で圧縮したわけではないため、専用のツール (samtools) を使って圧縮や展開を行います。(よって、sam.gz や sam.bz2 ではありません。念のため)

BAM は圧縮されているので、テキストエディタで開いても読めません。通常は、IGVなどのゲノムブラウザに読み込ませて、結果を確認することになります。(ゲノムブラウザでは、手動でSAMに変換することなく、BAMのまま読め場合がほとんどです。)

RNA-seq の場合、マッピング後の結果を比較することになりますが、単純に BAM ファイルどうしを比較するわけではありません。BAMファイルから、各遺伝子ごとに何本のリードがあるのかをカウントする作業が必要になります。

 

RNA-seq についてのサーベイ

ここ10年ほどで、NGSの手法が広く使われるようになってから、RNA-seq について、検出されたリードのマッピングや、カウントの方法について様々なアルゴリズムやソフトウェアが考案されてきました。

RNA-seq のデータ解析について、非常によくまとめられたサーベイが昨年(2016年)出ていますので、ぜひ、一読をお勧めします。

A survey of best practices for RNA-seq data analysis

 

Affymetrix から Thermo Fisher へ

2017年より、マイクロアレイの GeneChip など、 Affymetrix 社の製品は、 Thermo Fisher で取り扱われるようになりました。

https://www.thermofisher.com/jp/ja/website-overview/affymetrix-information.html?icid=HR-P-affyinfo-20170127-jp

チップといえば、 Affymetrix の GeneChip のことでしたが、今後は Applied Biosystems ブランドとなるそうです。

サイトも更新され、読みやすい解説記事もあります。

マイクロアレイとは?|マイクロアレイを用いた発現解析の原理と解析方法

 

 

TCGA の出版ガイドライン

TCGA のデータを用いた研究に対する出版のガイドラインですが、2015年12月に更新があり、全てのデータセットが制限なく利用できるようになっています。

TCGA is a community resource project and data are made available rapidly after generation for community research use. In keeping with the TCGA policy of a defined moratorium on comprehensive analyses of each tumor type, moratoria on all cancer types are now lifted and all data may be used for publication without restrictions or limitations. Please review the below section on TCGA program attribution to properly acknowledge TCGA in publications and presentations; however, the additional information below concerning TCGA publication guidelines is intended for reference purposes, and need not be adhered to for any current or future uses of TCGA data.