簡単!Linuxコマンドでマイクロアレイ解析結果を自由自在1

マイクロアレイ解析結果は、プローブ・シグナル値・アノテーション情報等で情報が多くなりがちです。タブ区切りデータとして Excel 等で結果を眺めても、列数が多くなると、煩わしく感じるものです。

特に、「必要な列だけ使いたい」、「ちょっとデータの確認を」という時に、 Excel 等で開いて、不要な列を削除して、保存し直して・・・という操作を開く度に行うのは効率的ではありません。

そこで、 Linux のコマンドを用いて、解析結果を簡単に操作する方法を紹介したいと思います。端末画面のコマンドだけで操作するのは、最初は難しいと感じる方もいらっしゃるかもしれませんが、慣れてくると簡単に素早くデータを操作でき、元のデータを直接変更しないので安全という利点もあります。

今回は、データの表示と列情報の抽出を紹介します。

cat

端末画面で直接テキストデータを表示(、連結)する時に使います。行数の多いデータを表示すると、データが高速に流れて行ってしまうので、 less というコマンドと組み合わせて、1ページ単位で表示する事が多いです。

使い方

cat test.txt | less

※次ページは「スペースキー」、終了には「q」を押します。

cut

列情報が多い時に、表示する列だけを選択して表示します。例では1列目と3列目だけ、3列目以降全てを表示します。但し、列の区切り情報は「TAB」区切りです。オプションで区切り文字や切り出し方法を変更できます。

使い方1(1列、3列目表示)

cat test.txt | cut -f1,3 | less

使い方2(3列目以降表示)

cat test.txt | cut -f3- | less

使い方3(列抽出結果保存)

cat test.txt | cut -f1,3 > test_cut.txt

※test_cut.txtという新しいファイルで結果を保存します。元のファイル内容は変更されません。

サンプル>

test.txt(タブ区切りテキストデータ)
ProbeID PrimaryAccession RefSeqAccession GenbankAccession A_55_Pxx1 ENSMUST000000yyy1 AKxxx1 Mm.nnn1 A_55_Pxx2 ENSMUST000000yyy2 AKxxx2 Mm.nnn2 A_55_Pxx3 ENSMUST000000yyy3 AKxxx3 Mm.nnn3

実行例>

cat test.txt | cut -f1,3 | less
ProbeID RefSeqAccession A_55_Pxx1 AKxxx1 A_55_Pxx2 AKxxx2 A_55_Pxx3 AKxxx3
 

MeV の使い方 1. (続き)ファイルの読み込み後の操作

ファイル読み込み後の操作方法を説明します。

  • ラベル変更方法
  • グループ名の設定
  • シグナル値の log2 変換

(6) ラベルの表示変更
各プローブにつけられたラベルは、メニューから、”Display -> Gene/Row Labels -> Label by GeneSymbol” などとして変更可能。

*読み込み時に “Automaticaly download” と “Load Annotation” にチェックを入れて、生物種とアレイの製品名を選択すれば、自動的にアノテーションがダウンロードされ、ラベルとして使用できるようになります。すべての製品に対応しているわけではありませんし、ダウンロードされるアノテーションが最新のデータとは限りませんので、表示したいアノテーションは、あらかじめ準備されることを推奨します。

ラベルの表示変更

(7) サンプルのグループ名の設定

  1. Sample Cluster を選択。
  2. サンプルを複数選択。 (連続した領域は、シフトを押しながら複数選択できます。連続していない領域を複数選択する場合は、 Windows は Ctrl キー、 Mac はコマンドキーを押しながら選択します。)
  3. Store Rows as Cluster を選択。
  4. グループ名を入力。
*検定などを行う際は、ここでグループを設定しておくと便利です。ラベルの色も選択して、変更できます。
サンプルのグループ名

設定例: WT と KO の2グループを設定

設定例

(8) シグナル値の log2 変換

  • メニューから、 “Adjust Data -> Log Transformations -> Log2 Transform” を選択。
  • UnLog2 Transform を選択すれば、log2 変換前の値に戻すこともできる。
log2 変換
 

MeV の使い方 1. MeV の起動とファイルの読み込み

Agilent のマイクロアレイデータを想定して、 MeV の操作方法を紹介します。

  1. MeV の起動とファイルの読み込み
  2. 階層的クラスタリング
  3. t-検定

(1) MeV の起動

  • MeV を起動するとメインのメニューバーと、ビューワーの2つのウィンドウが表示される。
  • 複数のビューワーを開く場合は、メニューバーから操作する。解析は、ビューワーで行う。
MeV の起動

 

(2) ファイルの読み込み (Expression File Loader)

  • ビューワーのメニューから、 “File -> Load Data” と選択する。
  • Expression File Loader のウィンドウが表れる。
ファイルの読み込み
(3) 読み込ませるファイルの形式
  • Affymetrix のデータの場合は、 GCOS や Bioconductor で処理された MAS5 や RMA の結果を読み込ませることができる。
  • Agilent, Illumina, その他のアレイデータの形式であっても、タブ区切りのテキストファイルの形式であれば、読み込ませることができる。
  • 1列目が ProbeID、2列目から遺伝子名などのアノテーション(複数列も可能)、アノテーションの次から最後の列までサンプルのシグナル値を並べる。
ファイルの形式

*マイクロアレイデータがエクセルで開けるのであれば、タブ区切りのテキストファイルは、エクセルから「名前を付けて保存」などで保存形式(フォーマット)を「タブ区切りテキスト(.txt)」と指定すれば出力できます。

(4) ファイルの読み込み
  • 1) Browse ボタンからファイルを選択。
  • 2) Single-Color Array を選択。
  • 3) 生物種とアレイを選択。
  • 4) シグナル値の先頭を選択。
ファイルの読み込み
(5) 読み込み後の画面
  • 読み込みが終わるとヒートマップが表示される。
読み込み後の画面
 

MeV の入手方法と主な機能

MeV の入手方法

MeV のウェブサイト (SorceForge) よりダウンロード

MeV の主な機能
  • log2変換などの簡単な計算。
  • クラスタリング図(ヒートマップ図)の作成。
  • t-検定、Significance Analysis of Microarrays (SAM) などの統計解析。
  • Gene Set Enrichment Analysis(GSEA), the Expression Analysis Systematic Explorer(EASE) などの機能解析。
 

マイクロアレイデータ:表示方法

数値化されたマイクロアレイデータを表示するには下記のような方法があります。

  • 表計算ソフト(エクセルなど):テーブル形式で表示。
  • ヒストグラム:データの分布を確認する。
  • Box プロット(ボックスプロット、箱ひげ図):データの分布を確認する。
  • Scatter プロット(スキャッタープロット、散布図):2サンプル間の比較。変動の大きさを見る。
  • MA プロット(エムエープロット):2サンプル間の比較。変動の大きさを見る。

*テーブル形式以外のシグナル値は、値を log2 変換してから表示することが一般的。