MeV の使い方 3. t-検定(続き)

例:t-検定の結果

  • 左側の “Analysis Results” に “T Tests” の結果が表示される。
  • “Significant Genes” に含まれる遺伝子群が、 t-検定の結果、有意となった遺伝子群。(標準の設定では、p-value < 0.01 で有意。0.01 または 0.05 を用いることが多い。)
  • サンプルデータの場合、有意となる遺伝子はない。すべての有意でない遺伝子は、 Non-significant Genes に表示される。

 

例:t-検定の結果

 

3.(3) 検定結果の色づけ

  • 現在の色づけは、他の遺伝子と比べている(図の赤枠)。遺伝子AとBが遺伝子Cより低いため、遺伝子AとBがになり、遺伝子Cがになっている。
  • 他のサンプルと比べて、シグナルの高いところは、低いところはになって欲しい。図に青枠で示されたように、遺伝子Cの6サンプル間での差を見たい。
  • 色づけのための調整が必要。調整の手段は、いろいろ考えられる。各遺伝子の中央値からの距離に変換してもよいし、各遺伝子の平均値からの距離(SD何個分か)に変換してもよい。ここでは、簡単な方法として、各遺伝子の中央値からの距離に変換する方法を紹介する。

 

推定結果の色づけ

3.(4) 遺伝子ごとの中央値からの距離を求める

1) “Adjust Data -> Gene/Row Adjustments -> Median Center Genes/Rows” を選択。 この処理は取り消すことができないので注意。元のシグナル値やほかの調整を行うには、データの読み込みから、すべての作業をやり直す必要がある。

2) 再度、“Display -> Set Color Scale Limits” を選択し、色づけのスケーリングを合わせる。

  • Lower Limit = -2
  • Midpoint Value = 0
  • Upper Limit = 2

*色の濃さは適宜、調節可能。中央値からの距離の場合、Midpoint Value は、0 以外を用いることはない。Lower = -1 , Upper Limit = 1 のように低く設定すると、色が濃くなり強調された状態となる。あまり、低い値を設定すると、どの遺伝子の差も大きいような誤解を与えるので注意。

 

遺伝子ごとの中央値からの距離
スケーリング後、再度、色づけをやり直した結果

 

3.(5) t-検定結果の保存

クラスタリング図を右クリックして出るメニューから、 “Save cluster…” を選択すると、画像ファイルとして結果を保存できる。

t-検定結果の保存
 

エクセルで遺伝子名が曜日に自動変換される(2)

「エクセルで遺伝子名が曜日に自動変換される」の続きです。

1. Office ボタンをクリックして「開く」を選択

2. ファイルを選択して「開く」をクリック。

3. 「カンマやタブなどの区切り文字によってフィールドごとに区切られたデータ」を選択して「次へ」をクリック。

4. 区切り文字の「タブ」を選択して「次へ」をクリック。

5. 「GeneSymbol」の列を選択して、列のデータ形式の「文字列」を選択。「完了」をクリック。

6. GeneSymbol が正しく表示されました。このままエクセルブック形式で保存すると、次からはファイルを開いたときに GeneSymbol が曜日に自動変換されることはありません。

 

 

簡単!Linuxコマンドでマイクロアレイ解析結果自由自4

今回も、引き続き、マイクロアレイ解析結果をLinuxコマンドを用いて簡単に操作する方法を紹介していきたいと思います。今回は、列の並べ替えに関する操作を扱いたいと思います。

awk
前回紹介したsed同様に、代表的なテキストフィルタリングツールです。
色々な使い方ができるツールですが、今回は使用する機会の多い列の並び替えについてです。

使い方
cat test.txt | awk ‘BEGIN{FS=”\t”; OFS=”\t”}{print $3, $2, $1}’
# タブ(\t)区切りのテキストファイルを、形式は同じで、指定した列の順番($1,$2…)に並び替えます。
# 本例のように、列の並び替えを行うだけの場合は、決まった書き方で対応可能です。($番号を変更)

サンプル>
# ターゲットとなるテキストファイル
$ cat test.txt
no      columnA columnB
1       mouse   aaa
2       cat     bbb
3       mouse   ccc
4       mouse   ddd
5       cat     eee

# 列を逆順に並べ替え
$ cat test.txt | awk 'BEGEN{FS="\t"; OFS="\t"}{print $3, $2, $1}'
columnB columnA no
aaa mouse 1
bbb cat  2
ccc mouse 3
ddd mouse 4
eee cat  5

# 列を逆順に並べ替え&抽出
$ cat test.txt | awk 'BEGEN{FS="\t"; OFS="\t"}{print $3, $1}'
columnB no
aaa 1
bbb 2
ccc 3
ddd 4
eee 5
 

エクセルで遺伝子名が曜日に自動変換される

eArray などのメーカーサイトからアノテーションファイル(タブ区切りのテキストファイル)をダウンロードして、ドラッグ&ドロップでエクセルで開くと、’MARCH*’ や ‘SEPT*’ などの遺伝子名は ‘*-Mar’ や ‘*-Sep’ のように自動変換されてしまいます。

(正)

(誤)

次回、この問題を回避する方法を記述します。

 

簡単!Linuxコマンドでマイクロアレイ解析結果自由自在3

今回も、引き続き、マイクロアレイ解析結果をLinuxコマンドを用いて簡単に操作する方法を紹介していきたいと思います。今回は、行に関する操作です。

head
ファイルの先頭を表示します。
大きいファイルの内容をちょっと確認したい場合や、ヘッダー情報を確認したい場合に使うと便利です。表示する行数も指定できます。

使い方
head test.txt   # 行数オプションを指定しない場合は、5行表示します。
head -n2 test.txt > test2.txt   # 先頭から2行を別ファイルに保存します。

grep
前回も出てきましたが、条件に該当する情報を抽出することができます。
行のフィルタリングに使用することができます。オプションで色んな条件を指定できます。

使い方
cat test.txt | grep “mouse”   # mouseというキーワードを含む行を抽出します。

sed
代表的なテキストフィルタリングツールです。
色々な使い方ができるツールですが、今回は使用する機会の多い置換についての使い方です。

使い方
cat test.txt | sed -e “s/,/\t/g”
# カンマ(,)区切りをタブ(\t)区切りに変換します。gは1行に見つかった全てに適用の意味です。本例のようにtest.txtの全行でカンマをタブ変換したい場合は、決まった書き方で対応可能です。

サンプル>

$ cat test.txt # ターゲットとなるテキストファイル
no,columnA,columnB
1,mouse,aaa
2,cat,bbb
3,mouse,ccc
4,mouse,ddd
5,cat,eee
$ head -n2 test.txt # 先頭2行だけを表示
no,columnA,columnB
1,mouse,aaa

$ cat test.txt | grep "mouse" # mouseを含む行だけを抽出
1,mouse,aaa
3,mouse,ccc
4,mouse,ddd
$ cat test.txt | sed -e "s/,/\t/g" # カンマ区切りをタブ区切りに変換
no columnA columnB
1 mouse aaa
2 cat bbb
3 mouse ccc
4 mouse ddd
5 cat eee