統計処理ソフト R (GNU R)

プログラミング言語の1つとして、 “R” という言語があります。”GNU R” や “R言語” とも呼ばれます。 R はプログラミング言語の中でも統計処理を得意としています。オープンソースという形で公開されていますので、誰でも無料で使用することができます。この “R” についての詳しい解説は、 RjpWikiR-Tips を参考にされるとよいでしょう。

R のメリット

  • 無料である。
  • bioconductor などライブラリ(他人が用意してくれているプログラム)が多い。
  • ボックスプロット、散布図、ヒートマップなどの作図もできる。

R のデメリット

  • コマンドを覚える必要がある。

ボックスプロットは、エクセルでもがんばれば作成することはできます。また、t-検定も行うことは可能です。しかし、大量のサンプルを扱う場合は、コマンドで操作できる R のほうがいいこともありますし、何と言っても bioconductor の存在が大きいです。統計処理ソフトとしては、SPSS, SAS, JMP などがありますが、R であれば、 bioconductor を使ってマイクロアレイデータを比較的簡単に扱うことができます。

 

株式会社セルイノベーターの受託解析でも、解析ツールとして、この Rbioconductor を利用しています。

 

ratio (fold-change) 1.5 は、 logFC でいくつ?

ratio (fold-change) が 2 のとき、 logFC は “1” です。では、ratio が 1.5 のとき、これは logFC でいうところのいくつなのでしょうか?

これは、ratio の2をlog2変換することで求めることができます。計算は下記のようになります。(統計処理ソフト “R” での計算方法です。)

> log2(2) # 結果は "1" になります。

よって、ratio 1.5 であれば、1.5をlog2変換します。

> log2(1.5) # 結果は "0.5849625" になります。

結果は、0.5849625 なので、logFC では 0.58 となります。(発現変動遺伝子を判定するときに用いるのであれば、少々甘く判定することが多いでしょう。)