データ処理 – 遺伝子発現解析（マイクロアレイ解析, RNA-seq）

統計処理ソフト R を使ったデータ解析、データ処理の解説です。

近年の R は、 tidyverse パッケージを使うことで、可読性のあるコードが書きやすくなっています。まだ、細かい処理や、古いパッケージを使うには、従来の表現が必要なこともありますが、これから、R を始められる方は、最初から tidyverse のコードを覚えることをお勧めします。

コードのイメージ。

library(tidyverse)

input_data <- read_tsv("input_data.tsv")
meta_data  <- read_tsv("meta_data.tsv")

output_data <- input_data  %>%
  inner_join(meta_data)    %>%
  select(Symbol, Sample2)  %>%
  filter(Sample2 > 1)

write_tsv(output_data, "output_data.tsv")

基礎的な使い方

データの読み込みから、連結、選択、抽出、保存までの流れです。

実践的な使い方

実際の作業で使えると便利な関数の紹介です。

列を変更、追加: mutate(), rowMeans() 行の平均を算出。
列を変更、修正（上書き）: mutate()
列を除外する: select(), マイナス(-) で除外する列を指定。
まとめて列を選択: starts_with, ends_with
上位だけを抽出: top_n()

応用的な使い方

複数の関数を組み合わせて使う例です。

ワードカウント: group_by(), summarize()
グループごとの上位を求める: group_by(), top_n()

補足

知っていると役に立つ関数の紹介です。