統計処理ソフト R を使ったデータ解析、データ処理の解説です。
近年の R は、 tidyverse パッケージを使うことで、可読性のあるコードが書きやすくなっています。まだ、細かい処理や、古いパッケージを使うには、従来の表現が必要なこともありますが、これから、R を始められる方は、最初から tidyverse のコードを覚えることをお勧めします。
コードのイメージ。
library(tidyverse)
input_data <- read_tsv("input_data.tsv")
meta_data <- read_tsv("meta_data.tsv")
output_data <- input_data %>%
inner_join(meta_data) %>%
select(Symbol, Sample2) %>%
filter(Sample2 > 1)
write_tsv(output_data, "output_data.tsv")
基礎的な使い方
データの読み込みから、連結、選択、抽出、保存までの流れです。
- データの読み込み: read_tsv()
- データの連結: inner_join()
- データの選択: select()
- データのフィルタリング: filter()
- パイプ: %>%
- データの保存: write_tsv()
実践的な使い方
実際の作業で使えると便利な関数の紹介です。
- 列を変更、追加: mutate(), rowMeans() 行の平均を算出。
- 列を変更、修正(上書き): mutate()
- 列を除外する: select(), マイナス(-) で除外する列を指定。
- まとめて列を選択: starts_with, ends_with
- 上位だけを抽出: top_n()
応用的な使い方
複数の関数を組み合わせて使う例です。
- ワードカウント: group_by(), summarize()
- グループごとの上位を求める: group_by(), top_n()
補足
知っていると役に立つ関数の紹介です。