R (tidyverse), mutate 列を変更、追加

読み込んだデータに対して、演算した結果を格納したり、新たな列(データ)を追加するには、 mutate() 関数を使います。

テーブル %>% mutate(追加される列名 = 演算の式)

例えば、2つの列の結果から、ratio を算出して、その結果を格納する場合に使います。下記の例では、 Sample2 と Sample1 の列から ratio を求め、その結果を「Ratio」列に格納しています。新たに追加される列であるため、列名の Ratio をダブルクオーテーションで囲みます。

> raw_data
# A tibble: 3 x 5
  Id    Symbol Description   Sample1 Sample2
  <chr> <chr>  <chr>           <dbl>   <dbl>
1 id1   AAA    lorem ipsum a       1       4
2 id2   BBB    lorem ipsum b       2       5
3 id3   CCC    lorem ipsum c       3       6
>
>
> raw_data %>% mutate("Ratio" = Sample2 / Sample1)
# A tibble: 3 x 6
  Id    Symbol Description   Sample1 Sample2 Ratio
  <chr> <chr>  <chr>           <dbl>   <dbl> <dbl>
1 id1   AAA    lorem ipsum a       1       4   4
2 id2   BBB    lorem ipsum b       2       5   2.5
3 id3   CCC    lorem ipsum c       3       6   2

演算の式 (Sample2 / Sample1 ) が、それぞれの「行」に対して、適用されるようなイメージです。式には、関数も使えます。例えば、平均値を算出するには、 rowMeans() が使えます。

> samples <- raw_data %>% select(starts_with("Sample"))
> samples
# A tibble: 3 x 2
  Sample1 Sample2
    <dbl>   <dbl>
1       1       4
2       2       5
3       3       6
> # 数値だけのオブジェクトを準備
>
> raw_data %>% mutate("Ave" = rowMeans(samples))
# A tibble: 3 x 6
  Id    Symbol Description   Sample1 Sample2   Ave
  <chr> <chr>  <chr>           <dbl>   <dbl> <dbl>
1 id1   AAA    lorem ipsum a       1       4   2.5
2 id2   BBB    lorem ipsum b       2       5   3.5
3 id3   CCC    lorem ipsum c       3       6   4.5

計算の邪魔になるため、 Id などを除いた数値だけのオブジェクト (samples) を作成しておき、 これを rowMeans の引数としています。このパターンで記述しておくと、サンプル数が多くても、同じ表現で計算できます。

もちろん、パイプで連続した処理も可能です。

up_genes <- raw_data %>%
              mutate("Ratio" = Sample2 / Sample1) %>%
              mutate("Ave" = rowMeans(samples))   %>%
              select(Symbol, Ratio, Ave)          %>%
              filter(Ratio > 2)

> # 上記の実行結果
> up_genes
# A tibble: 2 x 3
  Symbol Ratio   Ave
  <chr>  <dbl> <dbl>
1 AAA      4     2.5
2 BBB      2.5   3.5
 

R (tidyverse), select で除外する

select() 関数では、抽出する列を選択できますが、特定の列を除外するということもできます。使い方は、 select(-列名) と、列名にマイナスを付けるだけです。

> result_data
# A tibble: 3 x 5
  Id    Symbol Description   Sample1 Sample2
  <chr> <chr>  <chr>           <dbl>   <dbl>
1 id1   AAA    lorem ipsum a       1       4
2 id2   BBB    lorem ipsum b       2       5
3 id3   CCC    lorem ipsum c       3       6
>
>
> result_data %>% select(-Id, -Symbol, -Description)
# A tibble: 3 x 2
  Sample1 Sample2
    <dbl>   <dbl>
1       1       4
2       2       5
3       3       6

上記の例では、Id, Symbol, Description を取り除いて、データだけのオブジェクトを表示させています。抽出するサンプルが多い時は、全ての列の名前を記述するのが大変になります。その場合は、除外する列だけ、名前を書く方と便利です。

従来の R のように、 列の番号を指定して除外することも可能ですが、可読性という意味では、明示的に列名を指定する方が良いでしょう。

> result_data[, c(-1:-3)]
# A tibble: 3 x 2
  Sample1 Sample2
    <dbl>   <dbl>
1       1       4
2       2       5
3       3       6

 

R (tidyverse), starts_with, ends_with

select() 関数の中で、列名を指定する時に便利な関数があります。 starts_with()ends_with() です。

オブジェクト %>% select(starts_with("文字列"))

サンプルが数十個あるような時に、select() 関数に全て書くのも大変です。そのような時は、列名に Sample1, Sample2 や WT1, WT2 のように、共通の文字で始まる名前を付けておくと良いです。そうすれば、 starts_with("Sample")starts_with("WT") のように関数を使ってまとめて指定できます。

一方、 WT_1h, KO_1h や WT_12h, KO_12h のように、末尾に共通な文字で指定したい場合は、 ends_with() が使えます。 ends_with("_1h")ends_with("_12h") のように指定します。

select() 関数の中で指定することを忘れないようにしましょう。

samples <- result_data %>% select(starts_with("Sample"))

> result_data
# A tibble: 3 x 5
  Id    Symbol Description   Sample1 Sample2
  <chr> <chr>  <chr>           <dbl>   <dbl>
1 id3   CCC    lorem ipsum c       3       6
2 id2   BBB    lorem ipsum b       2       5
3 id1   AAA    lorem ipsum a       1       4
>
>
> samples
# A tibble: 3 x 2
  Sample1 Sample2
    <dbl>   <dbl>
1       3       6
2       2       5
3       1       4

 

R (tidyverse), write_tsv

tibble 形式のテーブルを出力するには、write_tsv() 関数を使います。タブ区切りテキスト (tsv) で出力できます。

write_tsv(テーブル名, "出力ファイル名")

標準の設定では、列の名前 (colnames) は出力されますが、rownames は出力されません。(tibble 形式のテーブルであれば、rownames を使ってないはずです。行の名前は、テーブルに含まれる列の1つとして扱います。)

write_tsv(result_data, "result_data.tsv")

出力する前に、データの並び替えをしたい場合は、 arrange() 関数でソートできます。(下記の例では、さらに desc() で降順にソートしてます。)

result_data <- inner_join(input_data, meta_data) %>%
  select(Id, Symbol, Description, Sample1, Sample2) %>%
  filter(Sample2 > 1) %>%
  arrange(desc(Sample2))

write_tsv(result_data, "result_data.tsv")

> result_data
# A tibble: 3 x 5
  Id    Symbol Description   Sample1 Sample2
  <chr> <chr>  <chr>           <dbl>   <dbl>
1 id3   CCC    lorem ipsum c       3       6
2 id2   BBB    lorem ipsum b       2       5
3 id1   AAA    lorem ipsum a       1       4

 

R (tidyverse), %>% パイプ

select 関数の記事でも少し触れましたが、 tidyverse パッケージを用いた R では、シェルスクリプトのようなパイプの処理が可能です。具体的には、 %>% という演算子を用います。

オブジェクト %>% 関数(引数2)

演算子の左側に書かれたオブジェクトが、演算子の右側の関数の引数に用いられます。例えば、次のような表現が可能です。

result_data %>% select(Symbol, Sample1)

上記では、result_data を select() 関数の最初の引数として渡しています。つまり、下記の表現と同義です。

select(result_data, Symbol, Smple1)

パイプ %>% を使った表現の何がメリットかというと、処理結果を連続して渡せることです。よって、下記のような表現が可能です。

result_data %>% select(Symbol, Sample1) %>% filter(Sample1 > 1)

これで、select関数で列を選択したのち、filter関数で行を選択するという作業を続けて書けます。途中で改行を挟んでも良いので、コードも読みやすくなります。

result_data <- input_data %>%
  inner_join(meta_data)   %>%
  select(Symbol, Sample1) %>%
  filter(Sample > 1)

上記のように続けて書くと、「inner_join で結合したのち、select で列を選択し、filter で行を選択した結果が result_data に入る」という意味になります。

もし、パイプを使わなかったら、下記のような表現になるでしょう。

result_data <- inner_join(result_data, meta_data)
result_data <- select(result_data, Symbol, Sample1)
result_data <- filter(result_data, Sample > 1)

# もしくは、無理やり1行で、、、
result_data <- filter(select(inner_join(input_data, meta_data), Symbol, Sample1), Sample1 > 1)

同じ変数に代入し続けたり、ネストを深くする書き方は、避けたほうが無難です。後でコードを見返したときに分かりにくくなるためです。コーディングのミスや、デバッグ時の手間の増加につながります。