ggplot2 の基本型

ggplot2 の基本的な書式は、下記のようになっています。

ggplot() + geom_xxx() + スケール + コーディネイト + テーマ + ラベル

最初の ggplot() 関数では、使用するデータを含むオブジェクトと、オブジェクトのうち、実際使用するデータをaes()で宣言します。次の geom_xxx() 関数で、ヒストグラムや、散布図、ヒートマップといった表示形式を宣言します。 geom_bar(), geom_point(), geom_tile() などがあります。ここまでが、グラフの描画に最低限必要なオブジェクトです。

ある値に応じて、プロットの色やサイズを変更する場合は、スケールの部分で指定します。scale_fill_gradient() 関数や、scale_size() 関数があります。

コーディネイトの部分は、必須ではありませんが、描画する範囲 (従来の xlim, ylim に近い) を指定する場合に用います。coord_cartesian() 関数や、プロットの向きを回転させる coord_flip() 関数などがあります。

テーマの部分で、見た目の変更を行います。プロットの背景や、各軸の目盛りの書式などがまとめて定義されたテーマを指定できます。モノクロのテーマ (theme_bw), 明るいテーマ(theme_light), 従来のスタイル (theme_classic), 背景なし (theme_void) などがあります。

ラベルの部分で、x軸のラベル、y軸のラベル、タイトル、キャプションなどを指定します。labs( x = "x軸ラベル", y = "y軸ラベル", title ="タイトル")

全て指定すると、下記のようなコードになります。(1行に書く必要はありません。途中で、改行を入れることができます。)

input_data <- tibble("Sample1" = rnorm(100))

ggplot(input_data, aes(Sample1)) +
  geom_histogram(bins = 20, aes(fill = ..x..)) +
  scale_fill_distiller(palette = "Blues") +
  coord_cartesian(xlim = c(-2, 2)) +
  theme_light() +
  labs(title = "histogram", y = "read count")
設定を変更したヒストグラムの例

オブジェクトの保存

途中のコードをオブジェクトとして保存することもできます。確定している部分をオブジェクトにすることで、テーマだけ変更して確認したりといった、コードの再利用もしやすくなります。

オブジェクトに格納した段階では、グラフの描画は行われません。オブジェクトをコールした時点(=オブジェクトに代入しなかった場合)で描画されます。

g  <- ggplot(input_data, aes(Sample1))                 # g に格納。
gg <- g + geom_histogram(bins = 20, aes(fill = ..x..)) # gg に格納。

# グラフは、下記でコールされた時点で描画される。
gg + scale_fill_distiller(palette = "Blues") +
  coord_cartesian(xlim = c(-2, 2)) +
  theme_light() +
  labs(title = "histogram", y = "read count")
 

ggplot2 を使った作図方法

tidyverse では、 ggplot() 関数を用いて図を作成します。従来の plot 関数と異なり、多次元のデータも、2次元に並び替える必要があるため、多少、慣れが必要です。

まずは、1次元のデータを例に、ggplot の作法を紹介します。(この場合は、並び替える必要はありません。)

> # 適当なデータを100個生成
> input_data <- tibble("Sample1" = rnorm(100))
> 
> input_data
# A tibble: 100 x 1
   Sample1
     <dbl>
 1 -1.64
 2  1.91
 3  0.890
 4  0.178
 5  0.0393
 6 -1.09
 7  0.544
 8  0.387
 9 -2.48
10 -0.309
# … with 90 more rows
>
>
> ggplot(input_data, aes(Sample1)) + geom_histogram(bins = 20)

ggplot() 関数で、どのオブジェクトのどの列を使うかを指定します。その際、列のデータは、aes() の形式で指定します。上記では、count の列を指定しています。

ggplot の後の 「+」 に続く関数で、図の種類を指定します。上記では、 geom_histogram() として、ヒストグラムを指定しています。(bins = 20 は、ヒストグラムの細かさを指定するオプション。)

ウィンドウが開き、下記のような画像が表示されます。

ヒストグラムの例

画像を保存するには、 ggsave() 関数を用います。ファイルの形式は、拡張子 (.png, .pdfなど) から、自動で判断されます。(従来コードのように、いちいちデバイスを指定しなくて済むので楽です。)

ggsave("ファイル名.png")

> ggsave("histogram_image.png")
Saving 7 x 7 in image

オプションなしで、 ggsave 関数を使用すると、その時点で表示されているウィンドウの大きさで画像ファイルが作成されます。上記の場合は、7 インチ x 7 インチのサイズで保存されています。明示的に、サイズを指定する場合は、次のように width, height, unit オプションで指定します。

> ggsave("histogram_image.png", width = 7, height = 7, unit = "in")

その他の1次元データを表示する関数は、 geom_dotplot(), geom_density(), geom_bar() などがあります。 チートシートでは、 one variable の項目で紹介されています。

ggplot2

https://ggplot2.tidyverse.org