例えば天気のデータを考えるとき気温が各月でどのように異なっているかというのと同時に各月の観測気温の分布も可視化したいというようなケースがある。

これはch7, ch8(histgram, Q-Q plot)のようなものではうまく行かない。そのかわりに箱ひげ図、バイオリンプロット、リッジラインプロットが有効になる

箱ひげ図(引用元: wikipedia)

Untitled

バイオリンプロット(引用元: wikipedia)

Untitled

リッジラインプロット(引用元: wikipedia)

Untitled

たくさんの分布を考えるときは目的(応答)変数とグループ化変数(これは自分の訳なのでgrouping variableのほうが通じそう)という観点から考えると良い

例えば気温データを考える際は

ということが考えられる。

目的変数、グループ化変数をどちらを縦、横にするかというのは決まっているわけではなく、この本のものでも縦横入れ替えてみればまた違う視点があるかもしれない。

9.1 Visualizing distributions along the vertical axis

たくさんの分布をひと目に可視化する簡単な方法は平均や中央値を店で表し、周囲の変化をエラーバーで表すことである。

Untitled