第2回 データの要約とレポート作成
第2回 データの要約とレポート作成
データを要約するための方法として表やグラフについて説明し、Rを用いて表やグラフを作成する方法について学ぶ。また、Rマークダウンを利用してレポートを作成する方法について学ぶ。
【キーワード】
クロス集計、棒グラフ、円グラフ、ヒストグラム、散布図、Rマークダウン
クロス集計
シンプソンのパラドックス
・シンプソンのパラドックスとは? おもな事例とデータの読み間違いを防ぐ方法について
シンプソンのパラドックスとは、データの集計方法によって結果が異なるという現象を指す統計学のパラドックスです。
たとえば、ある医療機関で男性と女性の2つのグループがあり、それぞれにおいて治療成功率が異なるとします。男性グループでは70%、女性グループでは60%の治療成功率があるとします。
ここで、これらの2つのグループを組み合わせて全体の治療成功率を計算する場合、男女比率によって結果が異なることがあります。たとえば、男性が多い場合は全体の治療成功率が高くなりますが、女性が多い場合は全体の治療成功率が低くなります。このように、集計方法によって異なる結果が出ることがシンプソンのパラドックスです。
このパラドックスは、グループ間のサンプルサイズの差や、各グループの性質の違いがある場合に起こります。そのため、統計的な解析を行う際には、データの集計方法に注意を払う必要があります。
“`{r sum2, message=TRUE}
のように message=FALSE とするとライブラリを読み込むときに表示されるメッセージを表示させないことができる。
“`{r sum2, message=FALSE, warning=FALSE}
のように warning = FALSE とすると、警告などのメッセージを表示させないことができる。
2-1
Rにあるクラスの2つの科目の試験結果のデータが x01 という変数であるものとする。この2科目のうちの1科目の subjA という科目の分布を調べるために、ヒストグラムを作成することにした。ggplot で次のヒストグラムを描く方法として正しいものが1つある。それはどれか。
> x01
# A tibble: 100 x 2
subjA subjB
<dbl> <dbl>
1 49 56
2 60 52
3 59 69
4 65 63
5 70 39
6 63 43
7 39 49
8 61 59
9 51 47
10 42 59
# … with 90 more rows
出来上がったヒストグラムは次のようなものである。
それぞれ実行するとグラフを作成することはできます。
geom_bar が棒グラフ、geom_point が散布図、geom_lineは折れ線グラフです。
グラフの読み取りです。値のラベルがないので値を比較するのが難しいところがあったかもしれません。上から月曜日、火曜日、水曜日、木曜日になっています。
x03 <- read_csv(“E02P03.csv”,col_types=”ffd”)
ggplot(x03,aes(x=Media,y=Time,fill=Day))+
geom_bar(stat=”identity”)+
geom_text(aes(label=Time),vjust=5,position=”stack”)
として作成しています。xとfill を入れ替えて
ggplot(x03,aes(x=Day,y=Time,fill=Media))+
geom_bar(stat=”identity”)+
geom_text(aes(label=Time),vjust=5,position=”stack”)
とする
2-3