第2回 データの要約とレポート作成
第2回 データの要約とレポート作成
データを要約するための方法として表やグラフについて説明し、Rを用いて表やグラフを作成する方法について学ぶ。また、Rマークダウンを利用してレポートを作成する方法について学ぶ。
【キーワード】
クロス集計、棒グラフ、円グラフ、ヒストグラム、散布図、Rマークダウン
クロス集計
シンプソンのパラドックス
・シンプソンのパラドックスとは? おもな事例とデータの読み間違いを防ぐ方法について
シンプソンのパラドックスとは、データの集計方法によって結果が異なるという現象を指す統計学のパラドックスです。
たとえば、ある医療機関で男性と女性の2つのグループがあり、それぞれにおいて治療成功率が異なるとします。男性グループでは70%、女性グループでは60%の治療成功率があるとします。
ここで、これらの2つのグループを組み合わせて全体の治療成功率を計算する場合、男女比率によって結果が異なることがあります。たとえば、男性が多い場合は全体の治療成功率が高くなりますが、女性が多い場合は全体の治療成功率が低くなります。このように、集計方法によって異なる結果が出ることがシンプソンのパラドックスです。
このパラドックスは、グループ間のサンプルサイズの差や、各グループの性質の違いがある場合に起こります。そのため、統計的な解析を行う際には、データの集計方法に注意を払う必要があります。
“`{r sum2, message=TRUE}
のように message=FALSE とするとライブラリを読み込むときに表示されるメッセージを表示させないことができる。
“`{r sum2, message=FALSE, warning=FALSE}
のように warning = FALSE とすると、警告などのメッセージを表示させないことができる。