第2回 データの要約とレポート作成

第2回 データの要約とレポート作成

データを要約するための方法として表やグラフについて説明し、Rを用いて表やグラフを作成する方法について学ぶ。また、Rマークダウンを利用してレポートを作成する方法について学ぶ。

【キーワード】
クロス集計、棒グラフ、円グラフ、ヒストグラム、散布図、Rマークダウン


クロス集計

シンプソンのパラドックス
シンプソンのパラドックスとは? おもな事例とデータの読み間違いを防ぐ方法について
シンプソンのパラドックスとは、データの集計方法によって結果が異なるという現象を指す統計学のパラドックスです。

たとえば、ある医療機関で男性と女性の2つのグループがあり、それぞれにおいて治療成功率が異なるとします。男性グループでは70%、女性グループでは60%の治療成功率があるとします。

ここで、これらの2つのグループを組み合わせて全体の治療成功率を計算する場合、男女比率によって結果が異なることがあります。たとえば、男性が多い場合は全体の治療成功率が高くなりますが、女性が多い場合は全体の治療成功率が低くなります。このように、集計方法によって異なる結果が出ることがシンプソンのパラドックスです。

このパラドックスは、グループ間のサンプルサイズの差や、各グループの性質の違いがある場合に起こります。そのため、統計的な解析を行う際には、データの集計方法に注意を払う必要があります。

 


“`{r  sum2,  message=TRUE}

のように message=FALSE とするとライブラリを読み込むときに表示されるメッセージを表示させないことができる。

 

“`{r  sum2,  message=FALSE, warning=FALSE}

のように warning = FALSE とすると、警告などのメッセージを表示させないことができる。


2-1

Rにあるクラスの2つの科目の試験結果のデータが x01 という変数であるものとする。この2科目のうちの1科目の subjA という科目の分布を調べるために、ヒストグラムを作成することにした。ggplot で次のヒストグラムを描く方法として正しいものが1つある。それはどれか。

> x01

# A tibble: 100 x 2

subjA subjB

<dbl> <dbl>

1    49    56

2    60    52

3    59    69

4    65    63

5    70    39

6    63    43

7    39    49

8    61    59

9    51    47

10    42    59

# … with 90 more rows

出来上がったヒストグラムは次のようなものである。

それぞれ実行するとグラフを作成することはできます。

geom_bar が棒グラフ、geom_point が散布図、geom_lineは折れ線グラフです。

正答: ggplot(x01,aes(x=subjA,y=..density..,))+geom_histogram(bins=20)+geom_density()

グラフの読み取りです。値のラベルがないので値を比較するのが難しいところがあったかもしれません。上から月曜日、火曜日、水曜日、木曜日になっています。

x03 <- read_csv(“E02P03.csv”,col_types=”ffd”)

ggplot(x03,aes(x=Media,y=Time,fill=Day))+

geom_bar(stat=”identity”)+

geom_text(aes(label=Time),vjust=5,position=”stack”)

として作成しています。xとfill を入れ替えて

 

ggplot(x03,aes(x=Day,y=Time,fill=Media))+

geom_bar(stat=”identity”)+

geom_text(aes(label=Time),vjust=5,position=”stack”)

とする


2-3

以下の文はRでレポートを作成する手順について述べたものであるが、この中に間違っているものが1つある。それはどれか。

1つ選択してください:

マークアップ言語とはタグなどでマークをつけることによって文章を構造した言語である

マークダウンとはマークアップ言語を簡略化した言語である

Rマークダウンを作成したのちに変換することでHTML形式やWord 形式のレポートを作成することができる

Rマークダウンを用いてRの命令を書いても、グラフを作成することはできないので、グラフを含んだレポートは作成することができない

 

あなたの答えは正解です。

問題 2

以下に表示されているものはRマークダウンのサンプルである。これについて述べた4つの文の中で正しいものが1つある。それはどれか。

title: “sample”

author: “name”

date: “01/01/2021”

output: html_document

## R Markdown

This is an R Markdown document. Markdown is a simple

“`{r}

1+2

“`

1つ選択してください:

tite:”Sample”

の部分はRの命令なので変更してはいけない

output: html_document

とあるが、これは出力をHTML形式で作成するということを意味している。もしWord形式で出力したい場合には

output:word_documentとする

 

## R Markdown
とあるが、# のあとの文字はコメントとして無視される

Rマークダウンではレポートの文章を “`{r} と“`

の間に書くので、このレポートは 1+2 とだけ表示される。

 

フィードバック

問題 3

以下に表示されているものはRマークダウンのサンプルである。これについて述べた4つの文の中で誤っているものが1つある。それはどれか。

title: “sample”

author: “name”

date: “2021/04/05”

output:

word_document:

reference_docx: sample21.docx

## R Markdown

This is an R Markdown document. Markdown is a simple

“`{r sum1}

1+2

“`

文を書く。

“`{r sum2 ,  message=TRUE ,  warning=FALSE}

library(tidyverse)

sum(1:3)

“`

<!–

メモ

–>

文を追加する。

“`{r sum3 , echo=FALSE}

sum(2:4)

“`

1つ選択してください:

“`

{r sum1}

のsum1 はこのRの命令の部分に付けられたラベルである。上記の例では sum1 、sum2 、sum3 と別の名前を指定しているが、作成されたword では表示されないのですべて同じ名前にしておくとよい。

 

<!–

メモ

–>

の部分はコメントでありこの部分に書いたことは作成されたWord には表示されない。

“`{r  sum2,  message=TRUE}

 

のように message=FALSE とするとライブラリを読み込むときに表示されるメッセージを表示させないことができる。

 

“`{r  sum2,  message=FALSE, warning=FALSE}

のように warning = FALSE とすると、警告などのメッセージを表示させないことができる。

 

フィードバック

Pocket
LINEで送る