第3回 要約統計量

第3回 要約統計量

データを代表値や散布度によって要約する手法を解説する。データを要約することの重要性とともに、1つの代表値で要約することの限界についても触れる。具体的には平均値、中央値、最頻値、そして標準偏差、四分位偏差、範囲などの指標について説明する。
【キーワード】
要約、要約統計量、代表値、散布度


3.1データの要約

要約統計量(summary statistics)

代表値(representative value)と散布度(measure of dispersion)

3.2代表値

・だいたい、これくらいの値

睡眠時間:だいたい、◯時間くらい

3.2.1平均値(mean)

幾何平均、移動平均、調和平均、算術平均

3.2.2中央値(median)

・データを昇順に並べたときに、ちょうど中央の順位となる値

データの総数が奇数のとき

データの総数が偶数のとき

四分位数(quantile)

3.2.3最頻値(mode)

・もっとも度数の大きい値

3.3散布度

・データのばらつきの大きさ(代表値が同じでも、データのばらつきが異なる場合がある)

3.3.1分散と標準偏差

偏差(deviation)「平均値との差」

分散(variance)各偏差を二乗することで正の値に変換したうえで、平均値を計算する。

標準偏差(standard deviation)分散の正の平方根

3.3.2範囲

範囲(range):データの最小値と最大値の差を表す散布度です。

3.3.3四分位範囲と四分位偏差

四分位範囲(interquantile range)

四分位偏差(quantile deviation)

 

 

 

 

Pocket
LINEで送る