第3回 要約統計量
第3回 要約統計量
データを代表値や散布度によって要約する手法を解説する。データを要約することの重要性とともに、1つの代表値で要約することの限界についても触れる。具体的には平均値、中央値、最頻値、そして標準偏差、四分位偏差、範囲などの指標について説明する。
【キーワード】
要約、要約統計量、代表値、散布度
3.1データの要約
要約統計量(summary statistics)
代表値(representative value)と散布度(measure of dispersion)
3.2代表値
・だいたい、これくらいの値
睡眠時間:だいたい、◯時間くらい
3.2.1平均値(mean)
幾何平均、移動平均、調和平均、算術平均
3.2.2中央値(median)
・データを昇順に並べたときに、ちょうど中央の順位となる値
データの総数が奇数のとき
データの総数が偶数のとき
四分位数(quantile)
3.2.3最頻値(mode)
・もっとも度数の大きい値
3.3散布度
・データのばらつきの大きさ(代表値が同じでも、データのばらつきが異なる場合がある)
3.3.1分散と標準偏差
偏差(deviation)「平均値との差」
分散(variance)各偏差を二乗することで正の値に変換したうえで、平均値を計算する。
標準偏差(standard deviation)分散の正の平方根
3.3.2範囲
範囲(range):データの最小値と最大値の差を表す散布度です。
3.3.3四分位範囲と四分位偏差
四分位範囲(interquantile range)
四分位偏差(quantile deviation)