第8回 確率モデルを用いた区間推定の考え方
第8回 確率モデルを用いた区間推定の考え方
標本から母集団の性質を理解する枠組みを解説する。確率モデルとして正規分布を用いた母数の推論、とくに区間推定の考え方について理解することを目指す。
【キーワード】
確率モデル、正規分布、期待値、標準誤差、区間推定、信頼度、信頼区間
8.1母集団分布に確率分布を仮定する
標本分布がどのような確率分布となるか分からない場合、標本統計量が確率的にとれくらいの範囲に散らばるかが分からないため、母数の推定を行うのは困難になります。
81.1 確率モデル
確率モデル(probabilistic model)、統計モデル;標本抽出について既知の確率分布を仮定する。
標本抽出の確率モデル:正規分布(normal distribution):連続型の確率分布で、真ん中にピークがあり、左右対称の形状をしている。
確率モデルとして正規分布を仮定するとは、母集団から標本を得るときにデータの発生する確率が正規分布に従う。と想定すること。
8.1.2 正規分布の性質
平均パラメータ(確率分布の位置)、分散パラメータ(確率分布の広がりの大きさ)で形状が決まる。
期待値E(X) (expected value):確率分布の平均値のこと。
分散V(X):確率分布の散らばり
・確率は値の区間に対応して決まる→確率分布は実現値の区間に対して確率を定める分布
・正規分布の特徴→平均値+−1.96標準偏差の範囲が95%になる。
8.2 確率モデルを用いた推定
8.2.1 確率モデルのパラメータ推測
標本統計量
正規分布の平均パラメータμ (標本平均 m)
正規分布の分散パラメータσ2(標準偏差はσ) (標本標準偏差 s)
8.2.2 正規分布モデルにおける標本平均の標本分布
正規分布の再生性の定理→正規分布に従う確率変数の和は、正規分布に従う、標本平均の標本分布は、平均μ、分散σ2/nの正規分布に従う。
標準誤差とは、→標本統計量が母数を中心に平均的にどれくらい確率的に変動するかを表す指標、標本分布の標準偏差がそれに当たる。
√σ2/nであり、SEという表記を使うこともある。
標本平均が取りうる値の範囲→95%の確率で標本平均が取りうる値の範囲はμ+−1.96*SE
8.3 区間推定
母数を推定する。
確率モデルから標本分布を導出
正規分布モデルの場合、標本分布も正規分布
・点推定値という
・標本平均は確率的に揺らいでいるので母数と一致することはない
母数を区間で推定する。
・区間推定という
・ある範囲に母数が入るだろう、と考える推定方法
点推定(point estimation):母数を標本から計算された一つの値によって推定すること。
8.3.1 信頼区間
・どんなにかけ離れた値でも、低確率でおきうるから
・つまり、100%を考えると無限の区間になってしまう。
信頼度
・100%は無理でも、99%や95%なら区間が定められる
・区間推定をどれくらい信頼できるものにするかが信頼度と呼ばれるもの
・ある信頼度で推定された区間を信頼区間という。
8.3.2 標本平均から母平均の信頼区間を計算する。
・標本分布の95%をギリギリ越えない母数の範囲
母分散の情報を使う 標準誤差は、√4/25=0.4
信頼区間の計算
・標本分布95%ギリギリの点は、平均+−1.96SE
μlower = 99.46(標本平均) – 1.96 × 0.4 = 98.68 ・・・・下限
μupper = 99.46(標本平均) + 1.96 × 0.4 = 100.24・・・・上限
8.4まとめ
・多くの場合、正規分布を使う
・ただし、確率モデルが母集団分布を近似でなていない場合は、推論は正しくならない点に注意
次回は、母分散がわからないときの推論について学ぶ