第12回 統計的検定
第12回 統計的検定
統計的検定について解説する。統計的検定の考え方、帰無仮説と対立仮説の関係、検定の論理などについて理解することを目的とする。また、検定の使い所と注意点についても学ぶ。
【キーワード】
統計的検定、帰無仮説、対立仮説、検定統計量、帰無分布、棄却域、有意水準、p値、統計的誤りの確率、2群の平均値差の検定、無相関検定、独立性の検定
12.1 統計的検定とは
統計的検定 statistical test : 分母についての仮設を評価するための方法です。統計的検定とは、仮説に対してデータが提供するエビデンス(証拠)を評価するための方法です。 この仮説は帰無仮説と呼ばれ、しばしばH0と略されます。 データはランダムなプロセスで生成されます。 言い換えると、統制されたプロセス(たとえば、実験的操作)は、データに作用しません。
統計的検定を理解することの重要性 多くの心理学の論文は統計的検定を使って書かれている
統計的検定の限界点についても理解する
統計的検定は、その手続きや前提が誤解されやすい方法でもある。
検定のロジックや手続きの制限を理解しよう
統計的推定と統計的仮説検定 – 総務省統計局
母平均 100グラム 25個の平均値98.12グラム 標準偏差 2.26グラムでした。
12.1.1 統計的検定の理論
母数についての仮説をたて、その真偽を判定するという形で行われる
母平均 100グラムだろうと言う仮説(確率モデルとして正規分布が近似として使える)
母平均は、正規分布のパラメータμと一致している。μ=100と言う仮説
この仮説の真偽を標本から考えるのが統計的仮説です。
帰無仮説 null hypothesis:
対立仮説 alternative hypothesis:
12.1.2 統計的検定の具体的な考え方
H0:μ=100 母平均をとりあえず100だと考える(仮の母数設定)
母集団分布の仮定に基づき標本分布を導く
母集団分布が正規分布であるという仮定に基づいて、標本分布を導出→標本分布も正規分布
帰無仮説はどれほど正しいだろうか
データに基づいてそれを評価する。
もし仮の母数から考えて、実際のデータがそれからかけ離れていれば、帰無仮説が間違えていると考える。
1) 母数について帰無仮説が真であると仮定します。
2) 仮の母数が決まります。推定量についての標本分布が定まります。
3) 標本から計算された統計量の実現値が、標本分布から考えて十分低い確率でしか生じないような値であったならば、帰無仮説が偽であると判断します。
検定統計量 test statistic :
仮の母数が正しいと言えるだろうか評価するために計算される統計量
母分散が既知なら標本平均値(第8回)
母分散が未知ならt値(第9回) 95%信頼区間の計算と同じものがつかえる
t値の計算
帰無仮説 μ=100
缶詰の重さが平均パラメータμ=100の正規分布に従うと仮定
25個の缶詰の平均x=98.12g、標準偏差s=2.26
このデータから検定統計量であるt値を計算
12.2 統計的検定の手順
確率モデルの設定→帰無仮説の設定→検定統計量の設定→有意水準の設定→検定統計量の実現値の計算
12.2.1 確率モデルの設定
母集団分布についての仮定をおく
→データの発生源がどのような確率分布に従うかについての仮定をおく(正規分布を仮定)
どのパラメータと母数が対応するかを考える
→例題では母平均に正規分布のパラメータμが対応すると考える
どうやって母集団分布を想定するか
→ヒストグラムを確認
→先行研究や理論的な知見から想定
12.2.2 帰無仮説の設定
検定で最も大切なのか帰無仮説
→帰無仮説が決まれば対立仮説も決まる
帰無仮説の立て方の例
→たとえば、統制群の平均をμc、実験群の平均をμe
H0=:μc=μe (両群に差がないと言う仮説)
H1=:μc<>μe (対立仮説は両群は等しくない、差がある) と言う仮説になる。
12.2.3 検定統計量の設定
正規分布の平均パラメータの場合は、母分散が分かっているならZ統計量、分からない場合はt統計量
検定統計量を決める
→確率モデルと帰無仮説(検定すべきパラメータ)が決まれば、計算すべき検定統計量が決まる
いろいろな検定方法がある。
母分散が既知のとき:Z値
母分散が未知のとき:t値
母平均以外にもさまざまな母数についての検定方法がある。(相関係数、回帰係数など)
12.2.4 有意水準の設定
慣習的に5%が用いられる。帰無仮説が真であるとき、検定統計量がその確率以下でしか起きない領域に入るかどうかによって判断する値です。
12.2.5 検定統計量の実現値の計算
検定の判断
→検定統計量の値が、臨界値よりも絶対値が大きくなれば、棄却域に入ったことになる。
→その場合は帰無仮説を棄却して、対立仮説が真であることを主張する(多くの場合は、対立仮説は「差がある」なので、統制群より実験群が大きい(小さい)ことが主張できる。)
12.3 統計的検定を行ううえで知っておくべきこと
12.3.1 p値
「得られた標本から計算された検定統計量によってギリギリ有意になる有意水準」
13.3.2 統計的検定の誤りと検出力
第一種の誤り(type I error)
→帰無仮説が真なのに、偽だと主張してしまう誤り
→第一種の誤りが生じる確率は有意水準αと一致する。
第二種の誤り(type II error)
→帰無仮説が本当は偽なのに、それを保留してしまう(正しく偽と棄却できない)誤り
→第二種の誤りが生じる確率をβで表す
検出力(1-βで計算される量)
→検定が正しく帰無仮説が偽であることを主張できる確率
→αを維持しながら、検出力を高めるのが重要
12.4 さまざまな母数についての検定
12.4.1 2郡の平均値の差の検定
12.4.2 相関関係の検定
無相関検定
12.4.3 クロス集計の独立性の検定
帰無仮説と対立仮説
検定統計量
帰無仮説
有意水準、棄却域
p値