第4回 2変数間の関係
2変数の関係について、図表などで視覚的に表現する方法と数値によって要約的に表現する方法について解説する。可視化する方法として散布図、クロス表を紹介する。また、数値によって要約する方法として、測定単位やクロス集計表のサイズといった2変数の関係の大きさとは関係のない要素によって変動する指標(共分散、χ2値)と、関係の大きさのみを反映する指標(相関係数、クラメールの連関係数)を紹介する。
【キーワード】
散布図、共分散、相関係数、クロス集計表、χ2値、クラメールの連関係数
・2変数の関係の表現方法の分類
・両方とも量的変数の場合→散布図、共分散、ピアソンの積率相関係数
・両方とも質的変数の場合→クロス集計表、X2値、クラメールの連関係数
4.1 2変数の関係の視覚的表現方法と数値表現方法の分類
4.2 両方とも量的変数の場合
4.2.1図表による表現
散布図
・2つの変数をそれぞれx軸とy軸に配置し、データをプロットしたもの
・2つの変数の関係を視覚的に把握できる。
正の相関関係→一方の変数の値が大きいともう一方の値も大きい。
負の相関関係→一方の変数の値が大きいともう一方の値も小さい。
4.2.2数値による表現
4.2.2.1 共分散
共分散(covariance):各変数の平均からの偏差の積を平均したもの
不便な点:関係の強さが変わらなくても、共分散の値が変化してします。
4.2.2.2 相関関係
相関関係(correlation coefficient:rxy):共分散を2変数それぞれの標準偏差の積で割ったもの
相関係数rxyは-1から+1の範囲に収まる
共分散を標準化した指標
利用上の注意点
・直線的な関係を評価する指標→U字の関係が見て取れるが、相関係数を算出すると、ほとんど0に近い値
・外れ値の影響を受けやすい。
4.3 両方とも質的変数の場合
クロス集計表
4.3.1 図表による表現
4.3.2 数値による表現
4.3.2.1 x2値
x2値(カイ2乗値):関連が全くない状態からのずれを表す指標
観測度数nij:実際に得られたセルの度数
期待同数eij:2変数に関連がないと仮定した際に期待される度数
観測度数と期待度数の差を2乗し、期待度数で割ることをすべてのセルについて行い、その値を合計する。
4.3.2.2 クラメールの連関係数