相関と回帰


相関分析と回帰分析の違い

 2変量xとyの関係をみるのに、相関分析と回帰分析がある。

相関分析は、xとyの相互関係の強さをみるものである。相関係数は、xとyがどの程度直線的な関係にあるかを数値化したものである。
例えば、年齢と平均血圧に直線的な関係があるかどうかをみるような場合に用いる。

回帰分析は、xとyにどのような関係があるかをみるもので、xからyを予測するためのものである。直線回帰における回帰係数とは、xとyが最もよく当てはまる直線関係をきたす場合の傾きである。回帰関数は直線回帰が最もあてはまる場合もあるし、高次関数による回帰関数が最もよくあてはまる場合もある。

例えば、ある抗生物質(x)を投与した場合の血中濃度(y)を予測する場合に用いられる。





  
相関分析(correlation analysis)

相関分析は2変量の直線的関係をみるものである。

データの種類により、パラメトリック検定とノンパラメトリック検定を使い分ける。
2変量データが、
連続変数で正規分布している場合にはピアソンの相関係数を用いる。
2変量データが、
正規分布していない場合や、離散変数である場合にはスピアマンの順位相関係数を用いる。


相関係数rは-1から1の範囲で、0に近いほど相関が弱く、1または-1に近いほど相関が強い。
相関分析では、相関係数が0かどうかを検定するが、有意判定はサンプル数が関係してくるので弱い相関(rが0に近くても)でもサンプル数が多ければ有意になることがある。


 




  回帰分析(regression analysis)

注意点(「バイオサイエンスの統計学」より)

 1)直線関係と考えてよいか?
 2)xの分布に偏りがないか?散布図は重要
  できるだけ対称な分布となるようxを変数変換する
 3)飛び離れ点はないか?
 4)yの分散は、xの値によらず均一とみなせるか?
 5)変数x,yのとり方は妥当か?(どちらを
xとyに選ぶかで、回帰関数は異なってくる)


 回帰分析を施行した時には、1)回帰が有意であるかと 2)その回帰関数のあてはまりが有意であるかを検定する。
単回帰分析の場合は、両者は同じことになる。

Stat Viewで回帰分析を施行した一例を下記に示す。





単相関係数には小文字のrを使用し、大文字のRは重相関係数(multiple correlation coefficient)に使用される決まりがある。よって、上記のRは、本来はrが正しい。ところで、重相関係数とは重回帰分析(multiple regression analysis)に使用されるものである。重回帰分析とは複数の説明変数(x)から、独立変数(y)を予測するもの。

1)決定係数R2とは相関係数 r の2乗で求められ、どの程度が回帰関数 (regression coefficient) により説明できるかを表す。ここでは0.47なので、全体の47% がその回帰関数により説明できることになる。
分散分析表の回帰分析にて、P=0.0097なので回帰のあてはまりは有意である。

2)回帰係数とはY=b+aXの時のaをいう。
この回帰直線では1.284が回帰係数で、これが0かどうかを検定する。
ここでは、回帰係数のP値が0.0097なのでやはり有意である。

お気づきのように、両者のp値は同値である。これは、直線回帰においては両者は同じ計算によって求められるからである。
2次関数以上の回帰分析においては、それぞれの次数のR2と、最高次数の係数のP値をみてどの次数の回帰分析がもっとも適切か判定することになる。