正規分布


パラメトリック検定の条件として、正規分布しているかどうかが問題となる。
正規分布とは、連続データのヒストグラムを作成した時、ほぼ左右対称で釣り鐘のような形をした分布を示す場合をいう。正規分布かどうかは、正規性の検定が必要であるが、そこまでしなくてもヒストグラムでおおよそは把握できる。明らかに正規分布らしくないデータにパラメトリック検定をするのは問題である。
最近の論文では、正規性の検定をしてパラメトリック検定とノンパラメトリック検定の使い分けをしているものが多い。正規性の検定として、Shapiro-Wilks検定とKolmogorov-Smirnov検定がよく使用される。

二標本t検定は、正規分布かつ等分散である必要があり、正規分布でも、不等分散の場合にはWelchの方法が必要になる。等分散とはそれぞれの群のヒストグラムの形が似ているものである。等分散の検定には、F検定が用いられる。F検定までしなくても、分布の形が明らかに異なる場合にはWelchの方法を用いる必要がある。



2群とも正規分布で等分散




非正規分布だが、等分散





非正規分布で不等分散

 正規性の検定(
Shapiro-Wilks検定など)では、データ数が30程度は必要である。よって、少数例では正規性の確認ができない。この場合どうするかというと、あまり気にせず、t 検定や分散分析を行ってもよいというものと、正規性が確認できない場合には最初からノンパラメトリック法を使用すべきという者がいる。最近の傾向として、正規性にこだわる傾向にあるので要注意である。一応両者を施行しておくのも参考になるであろう。

InStatでは、正規性の検定が簡単に行えて便利である。

 

正規分布しているデータは、平均±標準偏差のグラフでよいが、正規分布していないデータは箱ひげ図で表す。


表中には、mean(SD)かmedian(Interquartile range)で表す。
interquatile range(四分位間範囲)とは、その群の中央の50%のデータの最小値と最大値のこと。