測定尺度の分類

統計学において、測定尺度とパラメトリック検定、ノンパラメトリック検定の知識は必須である。
まず、測定尺度の分類について。


1)分類尺度 categorical scale(または名義尺度 nominal scale)
  疾患分類、男女の分類、季節分類など。それぞれが平等の関係にあり、大小関係がない。

2)順序尺度 ordinal scale or ranking scal
  重症度分類(軽症、中等症、重症)、効果判定(無効、やや有効、有効、著効)など、順序は定義されるが、間隔は定義されない。

3)間隔尺度 interval scale
  白血球数、血圧、重量などの数値の連続したデータ。

パラメトリック検定とノンパラメトリック検定


検定をおこなう場合、大きくパラメトリック検定とノンパラメトリック検定に分類される。
1)パラメトリック検定
  条件として、間隔尺度(連続変数)でかつ正規分布していることが必要。
   少数例の標本では、正規分布かどうか判定できないが、よく利用される。

2)ノンパラメトリック検定
  
データの分布に依存しない検定法。

 
 アプガースコアーは順序尺度で、正規分布してないことが多い。しかし、論文では、t 検定を行っていることが多い。厳密には、これは誤りである。
 (アプガースコアーとは、新生児の出生時の状態を評価する方法で、0点から10点まである。状態の悪い児は点数が低くなるが、多くは8〜9点で
である)


ノンパラメトリック検定は、パラメトリック検定に比較し、やや検出力が劣ることが多い。

すべての検定法がパラメトリックとノンパラメトリック検定に分類されるわけではないが、代表的なものの分類を表に示す。

パラメトリック検定
ノンパラメトリック検定

関連標本

一標本t 検定

Wilcoxon符号付き順位和検定
(Wilcoxon signed rank test)

独立標本

二標本t 検定

Mann-Whitney 検定
(Wilcoxon rank sum test)

独立多標本

一元配置分散分析(対応なし)

Kruskal-Wallis検定

関連多標本

一元配置分散分析(対応あり)
=反復測定分散分析

Friedman検定

2変量

Pearsonの相関係数

Spearman 順位相関係数



 
二標本t検定の条件

1)間隔尺度のデータ
2)両群とも正規分布
3)両群の分散が等しい。

しかし、「バイオサイエンスの統計学」によれば
「極端な場合を除いて、3条件はいずれもたてまえ上のもので、検出力のことを考慮しなければ、それほど厳密に考えて使う必要はない」という。

逆に
ノンパラメトリック検定を行うべき場合
1)明らかに正規分布でないとき。
  (逆数や対数をとって変数変換を行ったりする方法がある)

2)データの分散が群によって一様でないとき。
(元の変数が比率であったり,ポアソン分布に従うようなときなどには変数変換などを
行ったりする方法がある)

3)測定の尺度が間隔尺度でないとき。
(体動の評価 深睡眠、REM睡眠、覚醒、啼泣など。アプガースコアー。痛みのスコアー化など)

4)分布の端で測定値が途切れているとき。測定感度以下のデータのあるとき。


パラメトリックかノンパラメトリックか

小標本の場合:厳密に正規性、等分散性を検定しても、少数ゆえに検定をパスする。極端な場合を除いて事実上t 検定の適応は正当化されるという。しかし、問題は母集団がどういう分布をするかである。もし、非正規分布するデータにパラメトリック法を用いたり、正規分布するデータにノンパラメトリックを用いた場合のp値は信用できない可能性がある。この場合、今回のデータだけでなく、それ以外のデータも参照にし正規分布するかどうかを考察するとよい。

大標本の場合:厳密にはt検定を適用できる場合がほとんどないが、あまり厳密に検定の妥当性をチェックする必要性はないという。大標本の場合、正規性の検定も可能であるが、ノンパラメトリックでもパラメトリックでも、結果に大きな差はでない。

 正規性や等分散の検定については、こだわる者もいれば、あまりこだわらない者もいるようである。しかし、最近の論文では パラメトリック検定とノンパラメトリック検定を使い分けていることが多いので、原則に沿って使い分けた方がよいと思われる。また、順序尺度(軽症、中等症、重症など)を数字に置き換えて、パラメトリック検定を行うのは基本的な誤りである。
 また、多群の検定では2元配置分散分析に相当するノンパラメトリック法はないし(たぶん?)、一元配置分散分析に相当するノンパラメトリック法の場合には多重比較が難しいことなども考慮したい。

この点に関しては、青木繁伸 先生のホームページを参考にされたい。

クラスカル・ウォリス検定でシェッフェの方法による対比較は
http://aoki2.si.gunma-u.ac.jp/lecture/Average/kwtest.html
フリードマン検定では
http://aoki2.si.gunma-u.ac.jp/lecture/TwoWayANOVA/friedman-m.html

ちなみに、検定効率はデータの分布型により異なる。
正規分布の場合:一標本t検定、二標本t検定が検出力がよい。
両裾広がり分布の場合:Wilcoxon検定、Mann-Whitney検定が検出力がよい。

まとめ
結局、どう使い分けたらいいのか?原則に従ってやれば問題ないが、明らかに正規分布ではない場合や、間隔尺度でない場合にはノンパラメトリックを使うべきであろう。