多重比較 multiple comparison
(Post-hoc test)

検定の多重性の理解は重要!

 

 

1)多重比較とは

 3つ以上の群で、個々の群と群を検定する場合に、有意水準を上げずに(第一種過誤率を保ったまま)行う検定法。
ANOVA(分散分析)で、有意差があった場合にどの群とどの群に有意差があるか調べる場合に使用されることが多い。

2)多重性とは

 ひとつの実験系で、統計的検定を繰り返すことをいう。
検定を繰り返すことにより、1回のみ検定を行った場合より第一種過誤率が大きくなってしまう。 すなわち、有意差がでる可能性が高くなってしまう。

3)なぜ、多重比較が必要か

 分散分析のところでも述べたが、多群の比較をおこなうのに例えば2標本t検定を繰り返すと有意水準があまくなってしまうのである。

 A,B,Cの3群について、A-B,A-C,B-Cの すべてについて2標本t検定を行うと、それぞれについては危険率5%で判定していても、全体としては危険率が14%になって有意差がでやすい検定をしていることになってしまうのである。

危険率5%であるから、有意差がでない確率は(1-0.05)となる。3つの組み合わせ全てで有意差が出ない確率は(1-0.05)x(1-0.05)x(1-0.05)となり、逆に有意差が出る確率は1-(1-0.05)3=0.142となるからである。



 ところで、すべての組み合わせで2標本t検定を行なうとB-C間のみに有意差がでるが、3群について分散分析または多重比較をすると有意差が出ない場合について考えてみる。この場合最初から3群を選択して検定した場合には有意差なしとなるが、B、Cのみに着目して検定した場合には有意差ありとなる。これはおかしなことではあるが、多重比較の前提として、何を比較するか、つまりファミリーとして何を選択するかをまず決定してから検定することが重要なのである。多群についていろいろな組み合わせで検定した後に、有意差のあるもののみ選択したようにみせかけたり、後から群を増やして有意差なしとするような検定は誤りである。
 
4)どんな場合に多重性が問題となるか

 多重比較は、多群の対比較の場合に必要と考えられているが、そればかりではない
どんな検定でも検定の数が増えるほど全体としての有意水準はあまくなる。上の計算と同様に危険率5%で10回検定を行えば全体としての有意水準は1−(1−0.05)10=0.60、つまり60%の確率で有意差が出てしまうのである。100回行えば99.4%の危険率となってしまう。
 ある薬剤の効果を検討するのに10項目について検定をおこない、なにかしら有意差が出たからといってこの薬剤が有効であると判定することには問題があるということである。
 ある疾患のリスクファクターを検討する場合も同様であろう。非常に多くの項目について検定し、有意差が出たものがリスクファクターと判断してしまうのは問題があるように思われる。ロジスティック回帰でのリスクファクター検討でも同様と思われる。ただし、ある要因がある疾患のリスクファクターかどうかを検討する場合に、背景因子を調整する意味でロジスティック回帰を使用するのは問題ないであろう。

足立堅一氏の「らくらく生物統計学」では次のようなケースで多重性が問題になると指摘している。
(a) 多群を対比較で検定する場合
(b)多項目を検定する場合(ex,白血球数、GPT,GOT,ALPなどの多項目で検定を繰り返す場合)
(c)経時的データの輪切り検定(例えば、A、Bの2群間の降圧作用の差を各時点について順次比較し検定する場合)
(d)多種検定する場合(例えば、あるデータにt 検定、U検定、χ2検定などの複数の検定を適用する場合)
(e)サブグループ解析の場合(性、年齢、病型、重症度別に結果を分類して検定を繰り返す場合)
(f)中間解析の場合

 検定の多重性を考慮すると、研究のプライマリーエンドポイント(目的)をどう設定するかが重要となる。例えば、未熟児の呼吸障害にデキサメサゾンを使用する場合に、何を期待するかを明確にすること。慢性肺疾患患者の発生率が減少できるかどうかか、それとも酸素使用期間を短縮できるかどうかを検討したいのか、目的を明確にして検討することが重要なのである。あれもこれも検定して、なにがしには有効だったが、なにがしには無効であったという結論は結局検定の多重性が問題となるのである。プライマリーエンドポイント以外の検定結果は参考程度にするのである。


5)多重比較を行う前には分散分析が必要か

 「分散分析の帰無仮説は”各群の平均値は全て等しい”であり、どの群とどの群に差があるかは、多重比較を行わなければならない」というのはある意味で正しいが、「多重比較の前には分散分析を行わなければならない」は必ずしも正しくない。
 一元配置分散分析はF統計量を用いているので、同時に多重比較を行うにはF統計量を用いた多重比較を行う必要がある。そうでないと、また検定の多重性が問題となってしまうのである。つまり、ANOVAでは有意差はなかったが、多重比較では有意差が出るケースが出てくる。F検定量を用いた多重比較には、Fisher PLSD,Scheffe,Games/Howellがある。F検定量を用いていない多重比較には、Tukey-kramer,Bonferrani/Dunn,Dunnetなどがある。これらは、分散分析を併用しない。

 統計の参考書には、多群の検定はANOVAを使用し、有意差があれば多重比較を行うように書かれていることが多い。しかし、多群のうち2群間には差があるがその他はほぼ一様でANOVAをおこなうと有意差なしとなってしまうこともある。この場合その2群間の差に注目したくても無視されてしまう。この場合最初からTukey法やDunnett法を用いれば有意差が検出できる。つまり、ANOVAは状況によりかなり保守的となってしまうので、ある群間に注目するならばANOVAは用いず最初から多重比較(Tukey法、Dunnett法、Bonferroni法など)を適用した方がよい。

6)多重比較の結果解釈上の注意

  多重比較では、有意でない場合に、その帰無仮説を採択するには慎重でなければならず、「保留する」と表現するのがよい。
 これは、多重比較では比較する群の数が多いと、帰無仮説の数が増えて有意になりにくくなるためである。

7)どの多重比較を使用すべきか

 多重比較の種類は多く、どれを使用したらよいか難しいところであるが、これは専門家でも意見が統一されていないように思われる。そもそも、多重比較についてはまだまだ研究の余地がある分野のようである。
 多くの中からどれを選択すべきかといっても、統計パッケージの中にあるものしか使えない者はほとんどであろうから、その中から状況にあったものを選択することになる。
有名なものは以下に記載した。


・Fisher's PLSD法
、Scheffeの方法は分散分析と併用してよい(分散分析後に用いる)。
・Bonferroni法は簡便であり、かなり応用がきくが検定数が増えると有意差が出にくくなる。
・正規分布しているならば、すべての対比較をするTukey法の方が検出力がよくなる。
・コントロール群と実験群との比較にはDunnett法が有意差が出やすい。
・群間に順位が想定できればWilliams法。
・Duncan法、Student-Newman-Keuls法は用いるべきではない。


8)主な多重比較


1)Fisher's PLSD法
 ・F検定量を用いている。分散分析で有意な場合に用いる。
 ・有意差が出やすい(αエラー増大)
 ・各群のデータ数、分散が等しいことが仮定(データ数が等しくなくても使えるように汎用性を持たせたものもある)
 ・4群以上では使用してはいけない.
2)Scheffeの方法(シェフェ)
 ・有意差が出にくい
 ・適応範囲が広い
 ・各群のデータ数の均一性などの制限がない。正規性は必要。
 ・多群間のANOVAで変動が有意であった場合(F検定量を用いている)。逆にいうとScheffe 法で有意差が出ると一元配置分散分析でも有意差が出る。
3)Bonferroni 法(ボンフェローニ)
 ・検定全体の有意水準を検定数で割った値を有意水準とする
  (例えば、群数が3つの場合には3組の検定を行うので0.05/3=0.016を有意水準とする)
 ・ANOVAで有意差がなくても検定できる(併用すると多重性が問題?)
 ・5つ以上の群にこの手法は用いない方がよい(多すぎると検出力が極端に落ちる)
4)Dunnett法(ダネット)
 ・コントロール群と実験群の間の多重比較法(経時的に個体を追って測定したデータには適応困難との指摘もある)
 ・正規性が必要。データ数は不一致でもよい。
 ・群間に順位が想定できればWilliams法を用いること
5)Williams法
 ・正規性、等分散性、データ数一致
 ・群の母平均値に順番が想定可能な場合(例えば、ある薬物の効果判定でコントロール群と、1から3群までに用量を順次増加させて投与した場合)
6)Tukey-Kramer法(テュキー・クレーマー)
 ・全ての群間の対比較
 ・等分散性、正規性が必要であるが、データ数は不一致でもよい(Tukey法はデータ数一致が必要)。
 ・検出力が高く、有意差がでやすい。
7)Games/Howell 法(ゲイムスーハウエル)
 ・F検定量を使用
 ・正規性、データ数一致、等分散性など制約がなく非常に頑健(Stat Viewでは特定の手法を望むのでなければ、この方法が有用という)。

*Dunnett法とWilliams法の違い

たとえば、高血圧患者にA,B,Cの3種の薬剤を投与し血圧の変化を、コントロールと比較する場合には Dunnett法を用いるが、ある薬剤
の投与量を3段階(低用量、中用量、高用量)に分けて投与する場合には、Williams法を適応する。Williams法は用量反応関係に単調性が
期待できる場合には、Dunnett法に比べ検出力がよくなる。

 

<ノンパラメトリック法>

ノンパラメトリックの多重比較法はあまりみかけないが、必要な場面が結構ある。Tukey法、Dunnett法、Williams法に相当するノンパラメトリック法がある。

パラメトリック法

ノンパラメトリック法

Dunnett

Steel

Tukey

Steel-Dwass

Williams

Shirley-Williams

なお、少数例(1群5例以下)のデータにはノンパラメトリック法は使用しない。同順位がなければ各群のサンプルサイズ10以上必要ともいわれている。同順位がある場合には、より多いサンプルが必要になる。
ノンパラメトリック法では、サンプルサイズが少ないと有意差がでにくくなる。。

ノンパラメトリック法で対比較を行い、Bonferroni法を適応することもできる。Bonferroni法は、有意水準を補正するだけなので、Mann-Whiteney検定などで有意水準を0.05/(比較する数)に変更すればよいから簡単である。しかし、比較する数が多くなりすぎると有意差が出にくくなるので4組くらいまでが限界であろう。

ノンパラメトリックの多重比較は、「統計的多重比較法の基礎」に詳しく書かれている。しかし、これらの統計手法を取り入れた統計パッケージソフトはほとんどみかけない。

また、こちらのホームページ(大阪大学大学院薬学研究科医薬情報解析学分野 及び大阪大学遺伝情報実験センター)では、多重比較の説明とともに、ホームページ上でSteel法とSteel-Dwass法の検定ができるようになっている。

多重比較は難しい。参考書としては「統計的多重比較法の基礎」が詳しい。「らくらく生物統計学」は検定の多重性がかかえる問題点を詳しく指摘している。「学会・論文発表のための統計学」も参考になる。参考書の項参照。