標準偏差と標準誤差(SDとSEM)

 

標準偏差(standard deviation):そのデータのばらつきの程度を表す。

標準誤差(standard error of mean):そのデータの平均値のありそうな幅を表す。

標準誤差はデータ数に依存するため、必ずデータ数を記載する。

SE=SD/√n


SDとSEM(またはSE)の使い分け

mean±SDが示そうとしているのは、母集団の平均とばらつきである。ある集団の身長を調べた場合の平均と分布を知りたい場合には、SDを用いた方がよい。何cm以下を低身長と定義したいような場合にはSD値が必要になる。

mean±SEが示そうとしているのは、母集団の平均値のありそうな範囲であり、ばらつきが大きい集団でもサンプル数を増やしていけばSEは一点に収束していく。平均の推定精度を示したい場合に用いるとよい。正規分布でなくても使用できる。


SDは、正規分布しているデータでなければ意味がない。−1SD〜1SDには、全データの約68%が含まれ、−2SD〜2SDには全データの約96%が含まれる。
よって、そのサンプルのばらつきの程度を知りたい場合にはSDを用いる(母集団のばらつきを推測できる)。母集団のばらつきは、サンプル数によって変化するものではなく標準偏差はサンプル数には依存しない。


アプガースコアーのような順序尺度でしかも正規分布していないようなデータにSDを用いても意味がない(1点から10点までしかないのにM±SDで表すと、8.0±3.2(4.8-11.2)というようなあり得ない範囲を示すことになってしまう)。この場合には四分位間範囲を使用する。

グラフでSDが大きすぎる場合、SEMで表すとコンパクトになり便利だが、データのばらつきがわかりにくくなる。
グラフのバーが示しているのが、mean±SDなのか、mean±SEなのか、mean±95%CIなのかを注意してみる必要がある。


正規分布していないデータの表し方

正規分布の場合には平均±標準偏差で表すが、正規分布していないデータは中央値、四分位間範囲、最頻値、範囲などで表すのがよい。

なお、サンプルサイズがある程度大きくなれば、平均値の分布は正規分布となるため、SEの使用には、正規分布にとらわれる必要がない。平均値の推定精度を示したい場合には正規分布していない場合でも、 mean±SEを使用してよい。

なお、平均値、中央値、標準偏差、標準誤差、はずれ値については、浜田知久馬氏の「学会・論文発表のための統計学」がたいへんわかりやすく解説している。

平均の95%信頼区間と標準誤差との関係

  平均の95%CIと平均±標準誤差は、いずれも平均のありそうな範囲を示している。

  95%信頼区間は、 、mean -1.96SEM 〜 mean +1.96SEM  と同じである。


95%予測区間(prediction interval)と標準偏差の関係


正規分布の場合の標準偏差と予測区間の関係

平均±1SD
平均±1.5SD
平均±2SD
予測区間
68%
87%
96%




これは、平均0,標準偏差1の正規分布曲線である。
-2SDから、+2SDまでに全体の96%が入る。
そして、-1.96SDから+1.96SDに全体の95%が入る。よって、
正規分布するデータにおいて、mean -1.96SD 〜 mean +1.96SDが95%予測区間となる。

よって、正規分布しているデータの代表値は平均で、ばらつきは標準偏差で示す。
しかし、正規分布していないデータの代表値は中央値で、ばらつきは範囲と25%TILEと75%TILE(Interquartile range)などで示す。

注)標本の95%予測区間と、母平均の区間推定を混同しないように.
標本の95%予測区間は、母集団のデータが95%で存在することが期待される範囲.一方母平均の95%信頼区間は、母集団の平均値が95%で存在することが期待される範囲である.
参考書によっては、予測区間を信頼区間と書いているものもあるので混同されやすいかもしれない。