生存分析(Survival analysis)


 生存分析は、時間を目的変数とする統計法である.生存分析といった場合、目的変数は死亡するまでの時間となるが、ある現象が発生するまでの時間と考えると他にも応用できる.例えば、酸素中止までの日数や中心静脈栄養中止までの日数、あるいはある部品が故障するまでの日数でもよい.

 まず生存分析に必要な基本的な用語を理解しておく必要がある.
 
 このあたりのことは、新谷歩先生の「みんなの医療統計12日間で基礎理論とEZRを完全マスター」が参考になります

1)生存曲線:生存曲線は、全症例のうち生存しているものの割合を時間軸に対して表した図である.
よく文献でみかけるのが、Kaplan-Meier法の生存曲線で階段状になっているものである.



2)ハザードとハザード比


上の図で、死亡率とは、ある時点(Ti)における死亡数を全症例数で割ったものである.
一方ハザードとは、ある時点(Ti)まで生存していた例数のうちの、死亡した症例の割合を示す.つまり、ある時点まで生き延びた者が、その時点において死亡する確率(瞬間死亡確率)を表している.
ハザード比とは、2群のハザードの比をいう.一方を基準にした場合に他方が何倍の死亡確率であるかを表している.

3)観察打ち切り例(Censored case):エンドポイントに至っていない追跡症例のこと
  例えば、1)観察期間を終わった時点で生存している症例
      2)消息不明例
      3)他の原因で死亡した症例
  などである.


1)Kaplan-Meier法
 死亡までの期間か、観察打ち切りまでの期間(Censored caseの場合)を入力すればできあがる.複数の治療法を入力することもできる.
Censored caseが扱えるのが生存分析の利点ではあるが、Censored caseが多いのも問題である。Censored caseは、もし生存していたらその他の症例と同様の経過をとると仮定する。最近の症例で観察期間が短い例や、他の原因で死亡した症例の場合には問題ないが、消息不明例の場合には死亡により消息不明の可能性もあるため注意が必要である。

2)Log-rank test(Mantel-Cox)
 例えば2つの治療法で生存率に差がでるかどうかを検定する場合に用いる.


例:下図はThe New England Journal of MedicineのA multicenter traial of two dexamethasone regimens in ventilatior-dependent premature infants.(1998;338:1112-8)のものである。
 2種類のdexamethasone投与方法を行い、早産児の抜管までの日数をKaplan-Meier法で検討したものである。通常生存率曲線は100%から徐々に低下していくが、この場合は逆になっている。両者の比較はLog-rank testによりおこなっている。






 Log-rank test は、早期の死亡に重みを置いている。また、比例ハザード性が成立する場合に最も検出率が高くなる。

*一般化Wilcoxon検定:この検定法は、Log-rank testより更に早期の死亡に重みを置いている。後期の生存率曲線が接近していても、早期に大きな差があれば有意差がでやすくなる。(教科書によっては、Log-rank testは後期の死亡に重みを置き、一般化Wilcoxon検定は早期の死亡に重みを置いているように記載されている)。

 前谷俊三著「臨床生存分析」では、「延命効果より全治率を比べたいときは、5年またはもっと長期での生存率を比較する。一方、延命効果も知りたければ、通常ログランク検定やハザード比の推定を行う(ただし生存率曲線が交差するときには不適当)。とくに早期死亡の差を鋭敏に捉えようとすれば、一般化Wilcoxon検定や一般化Kruskal-Wallis検定(3群以上)がよい」と記載している。


3)Cox's proportional -Hazards regression model
 Cox回帰分析では、ロジスティック回帰分析によく似た点がある.つまり、ある説明変数が生存率に有意な影響を与えるかどうかを、背景因子を調整して比較したり、生存率に影響を与える因子がなにかを検討するなどが可能である.ただ、ロジスティック回帰は目的変数が”あり””なし”の2値であるのに対し、Cox回帰では時間を扱っている点が異なる.また、ロジスティック回帰はOdds比(相対危険度)を求めるのに対し、Cox回帰ではハザード比を求める。ハザード比の95%信頼区間が1をまたがなければ危険率5%で有意といえる。
 生存期間を目的変数にして重回帰分析を行えばいいように思われるが、重回帰分析ではCensored caseが扱えない。また、重回帰分析における目的変数は正規分布という制約もあり実際にうまくあてはまらない回帰分析となってしまう.
 説明変数における、ダミー変数の作成や、変数選択法はロジスティック回帰分析と全く同様なのでそちらを参照.
その他の注意点として

1)Cox回帰分析やロジスティック回帰分析で重要な点は、十分な事象(死亡とか副作用発生など)があるかどうかである。「数学いらずの医科統計学」では独立変数に対して、最低5から10の事象が必要としている。あまりに少ない事象では、かなり不安定なモデルとなる可能性がある。

2)独立変数の数が多すぎるのも問題である。たとえば危険因子を探る目的で、多くの独立変数を投入すれば多重性の問題がおこり、なにかしら有意となる率が高くなる。この場合の有意水準の調整にBonferroni法を応用している文献もみられる。

3)Cox回帰分析では、比較する2群のハザード比がどの時間でも等しいことが前提条件となる.簡単に言えば、Kaplan-Meire法でグループ間の生存曲線が一定の比率で変化していることが条件で、交錯していてはいけない.また、”ログマイナスログ”プロットを描いてみて、時間のどの時点でも交差することなく、一定の比をもって描かれれば比例性があるといえる。もし、交錯している場合にはその因子は有意にならないこと多い.また、ハザード比が一定でない場合に対処法として、時間依存性変量を組み込む(Time-dependent Cox regression hazare model)という方法もあるが、ちょっと難しい.

4)ロジスティック回帰でもCOX回帰でも同じであるが、欠損値が多いと解析から除外されてしまう。一度に多くの独立変数を取り込んだ場合には、有効な症例数が何例あるか確認することが重要である。


例:本来、医学領域で生存分析を使用する場面は、圧倒的に死亡までの時間や再発までの時間が多いと思われる。しかし、従属変数が時間を扱うものであれば死亡以外でも、重回帰分析よりCox回帰分析の方が適している場合が多いように思われる。
以下は、超低出生体重児(出生体重1000g未満)の酸素中止までの日齢を従属変数にし、動脈管開存症の有無が影響を与えるかどうかを検討したものである。

 酸素使用期間には、児の在胎週数、出生体重、胎内感染の有無、アプガースコアーなど多くの因子が関係している可能性がある。以下の図は、動脈管開存症(PDA)の有無で生存関数、ハザード関数、ログマイナスログを描いたものである。生存曲線では最初の段階で交差しているが、20日以後はPDAの方が酸素中止日齢が長くなっている。ログマイナスログ曲線も初期に交差しているが、以後はほぼ平行である。PDAに関しては単変量解析すると有意に出たが、厳密には比例ハザード性はない。しかし、この程度は許容範囲と思われる。
 単変量解析では、ハザード比は0.41(95%CI 0.22〜0.75)であったが、在胎週数と出生体重を調整するとハザード比は0.57(95%CI 0.3〜1.01)で有意ではなくなった。その他いろいろな因子についての検討が必要になる。







参考書は、ロジスティック回帰分析と同様である。十分理解されてから、応用されたい。