なぜ我々は統計用語を理解すべきか②　〜生存時間解析〜

2023年2月24日2023年4月15日

臨床研究をこれからする、またはやり始めている皆さん。難解な統計用語はなぜ理解する必要があるのでしょうか。よく分からなくても、データを取って統計ソフトに入れたら後は自動で結果が出るのでそれでいいでしょう？私も最初はそう思っていました。というか、そう思わないと膨大な勉強量になるであろう臨床研究というテーマに向き合えない臆病さもあったと思います。

しかし臨床研究を進めて行くと、
・試験デザインの選択（例えば、前向きでやるべき？後ろ向きでやるしかない？）
・数ある統計解析の選択（例えば、多変量解析？傾向スコアマッチングがいいの？どっちでもいい？）
・ソフトが出してくれた結果は、p値だけ見ればいいの？
まさに私が直面した疑問の例ですが、統計用語を知っていることで簡単に乗り越えることができる問題もあります。また、直面した問題を調べるためにサイトや参考書を開きますが、統計用語０のサイトなんてありません。それを理解するためにさらに統計専門用語を調べ直すというテンションがだだ下がる事態も少なくなります。統計専門家に相談する際も、共通言語として理解がないと、専門家の提案を理解できず鵜呑みにすることになります。

出現頻度も高く、理解にひと勉強必要な用語は、“標準偏差、分散、多重性、生存時間解析、回帰分析、相関"あたりでしょうか。

偏差、分散、標準偏差についてはこの順番で勉強すると連続して理解して行けます（こちらのページで解説しています）。多重性に関してはこちらのページです。

今回は生存時間解析の解説をします。
生存時間解析とは、ざっくり言えば連続変数の解析方法です。T検定と同じですね。連続変数の中でも、その名の通り"時間"が対象です。アウトカム（その試験が有意かどうかを判定するための指標）に設定したイベントが起こるまでの時間が対象ということですね。T検定との違いは"打ち切り症例"があることです。
T検定で解析する連続変数は、打ち切りはありません。例えば骨折患者の入院日数であれば、全員退院できますので、基本的に打ち切りはないですよね。なのでT検定やマンホイットニーUなどの連続変数の検定をすればいいのです。
しかし膵癌などで死亡までの日数をアウトカムにした場合、試験期間内にはイベントである死亡が起こらない症例（=打ち切り）が出てきます。それは外来の自己中断、転医、研究期間内は生存されているなどの症例ですね。生存時間解析は、この打ち切りがあっても死亡までの日数（連続変数）を解析できる統計手法になります。

イベントは研究期間内に1度だけ起こることで、死亡や初回骨折や胆管ステント閉塞などです。例："膵癌で化学療法中の患者における死亡までの日数"をアウトカムにして、ゲムシタビン群 vs S-1群 vs GnP群で予後に差が出るか検討する。
研究期間内にこのイベントが起こらなかった症例を"打ち切り症例"として扱うことになります。前述の例では、イベントが死亡ですが、外来自己中断や死亡しなかった症例は打ち切り症例として扱います。

生存時間解析は、「打ち切り症例があるような複数群で、イベントまでの時間に有意差があるか」を解析します。
カプランマイヤー曲線は、その解析で得られる情報を可視化したものです。

私がEZRで作成したカプランマイヤー曲線です。
縦軸はアウトカムに関わらず割合ですね。横軸は死亡までの日数です。
３つの群で曲線は0.0まで降りて来ているので、フォローを継続できた症例は全例死亡したということです。
外来自己中断や転医での打ち切りが複数あるというイメージですね。
曲線の下には、特定の日数ごとに残っている症例数が自動で表示されます。

群間差が可視化されるだけでなく、打ち切りとイベントも明瞭になります。
また50％生存期間（＝生存期間中央値）を見たい時は、0.5のところで横線を引いて下さい。グラフと横線が交わったところの日数が各群の生存期間中央値です。患者さんや家族には、予後の目安として提示できますね。

横線ではなく縦線を引くと別のことが分かります。
下のグラフでは365日のところに縦線を入れてみました。1年生存割合に相当しますね。がんの研究でよく目にするのは5年生存割合ですね。これも縦線と各群の曲線が交わる点から可視化できます。

生存時間解析は、打ち切りがある連続変数（とくに時間）の解析でした。

その解析を可視化するカプランマイヤー曲線から読み取れるものは、イベント、打ち切り、イベント発生までの中央値、X年イベント発生割合の４つです。

2023年2月24日2023年4月15日

Posted by ガイドワイヤー部長