これからの臨床研究に求められる統計手法①

2023年4月14日

皆さんは患者さんへの診療をガイドラインに沿って行っているでしょうか。実はガイドラインは5年で半分の内容が時代遅れになるという研究があります。これがガイドラインが5年ごとに改訂される理由でしょう。また改訂の合間の3年でも20%が時代遅れの内容になってしまうようです。

非専門領域の診療をする場合には許容範囲と思います。しかし専門領域ではそうもいきません。そこで原著論文を読む機会があると思います。原著論文の質は、研究デザインと統計手法で決まります。この"質"を理解することが、エビデンスレベルの理解度(実臨床への適応の是非を自分で判断できること)が上がります。
質の低い研究の原著論文の結論は、その研究で用いた集団(データセット)に対してのみ有効な結論であり、一般臨床へは適応しないかもしれないのです。質の高いRCTでは自信を持って一般臨床へ適応していいと言えます。

つまり、その論文の結論だけならAbstractとConclusionを読めばいいが、論文の質を理解するにはMethodを理解することが必要です。しかしMethodに記載されている統計学は、医学と同様に日進月歩であり、20年前よりも求められるレベルが上がっています。本項は、その統計学を勉強する一歩目になれば幸いです。

しかし、統計学はどれだけ深く学べばいいのでしょうか。原著論文のMethodを読んでいたら、difference-in-difference analysisという単語が出てきて、「よし!じゃあいったん論分を読むのを止めてdifference-in-difference analysisの勉強をしよう」と思える人はどれだけいるでしょうか。
大学の試験勉強も範囲をもらえるから勉強しやすいのであって、試験範囲を貰えなかったら挫折するでしょう。"臨床医に必要な統計学"という範囲を貰ってこそ勉強のモチベーションが湧いてくると思います。本項はそんな範囲を絞る話です。

OPEN WATER。あと何キロで島があると教えてもらえれば頑張って泳げるかもしれない。しかし突然この状況になったら、どちらに泳ぐのか、どれだけ泳ぐのかで途方に暮れるだろう。

今回私が参考にした書籍はこちらです。

この本は、臨床医に必要な統計手法について、"その範囲"を提示してくれています。つまりこの本に出てきた単語を原著論文を読んでいる時に突然見かけたら、それは立ち止まって勉強をした方がいいということです!
ただし、これから統計を1から勉強する方は、いきなりこの本を読んで全てを理解するのは難しいと思います。私がこの本を紹介する意図は、”学ぶべき統計学の範囲を提示すること”ですので、簡単な紹介に留めます。

①傾向スコアマッチング(propensity score matching),
逆確率重み付け(inverse probability of weighting, IPW),
高次元傾向スコア(high-dimensional propensity score, hdPS)

脳梗塞500例のデータセット(P)を用いて、tPA投与群(E)と保存的治療群(C)で、30日後のMMT(O)を比較するという後ろ向き研究で説明します。PECOは、付記した通り。傾向スコアとは、このEを受けやすさを表します。傾向スコア(0~1)を算出し、それが両群で揃うようにすれば、傾向スコアを算出したものについては両群での背景が揃います。仮に全ての交絡因子(EとOの両方に影響する因子)を傾向スコア算出に用いることができたとすれば、それはほぼRCTになります。

IPWは、E群にいる症例は、傾向スコアの逆数(重み)を掛けます。C群にいる症例には、"1-傾向スコア"の逆数を掛けます。このように操作をすると、両群の患者背景はより均質化等します(詳しくは傾向スコアへ)。

hdPSは、データベース研究(いわゆるリアルワールドデータ)を用いた研究で使用します。とにかく圧倒的に多数の因子を用いて傾向スコアを算出することで、未測定の交絡因子まで調整できてしまっているはずだという考え方に基づいています。

②操作変数法(instrumental variable analysis)

これも傾向スコアマッチングと同様に擬似ランダム化の手法です。
RCTでは、ざっくり言えばくじ引きをして症例を介入群と対象群に分けてアウトカムを比較しますよね。

しかし観察研究では既に結果が出ておりくじ引きはできません。このくじ引きに当たる操作を後付けでやったことにするのが操作変数法です。操作変数として用いていいものはかなり限られているのですが、ここでは「金曜日入院」や「自宅と病院の距離」などと思ってください。
操作変数法のやり方を1つだけ方法を紹介します:
1. ロジスティック回帰分析(目的変数(=従属変数)を治療Eを受けたかどうかの2値変数にします。説明変数(=独立変数)を患者背景と操作変数にします。)
2. 患者が治療Eを受ける確率が求まります(これは傾向スコアの算出方法と類似です)。
3. ロジスティック回帰分析(目的変数を2値変数のアウトカムにします。説明変数として患者背景に加えて治療Eを受ける確率(2で求めたもの)を入れます。)
このようなステップでE群とC群のアウトカムに有意差があるか比較をします。

③不連続回帰デザイン(regression discontinuity design, RDD)

これは検査値に正常と異常の閾値が設定されている場合に用いられる研究デザインです。例えば高血圧は140mmHg以上で降圧薬が導入するという推奨の場合、この閾値にあたる140を割り当て変数といいます。割り当て変数前後、例えば治療薬を導入される140mmHgの症例と導入されない139mmHgの症例は患者背景はほぼ揃っており、たまたまクリニックで測定したら140だった、139だったということ(偶然)と思われます。すなわち140近傍では自然とランダム化されているとみなせます。
つまり閾値でスパッと暴露の有無が分かれる場合(新ガイドライン発刊直前の症例 vs 発刊直後の症例)は、RCTのように単純に2群を比較すればいいです(sharp RDDといいます)。しかし高血圧治療の場合は、140を超えても治療しない主治医や、140未満でも治療する主治医がいるように、閾値を挟んで暴露にある程度のオーバーラップがある状況(fuzzy RDD)では、この閾値である割り当て変数を、上述の②操作変数法の操作変数と同じ扱いをして解析します:

1. ロジスティック回帰分析(目的変数(従属変数)を治療Eを受けたかどうかの2値変数にします。説明変数(独立変数)を患者背景と割り当て変数にします。)
2. 患者が治療Eを受ける確率が求まります(これは傾向スコアの算出方法と類似です)。
3. ロジスティック回帰分析(目的変数(従属変数)を2値変数のアウトカムに、説明変数(独立変数)として患者背景と治療を受ける確率(2で求めたもの)を入れます。)
このようなステップでE群とC群のアウトカムに有意差があるか比較をします。

④差の差分析(difference-in-differences design)

ある治療(介入)を行う研究を、単群でやったとします。上の図での介入群だけの場合をイメージしてください。その単群で介入の前後の変化を比較するデザイン(前後比較デザイン)をヒストリカルコントロールといいます。このデザインの問題は、介入後の変化が、介入の効果なのか世の変化の効果なのか判断できないことです。世の変化の例として、介入するような時期にガイドラインが変わった/ヒカキンが健康志向のコンテンツを増やした/たばこ税が増えて禁煙者が増えた、などをイメージして下さい。

ここで対象群を用意します。つまり世の変化の影響は受けるが介入はない群です。
これがあることで、「介入群がもし介入を受けなかった場合に、効果判定時点で到達したアウトカム(上図のA)」が予想できます。それを実際のアウトカム(上図のA’)と比べることで、世の変化の影響を受けない比較ができます。

対象群の選び方については、例えば介入群を「帝王切開の術後感染症予防の抗菌薬を、術前投与から術後投与に変えた効果を見る」とすると、対象群は「子宮筋腫の術後感染症予防の抗菌薬を、試験期間中はずっと術前投与のままとする」です。

⑤時間依存性交絡と周辺構造モデル (time-dependent confounding と marginal structural model)

これ一気に勉強する気が失せますよね笑 難解な単語が2つ!
まず時間依存性交絡から。コホート研究の中で、複数回測定し時間とともに変化する変数のことを時間依存性変数と呼びます。これは言葉通りですね。で、この時間依存性変数が交絡因子である場合、時間依存性交絡因子という名前になります。交絡因子とは、PECOのEとOの両方(暴露とアウトカム)に影響する因子のことでしたね。時間依存性変数はだいたい時間依存性交絡因子でもあると言われています。
時間依存性変数の具体例は、膵臓癌の腫瘍マーカーであるCA19-9です。CA19-9は高値は腫瘍の進行度を表し死亡リスクの因子です。さらに近年は、これが高値だと術後再発率が上がるとされ、手術は避けて化学療法が選択されることが増えています。そしてそのカットオフは150U/mlとも300U/mlとも言われています。ある施設ではこれがカットオフより下がれば手術をし、高いままなら化学療法を継続するとします。つまり手術という暴露を受けることに影響しますし、死亡リスクでもあります。つまりCA19-9は時間依存性変数であり、時間依存性交絡因子です。
時間依存性がない研究であれば、PECOのE(暴露群)とC(対象群)を分けて2群を比較しますよね。時間依存性変数を考慮する研究では、その時間とともにEが増えてくるはずです。上の例ですと、化学療法が奏功すれば手術を受ける暴露群(E)が増えますね。

はい、ここまでで試験期間内としてはE群とC群が決まりました。では実際の比較解析ですが、通常のデザインと同様に、多変量解析や傾向スコアマッチングを行うと、時間依存性変数を考慮する場合は、結果の過小評価に繋がるとされています。言葉だけ紹介すると、過調整バイアスと合流点層別バイアスというものが働きます。この時間依存性交絡因子に対処できる統計モデルは3つあるのですが、よく使われるものが周辺構造モデル(marginal structural model, MSM)です。

ところでこの周辺構造モデルでは、①の傾向スコアマッチングの項でも出てきた逆確率重み付け(IPW)を行いますので、MSM-IPWと略したりします。ちなみに似た統計操作は、②の操作変数法と③の不連続回帰デザインでもありましたね。このように、1つ理解すると他の領域の理解も進みます。

ではMSM-IPWを説明していきます:
時間依存性交絡があってもなくても、そのまま単変量解析をしたら当然交絡因子がたくさん入ります。そのため通常の研究デザインでは、交絡因子と思われるものもできるだけ多くデータ収集し、多変量解析や傾向スコアマッチングで2群間の交絡因子を揃えるようにするのでした。しかし時間依存性交絡がある研究デザインでは、多変量解析や傾向スコアマッチングでは、結果を過小評価してしまうことも説明しました。そこで有効なのが、傾向スコアを用いますが傾向スコアマッチングはせず、その逆数を利用して両群の背景(交絡因子)が揃うようにするというものです。

この"重み付けによる人数の正しいかさ増し"で均質な2群ができました。この2群を統計解析に使用する研究を、周辺分布モデルといいます。周辺構造モデルの"周辺"に当たる部分です。では"構造"とは何かというと、ざっくり言うと周辺分布モデルに回帰分析を行うことです。

そしてこれは時間の概念が入るモデルですので、打ち切りへの対応や、解析は重み付けCOX回帰分析を使ったりします。他にも安定化や重み付けの正確性確認などの作業も入りますが、このページの目的は臨床医に必要な統計手法の概念を理解することにありますので、説明は省きます(私にも正確な説明はできません!)

※ここで交絡因子の復習です。
暴露(E)と相関があり、アウトカム(O)と因果があり、EとOと中間因子でないものが交絡因子でした。

下の図ですが、スワンガンツカテーテルは死亡率を増やすという研究があるとします。
しかしこれは、重症度が高いからスワンガンツカテーテルを挿入する、そのため死亡率が高いということかもしれません。つまり交絡因子が2群で揃っていない場合、交絡因子の影響が強くでた群ではアウトカムのデータがEだけの影響で出たものとは言えなくなります。

つまり、因果関係を証明するためには交絡因子を2群間で均等にする努力は必須であり、時間依存性交絡がある研究デザインではMSM-IPWを使用するのです。

どうでしたか。とくに時間依存性交絡と周辺構造モデルが難しくないですか?
統計家を雇ってスタートするような大規模データベース研究なら対応しやすいですが、個人でやるような単施設200-300例のレトロ研究の論文では、こんなの求められたらちょっと放心しちゃいそうです笑

でも知っているのと知らないのでは大違い。ゆっくりでもできるようになれば、統計家に頼る部分も減り、そのうち自分でも周辺構造モデルの研究を立案するようになるかもしれません!

周りの同僚と自分を比較することは、自分の人生を楽しむかどうかには不要はステップです。やるべきことは、自分が好きなペースで一歩を踏み出し続けることだと思います。

2023年4月14日

Posted by ガイドワイヤー部長