これからの臨床研究に求められる統計手法③

2023年4月21日2023年5月6日

多くの人は、成長するためにやるべきことは分かっている。やっていないだけだ。by メンタリストDAIGO

100回叩くと壊れる壁があったとする。でもみんな何回叩いたら壊れるか分からないから、90回まで来ていても途中で諦めてしまう。by 松岡修造

努力に逃げ道はない。努力を愛せ。by ロジャーフェデラー

今やっていることがいつ役立つか分からないですし、役に立たない可能性すらある。そんな無駄かもしれない努力の中に、一部で光るものが出てくる。しかし努力を始め、そして続けないと光るものは出てこない。臨床医にとっての統計はそういうものかなと思いながら勉強しております。This is the way.
by ガイドワイヤー部長（笑）

ある程度統計が分かってきたら、こちらの本を、折を見て複数回読み直すことをお勧めします。自分の統計レベルが上がってから読み直すことで、毎回新たな発見があると思います。

1. ⑨マルチレベル分析
2. ⑩-1 症例対照研究
3. ⑩-2 マッチドペアコホート研究

⑨マルチレベル分析

多施設のデータを集めて、肝臓癌に対する手術Aと手術Bのアウトカムを比較するという研究をやることにしましょう。同じ手術Aだとしても施設ごとの「お作法」「スタッフ」「設備」などの施設固有の影響がアウトカムに大きく影響するかもしれません。
単施設なら個人間の背景因子（交絡因子）を揃えればよかったのですが、上述のような場合は施設間の背景因子（交絡因子）も解析に含めることになります。このように、気にすべき背景因子の層が複数ある場合を、「データが階層構造をもつ」といいます。
ちなみに階層（level）、ネストされたデータ（nested data）、群（cluster）はどれも似た用語として使われます。

下の図において、左右ともに症例を示す⚫︎は同じ位置です。左のままでは、年齢と術後ADLに差はなさそうです。しかし右のように施設Aと施設Bを分けてみると、年齢と術後ADLの相関がありそうだと分かります。

このような階層構造を持つデータの場合にマルチレベル分析は有用です。

このマルチレベル分析は上図のような直線で可視化できるのですが、その切片と傾きの状態により少し種類があります：
下の図は、Y軸に術後ADL、X軸に年齢をとった２つのグラフです。
左のグラフは、年齢と術後ADLの傾きは同じです。例えば、がんセンターが施設A、一般病院が施設Bとします。同じ年齢層でも患者の状態がよい症例ががんセンターで治療される(通院できる)ので、全般的にADLは良い。しかし年齢が上がればやはりADLは術後に低点数となりやすい、という状況です。傾きは同じで切片が施設ごとにランダムなので、ランダム切片モデル(random-intercept model)といいます。
右のグラフは、切片が同じです。例えば、施設AもBも一般病院ですが、施設Aは理学療法士が充足しており術後リハビリが頻回である、または術後早期に理学療法士が介入します。すると、独力でリハビリが難しい高齢者ほど術後ADLが低点数をとるようになります。切片は同じで傾きが違うので、ランダム傾きモデル(random-slope model)といいます。
両者ともにランダムな場合、例えば、理学療法士が充実しているがんセンターと理学療法士が不足している一般病院では、切片も傾きも変化しますので、ランダム係数モデル(random-coefficient model)といいます。

このように階層構造を持つデータでも、いつもの回帰式の中にそれぞれの階層を示す切片や傾き(ここでは施設と個人)も加えてあげることで、アウトカムと興味ある暴露因子との関連を分析できます。これがマルチレベル分析です。

＜マルチレベル分析を用いた論文を読む際には＞
①階層をチェック
「施設と個人で階層が作られている」など。
②モデルをチェック
ランダム切片？ランダム傾き？ランダム係数？
これを理解できれば、例えば施設間でどの変数が施設固有に変化するのか、施設間で変わらない固定効果なのかが理解できる。
③最も見たいアウトカムを意識
読者は、その著者と違い初めてその研究を読むわけです。いろんな変数が出てきて焦点がぼやけるかもしれません。著者が一番強調したい変数を意識しましょう。

⑩-1 症例対照研究

症例対照研究は、アウトカム発生の有無で２群に分けて、興味ある曝露因子とアウトカムに関連があるか検討するのでした。PECOでいうところのOを２群に分けてEの有無などを比較するのですね。
コホート研究は、PECOそのものです。曝露の有無でE群とC群に分け、暴露とアウトカムに関連があるかを検討するのでした。

＜サンプリング＞
この症例対照研究ですが、アウトカムが発生した人と発生してない人は、どこからどのように集めてくる（サンプリングする）かイメージが湧きますか。
元になるデータセットは、大規模なデータベースか、その研究のためにある施設で一定の期間にその疾患について"全例を連続的に"集めたオーソドックスなコホートデータセットですよね。
実際のサンプリング方法は３つあります。症例対照研究で求められるアウトカムの指標はオッズ比なのですが、「コホート研究ができたとしたら、相対リスクの指標として使いたいのはオッズ比？リスク比？発生率比（1年や1ヶ月など、一定期間におけるアウトカム発生の平均速度の比）？どれに該当するかでサンプリング方法を決めます。（オッズ比の説明ページ）

①累積発生サンプリング
これはイメージしやすい昔ながらの方法で、研究計画書で設定した研究期間の終了時点で、アウトカムがあった人となかった人でケースとコントロールをサンプリングします。

②ケースコホートサンプリング
コホート開始時にいる人々の中から、後にアウトカムが発生するかどうかに関係なくコントロール群をサンプリングします。

③リスクセットサンプリング（同時サンプリング）
あるケース（アウトカム）が発生した時点で、その時にアウトカムが発生していない（ケースになっていない）人の中からコントロールサンプリングします。

オッズ比が知りたい：①
リスク比の近似値が知りたい：②
発生率比の近似値が知りたい：③
（②③が選択されることが多い）

＜マッチング＞

サンプリングの際に、ケース群とコントロール群である変数がマッチするようにサンプリングすることがあります。

1. 時点マッチング
上述のリスクセットサンプリングのように、ケースが発生した時点を合わせる。
ケース発生時点以外にも、研究に参加してからの期間、年齢などでやることがあります。

2. 診療所マッチング
診療所以外にも居住地域など。変数を割り当てると数百になるかもしれない背景因子をサンプリングの段階で揃えておく。後の多変量解析に投入する因子を減らすため。

3. 年齢性別マッチング
これも2と同様に、解析時の統計的効率のためです。

4. 1:nマッチング
ケース（アウトカムあり）とコントロールの比は、1:4がよいとされているようです。理由は、統計的な検出力は、1:1から1:4まで上昇し、1:5からは変わらないそうです。

5. 復元・非復元マッチング
コントロールとして同じ人が何回選ばれてもいいかという設定です。
上述のリスクセットサンプリングでは、復元マッチングが理論的に合致するようです。
上述の累積発生サンプリングやケースコホートサンプリングでは、
　コントロール候補の人数が十分なら、復元でも非復元でもいいようです。
　コントロール候補が不十分なら、復元を選ぶと1:nは満たせるけど同じ人が選ばれて統計的な効率が低下するそうです。非復元では逆のメリットとデメリットですね。

マッチングを用いた場合には、暴露とアウトカムの関係を検討するために、条件付きロジスティック回帰分析が必要になります。「マッチングした層（一定の年齢層や性別という層）におけるロジスティック回帰分析をします」ということ。

マッチングを用いた場合で、ケース群とコントロール群の背景（年齢、性別、体重、採血データなど）を比較提示したい場合は、対応のない検定ではなく、対応のある検定が推奨されるようです。χ2条検定ではなくMcNemar検定、t検定ではなく対応のあるt検定。
これは、傾向スコアマッチングでは対応がある検定でも対応がない検定でもOKなのとは違いますね。

⑩-2 マッチドペアコホート研究

ざっくり言えば、あるコホート研究で気になる因子だけマッチさせて曝露因子とアウトカムの関連を検討する方法です。
適応の条件は、曝露の状態が途中で変わらない、つまり曝露因子に時間依存性がないことです。1回だけ「あり＝１」から「なし＝０」に変化する場合には適応可能です。

傾向スコアマッチングとの使い分けは、傾向スコアマッチングは手術や投薬などの医療介入が曝露因子の場合に使われることが多く、マッチドペアコホートは、糖尿病や統合失調症など人の性質を曝露因子に設定した研究の場合に使われることが多い様です。

多くのマッチドペアコホート研究では、かかりつけクリニック、居住地域、追跡開始時期など統計解析では調整しづらい交絡因子を研究デザインの段階で小さくすることが目標です。暴露群と非曝露群で、交絡因子と思われるが分布が大きく違うものも、マッチさせる対象になります。
傾向スコアを算出してマッチングさせる傾向スコアマッチングとは違い、こちらで特定の変数を選んでマッチさせるのがマッチドペアコホートですね。

暴露とアウトカムの関連の検討は、条件付きロジスティック回帰分析または頑健分散(robust分散)を選べばいいようです。
（マッチングを用いた症例対照研究では条件付きロジスティック回帰分析が必須でした）

マルチレベル分析は、データが階層構造を持つ場合に使います。その論文を読む場合は、どの因子で階層を作られているか、モデルはランダム切片／ランダム傾き／ランダム係数のどれか、見たいアウトカムをしっかり意識ということでした。

症例対照研究は、データセットの中からケースとコントールを収集しますが、収集方法として累積、ケースコホート、リスクセットがあるのでした。収集と同時にマッチングを行う場合があり、マッチングした場合には、アウトカムの検討には条件付きロジスティック回帰分析を、群間の背景因子の比較にはMcNemar検定や対応のあるt検定を使います。

マッチドペアコホート研究は、曝露因子が医療介入ではなく人の性質の場合に用いられやすく、統計解析では調整しづらい因子を研究デザインの段階で調整することが目的でした。アウトカムの解析には、条件付きロジスティック回帰分析かrobust分散を選択するのでした。

2023年4月21日2023年5月6日

Posted by ガイドワイヤー部長