どのデータを集めたらいいの!

2024年11月15日

Screenshot



臨床研究やってみたい!まずは後方視的研究で慣れていこう!PECOが決まった!

、、、、、ところで、よくあるExcelのデータ表はどうやって作ればいいの?

私も大いにつまずいたポイントです。
回答は「因果ダイアグラムを描く」です。

以下の文章の引用書籍:
 はじめての統計的因果推論(https://books.rakuten.co.jp/rb/17753218/

TとYの因果とは何かというと、「処置Tの効果として結果Yが起こること」です。「処置Tの結果Yが起こること」だけでは相関を意味します。因子C1がTとYに影響し、TとYは関連していない場合でも、C1が変化することでTとYが変化し、結果だけみればTとYの変化が関連しているように見えることがあります。これは因果ではなく相関です。
因果ダイアグラムとは、効果を見たい処置(T)/その結果(Y)/それらに関与するであろう因子(C1,2,3,,,,,10,,,)を描き出したものです。TとYだけでなく、それらが影響する方向の矢印も加えます。
以下に、私がざっと描いた因果ダイアグラムの例を提示します。

私の研究テーマは、"抗菌薬投与期間により胆管炎の改善に差があるか"です。
そのため抗菌薬投与期間と胆管炎改善とそれに影響する因子を描き出し、それらの影響の方向性の矢印も加えました。
まずは眺めるだけでいいです(ピンクの矢印は処置Tとなる抗菌薬投与期間に直接向かう矢印ですが、意味は今は気にしないでください)。

ではこの因果ダイアグラムをシンプルにして説明します。
C1はTまたはYに影響を与える因子1です。
C1がTやYに与える矢印の向きで、試験全体に与える影響が変わります。
このC1,2,,,,10,,,をダイアグラムとして描き出し、試験に影響を与えるものを抜き出せば良いのです。

では試験に与えるCとはどんなCでしょうか。それも因果ダイアグラムから分かります。
まずは、以下のC1からTやYにどのような矢印が引けますか?

これらの中で、T→Yの因果関係の解析結果に影響を与えるC1はどれでしょうか。
答えは②ですね。因果ダイアグラム上では分岐点と言われますが、これがいわゆる交絡因子または共通原因です。
以下の因果ダイアグラムは、T→Yの矢印を消しています。神様の視点で、TとYの因果関係がないことが分かっています。しかしCの値が動くことでTとYが変動すると、TとYに相関があるような解析結果が出ます。
TとYに因果がないのに、TとYの両方に影響する因子がある状態を、バックドアパスがあると言います。
この状態において、
T=kC1+j
Y=pC1+qという式がかけるとすると、これらの式から、Y=p(T-j)/k+qという式が計算上は成立してしまいます。
神様の視点からはT→Yは因果関係がないことが真理であるにも関わらずです。

ちなみに④も似たような繋がりですが、こちらはバックドアではなくフロントドアです。Tが影響を受ける側ではなく与える側だからです。これがいわゆる中間因子です。Tの影響は必ずYに伝わります。

⑤も、バックドアパスは開いていません。Tではフロントドアが開いているだけです。⑤は合流点と言われます。
これを式にすると、C1=nT+mY+uです。変数が3つの式であり、TとY自体は明確な関係性は描けません。

つまり、
T→Yの因果関係がないのにあるように見せてしまうC1(相関を生み出してしまうC1)、
T→Yの因果関係があるのにそこに混ざって行って因果関係をぐちゃぐちゃにしてしまうC1、
という因子が、データ収集をして多変量解析や傾向スコアによる解析に入れるべき因子です。

なので現実的には、上述したダイアグラムを書いて、②となるC1(交絡因子[共通原因])をデータとして収集すればいいのです。

ところで、C1を多変量解析や傾向スコアに入れるということは、A群とB群の比較試験においてはC1の影響を固定するということを意味します。これにより、T→Yの因果効果を正確に解析できるのです。

ここで注意点は、ちなみに、④中間因子や⑤合流点となるC1を多変量解析や傾向スコア算出に入れてはいけません。
④の中間因子においてはTからYの影響を消してしまうことになります。

⑤の合流点においては、C1=nT+mY+uという式において、C1が固定されるので、YはTで決まる式になってしまいます。これはあくまでも計算上はそういう相関の式ができてしまうだけで、神様の視点ではそのような因果関係はないのです。
つまりTから出てYに入る矢印なんてないのに、Tから出る矢印を計算上で作り出す(バックドアパスを作り出す)ことになってしまいます。

まとめると、Tに入る矢印はバックドアパスに繋がる可能性があり注意しますが、Tから出る矢印はフロントドアなので固定してはいけません。データを収集するのは自由ですが解析に含めてはいけないのです。

因果ダイアグラムの重要性を提示してきましたが、どうしたら因果ダイアグラムを書くことができるでしょう。それは、先行文献による既存知識の検索があります。これにより、自分のPECOにおける②[分岐点(交絡因子, 共通原因)]とは何がこれまでに判明しているかを検索しているのです。これは、臨床研究を行う上で重要なステップの1つでもあることを、以前にお伝えしました(https://ilikeercp.com/rj/clinical_research_start/)。
しかし神様神様の眼がない限りは完全な因果ダイアグラムは不可能ですね笑 しかし完璧に近いダイアグラムを描く努力をすることで、本当に描けるかもしれませんし、完璧なダイアグラムまでの道のりが見えることもあるとされます。そして、適切な臨床研究を行う道はここにあります。

最後に、完璧な因果ダイアグラムは描けなくても、収集して解析に入れるべき変数を選択する簡易的な指針を紹介します(disjunctive cause criterionと言われるもの):
1. 処置Tに影響を与えている変数
2. 結果Yに影響を与えている変数
3. 結果Yや処置Tに影響を与える因子はあるが観測できない時、それを代弁できる変数
処置Tや結果Yに直接関係する変数だけ把握できていればいいのです。
そして解析に含めてはいけないのは、繰り返しますが中間因子と合流点です。

臨床研究をやりたいのに、因果ダイアグラムを作る?それを作るためにたくさんの時間を先行文献の検索に当てる?私はとっととデータ収集から解析までをやりたいんだという方も多いと思います(私はそちら側です!)。
しかし大事な前置きを省いて行った臨床研究は、誤った結論を提示するものになるかもしれません。そしてそれは、統計的な知識が十分な人が見れば分かります。

心理学のある考え方によれば、私たちは何かを達成するために生まれて来たわけではありません。常に楽しみ続けることが目的です。成長を続ける自分に満足「し続け」ていたいのです。焦った臨床研究は、これらの人生の真の意義にとって必要でしょうか。

そんなこと言ったって、早く結果出して次に行きたいんですよね笑
ただ、何かを達成することを目標にすることをやめて、ただただ努力をやめないこと(成長を続けること)を目的にしたとき、気持ちが楽になったのを覚えています。

参考書籍:
         はじめての統計的因果推論(https://books.rakuten.co.jp/rb/17753218/
私見ですが、この本を読ませて頂いて感じたことは、因果推論の統計的な考え方を分かりやすく解説しつつも、最も伝えたいことは別にあると感じました。「データを数値化して解析し、数値化したデータ以外は考察から切り捨てたものである法則の世界にある"エビデンス"を、現実社会における個人個人という多様性への適応の是非を考慮する(マシュマロ実験からの教訓)」ということを伝えたかったのかな、と感じました。


2024年11月15日

Posted by ガイドワイヤー部長