なぜ我々は統計用語を理解すべきか③ 〜因果、相関、回帰分析〜

2023年3月7日

統計家は臨床の専門ではないため、統計家と臨床家の感覚とのすり合わせは、よりよい試験デザインに必須です。そして我々臨床家は、統計用語を理解することで、統計ソフトや統計専門家のやり方を鵜呑みにせず議論ができるようになります。

試験の発案は、統計家からではなく臨床の現場から起こります。私たち臨床医ですね。統計用語を理解することで、発案するステージにおける思考の幅が広がります。PICOの設定が上手くなり、試験デザインの質が高くなり、それは現場の医療をより良くします。

出現頻度も高く、理解にひと勉強必要な用語は、“標準偏差、分散、多重性、生存時間解析、回帰分析、相関"あたりでしょうか。標準偏差、分散多重性生存時間解析に関しては、以前のページで取り扱っています。このサイトだけに限らず、焦らず勉強してみてください。
自分自身を満足させ続ける1つの手段は、死ぬまで成長し続けることです。しかし死ぬまで自分を成長させるネタを探すことは大変でしょう?臨床疫学はそのネタになります。"明日を決めるのは今日やったことだけだ"というのは大谷翔平の言葉ですが、私たちはメジャーリーガーほどの過酷な生存競争の中にはいませんし、彼らより選手生命が長いことはメリットです。日野原先生をご存知ですか?聖路加国際病院の先生だったのですが、90代でも働いてましたよね?笑 そう、趣味を楽しみながらゆっくり勉強でいいんです。もちろん焦ってもいいんです。自分の人生の何に重きを置くかは、その人ごとの課題です。

まず因果ですが、その名の通り原因と結果です。ある治療薬とその有効性について、因果関係が証明できればガイドラインが変わります。医学において、これを証明できるのはランダム化比較試験(RCT)です。RCTより低いレベルの試験デザインだと、バイアス(原因または結果に影響して誤った結論を導きうる因子)が多く入ってしまうため、この因果を高いレベルで証明することができないのです。

では相関は?これはXとYが独立していないことです。つまり、どちらかが変化すれば他方も影響をうけて変化するが、因果のように原因と結果の関係には触れていないという概念です。XとYの相関は証明できても、[X→Y? Y→X?]=因果の証明にはならないのですね。X→A→Yという全然関係ない因子が入っているかもしれない。RCTでない場合は、Aについて失念したまま研究してしまい、XはAに影響する1つの要素でしかなく、実はA次第でYが決まるということもあります(中間因子)。
または、X←A→Yであり、RCT以外の研究ではAの存在に気付けず、そのため測定せずに研究が進み、結果としてX→Yという因果関係が統計上は算出されることがあります。しかし後にRCTが行われると、結局気づかれないままのAだとしても、RCTでは勝手にAは整います。そしてAが整ったことでXとYに因果関係はないと証明された、なんてこともあります(交絡因子)。

しかしX→Yの因果関係が証明できているならば、相関関係を見ることで、相関の程度まで分かりますね。この相関関係を検定するのが回帰分析です。

こんな肉の消費量と身長の相関図があるとします。

回帰分析はどういうものかというと、
まず下の図の赤線を見てください。1つのデータにのみ赤線を引いていますが、各データに対してこの赤線は引けます。この赤線の距離の和が最小になるように直線を引くのが回帰分析です。直線なので、Y=aX+bという式で表せますが、回帰分析はこのaとbを算出するための分析と言い換えることもできますね。

実際はどのようにして計算しているかというと、結論からいうと最小2乗法です。この最小2乗法は、時々出会いますので知っておくといいです。私のブログでも、分散と標準偏差のところでも出てきた考え方です。
さて、最小2乗法とはどのようなものでしょうか。各データは、直線の上にも下にも来ます。この距離を知りたい時に、マイナスでは扱いにくいんですね。なので2乗してマイナスのデータもプラスにする、そして各距離の2乗の和が最小になるように直線を引くのです。

aが算出されれば、それは傾きですので相関の強さが分かりますね。
しかし下の図のようなバラつき方でも、最小2乗法での計算上は、上の図と同じような直線が引けます。つまり回帰分析をすれば、計算上は傾きが算出されるけれどもそれが本当に有意な相関なのかを判断するには、その回帰分析のp値を見る必要があります。順番としては、p値で有意かを見て、有意なら傾きである回帰係数も気にするといった感じですね。


では例えば、肉をたくさん食べると身長が伸びるという仮説を立てた場合、どのように研究しますか?
地域ごとに肉出荷量(消費量)と平均身長はは分かるでしょうから、国ごとの肉の消費量と身長の相関について統計解析してみましょうか?そして相関ありとなった場合、肉と身長の因果関係はどうでしょうか?
肉の消費量と身長の交絡因子として、国、人種、宗教などの交絡因子が考慮されないことになりますね。そのため相関ありという統計解析結果でも、因果関係ありとは言えないのです。さらに、肉を食べるから身長が伸びるではなく、身長が伸びるから(体が大きくなるから)肉を食べるという、想定したこととは逆の因果関係すらありえます。
しかし国際RCTをやって、肉多量群と肉少量群の背景(国、人種、宗教)を揃えて研究できるとしたらどうでしょうか?因果関係が証明できそうな気がしませんか?

このように、相関関係は統計上で算出できても、因果関係を証明しないと医学の治療には繋がりません(子供の身長を伸ばしたい親に、肉をたくさん食べさせなさいと指導できません)。
因果関係証明のためにはRCTというデザインが重要であり、因果関係証明後に、その因果の強さ(相関の強さ)を回帰分析で解析すればいいのです。

自分で臨床疫学を実践するに当たり、複数の問題が降ってきます。私のブログに限らず、オンラインサロンや大学の講義などでは、時間ごとに知識を点で教えていきます。その点が繋がると面になります。ある程度大きい面になると、問題を受け止めることができるようになります。これは単なる概念ですが、成長を実感するには、点を修得し面へと昇華させる期間が必要で、止まっているように見える期間でも勉強すれば階段状に成長を感じられると思います。ただ目の前のことを勉強するのみです。

2023年3月7日

Posted by ガイドワイヤー部長