RJチップス第2回 平均値と中央値 〜あなたの研究はどちらを使う?〜

2022年7月27日

RJ

ご自身で臨床研究をされている先生たちはご存知として、そうでない先生達は明確な理解をしてますでしょうか?一発でも研究をやれば理解すると思いますが、一発目で大コケしたくはないですよね笑

理解しましょう。重要です笑

皆さんは『棒グラフ』と『ヒストグラム』の違いを説明できますか?
なかなか難しいですよね・・・
『棒グラフ』と『ヒストグラム』の特徴はザッとこんな感じですかね。

ところで、『ヒストグラム』は平均値or中央値のジャッジになるってどういうこと???
まず、その前に・・・
データ種類の理解が深まれば、ドンドン統計が楽しくなると思います。
データ種類を整理したところで平均値・中央値の話に戻りましょう↓↓
あなたは平均値と中央値をどのように使い分けていますか?
過去の抄録を参考にしていますか?インパクトファクターが高い論文を参考にしていますか?それともその時の気分で決めていますか?
・・・・・全て間違いです!!
これは過去の発表時に私が実際に作成したヒストグラムです。
年齢は左右対称、術時間は左右非対称ですよね!
平均値はイメージがつきやすいですよね。
学校でのテストの平均点などを想像すれば容易かなと。
中央値は名前の通り、真ん中の値を指します。

中央値を理解する上で、『外れ値』という言葉も覚えておきましょう。
今回でいうと「120分」が『外れ値』に該当します。一つだけ明らかに飛び抜けているヤツですね。
『外れ値』があるデータで、もし中央値ではなく平均値を算出してしまうと『外れ値』に平均が引っ張られてしまいます。
つまり、中央値の特徴は『外れ値』を除外してくれるようなイメージですね。
少しは整理できましたかね?
平均値・中央値に加えて、データ種類が統計解析を行う上で鍵🔑となります。

この項目は2値変数?連続変数?それともカテゴリー変数?などなど。
この講座を終了後には、2値変数やカテゴリー変数で平均値や中央値の議論をするのはいかに無意味か・・・分かりますよね(笑笑

みなさんどうですか?前回よりはすーっと来ましたでしょうか?笑
正規分布でないものに平均値を用いてしまうと、その平均値は母集団を代表する値ではないものになってしまうんですね。

ところで、ヒストグラムはExcelなどでも簡単に作れるでしょう。しかしそれが正規分布であるかどうかの判断はどうしたらいいんでしょうか!
大丈夫です。皆さんが正規分布と感じたら、統計学的にもそれは正規分布として扱っていいんです。違うと感じたら違うんです。正規分布を判断する検定もあるんですが、正確性には乏しいと言われており、ヒストグラムから主観的に判断することでいいとされています。

皆さんが自身の研究を始める際に、調べなければならないことが1つでも減り、研究を始めるハードルが下がればと思います。

2022年7月27日

Posted by ガイドワイヤー部長