Series C-3 / Clinical Statistics

EZRでできる解析とパワー解析

GUIで始めて、研究計画まで戻る

EZR（Easy R）は、RとR Commanderをもとにした無料の医学統計ソフトである。Kandaのオープンアクセス論文では、臨床研究でよく使う統計解析をGUIから扱いやすくしたソフトとして紹介されている。Rのコードを書く前の入口として使いやすく、解析操作に対応するRコマンドも残るため、初学者がGUIから再現可能な解析へ進む橋渡しになる。

この回の位置づけ

前半では、EZRでどのような解析ができるかを整理する。後半では、パワー解析を「必要nを出す作業」ではなく、「研究で検出したい差を明確にする作業」として解説する。パワー解析は研究の最後ではなく、研究計画の段階で使う。

1. EZRとは何か

EZRは、Rの上で動く医学統計向けのGUIである。商用ソフトのようにメニューを選びながら解析できるが、内部ではRが動いている。Kandaの論文では、EZRがR Commanderを拡張し、臨床研究で頻用される生存時間解析、競合リスク解析、ROC解析、メタ解析、サンプルサイズ計算などを point-and-click で使えるようにしたことが説明されている。

初学者にとっての利点は、Rの文法をすべて覚える前に、解析の流れを体験できることである。CSVを読み込む、変数を確認する、群を指定する、検定を選ぶ、出力を見る、という流れが見える。さらにEZRは実行したRコマンドを表示するため、GUIで行った解析を後からコードとして学び直せる。

2. EZRでできる解析

EZRでは、基本統計量、ヒストグラム、ドットチャート、クロス集計、t検定、対応のあるt検定、F検定、Bartlett検定、一元配置ANOVA、多元配置ANOVA、反復測定ANOVA、Pearson相関、線形回帰などを扱える。さらに、Mann-Whitney U検定、Wilcoxon符号付順位検定、Kruskal-Wallis検定、Friedman検定、Spearman相関などのノンパラメトリック検定もメニューから使える。

医学研究でよく出てくる解析として、Fisherの正確検定、カイ二乗検定、McNemar検定、ロジスティック回帰、Kaplan-Meier曲線、log-rank検定、Cox比例ハザード回帰、ROC解析、サンプルサイズ計算も扱える。会員向けの教材では、最初からすべてを扱う必要はない。まずは、データ読み込み、基本統計量、図、2群比較、3群以上の比較、結果の保存までを一つの実習にするとよい。

3. EZR実習の作り方

実習では、CSVを1つ用意し、同じデータをEZRとRコードの両方で解析する。たとえば、材料表面処理ごとの細胞接着数を題材にする。EZRでは、CSVを読み込み、groupを因子として認識させ、valueの分布を確認し、箱ひげ図を作り、Shapiro-Wilk、Bartlett、ANOVA、Tukey法へ進む。最後に、結果を1段落で文章化する。

Step 1

データを読む

CSV、変数名、欠測、群名を確認する。Excelで加工しすぎない。

Step 2

図と記述統計

平均、標準偏差、中央値、四分位範囲、箱ひげ図を確認する。

Step 3

検定と報告

検定名、統計量、p値、多重比較、信頼区間を書けるようにする。

EZRは入口として有用だが、ボタンでp値を出すだけでは不十分である。SAMPLガイドラインが重視するように、統計手法は読者が再現できるように報告する必要がある。どの検定を、どのアウトカムに、どの群比較で使ったかを書く。

4. パワー解析の基本

パワーは、本当に差があるときに、その差を検出できる確率であり、1 - β と書く。αは第1種過誤、つまり本当は差がないのに差があると言ってしまう確率である。βは第2種過誤、つまり本当は差があるのに見逃す確率である。一般にα = 0.05、パワー = 0.80を使うことが多いが、これは研究目的やリスクに応じて考えるべき設定である。

基本の関係

\mathrm{Power} = 1 - \beta \] \[ d = \frac{\mu_1 - \mu_2}{\sigma}

サンプルサイズは、期待する効果量、ばらつき、α、パワー、検定方法によって決まる。小さな差を検出したいなら、大きなnが必要になる。ばらつきが大きい測定系でも、必要nは増える。つまり、パワー解析は統計ソフトに数字を入れるだけではなく、「どの差なら臨床的・生物学的に意味があるのか」を研究者が決める作業である。

5. Rで見るパワー解析

2群の平均差を検出したい場合、Rでは power.t.test を使って概算できる。たとえば、平均差10、標準偏差12、両側α = 0.05、パワー0.80を仮定すると、各群にどれくらいのnが必要かを計算できる。

2群比較のサンプルサイズの近似

n_{\mathrm{per\ group}} \approx 2 \left( \frac{z_{1-\alpha/2} + z_{1-\beta}}{\Delta / \sigma} \right)^2

ここで \(\Delta\) は検出したい平均差、\(\sigma\) は標準偏差、\(\alpha\) は第1種過誤、\(\beta\) は第2種過誤である。

# 2群の平均差を検出するための概算
power.t.test(delta = 10, sd = 12, power = 0.80,
             sig.level = 0.05, type = "two.sample")

# すでにnが決まっている場合、検出できる差を逆算する
power.t.test(n = 12, sd = 12, power = 0.80,
             sig.level = 0.05, type = "two.sample")

2つ目のような逆算は、感度分析として有用である。たとえば実験上、各群n = 12しか取れないなら、そのnでどれくらいの差なら検出できるのかを示せる。検出できない小さな差については、結論を控えめに書く必要がある。

6. 80%パワーを絶対視しない

医学研究では80%パワーが慣習的に使われる。しかし、BacchettiのBMC Medicine論文は、80%未満を一律に不十分とみなす考え方の問題点を指摘している。標準的な計算は、効果量やばらつきの見積もりに強く依存し、その見積もり自体が不確かである。研究の価値は、パワーの数値だけで決まるわけではない。

だからといって、パワー解析が不要という意味ではない。重要なのは、仮定を明記することである。どのアウトカムを主要アウトカムにしたか、どの差を臨床的に意味のある差としたか、標準偏差をどの先行研究または予備実験から見積もったか、αとパワーをどう設定したかを書く。CONSORTの説明文書でも、ランダム化比較試験ではサンプルサイズ決定の根拠を報告することが求められている。

7. 研究計画書にどう書くか

研究計画書では、次のように書くと読みやすい。主要アウトカムをALP活性とし、Control群と材料B群の平均差10を検出したい。予備実験から標準偏差を12と見積もった。両側有意水準0.05、パワー0.80、対応のない2群比較を仮定したところ、各群n = Xが必要である。脱落や測定失敗を考慮し、各群n = Yを目標とする。

探索的研究では、最初から十分なnを確保できないこともある。その場合は、検出力の高い結論を主張するのではなく、効果量と信頼区間を示し、次の確認研究に必要なサンプルサイズを見積もる。小さな予備研究は、結論を確定するためではなく、ばらつき、実施可能性、測定系の安定性を知るために使う。

8. EZRとパワー解析をつなぐ

EZRは、解析後にp値を見るためだけの道具ではない。基本統計量から標準偏差を把握し、箱ひげ図でばらつきを確認し、予備実験のデータから次の研究のサンプルサイズを考える、という使い方ができる。会員向け教材では、予備実験CSVをEZRで読み、標準偏差を見積もり、RコードまたはEZRのサンプルサイズ計算へ進む構成にすると、統計が研究計画へ戻ってくる。

最終的な目標は、研究者が「このnで何が言えて、何が言えないか」を説明できるようになることである。p値が有意でないときに「差がない」と断言するのではなく、その研究がどの程度の差を検出できる設計だったのかを考える。これが、臨床研究で統計を使ううえで非常に大切な態度である。

会員向け記事