P値の簡易解説。【アビガン特定臨床研究を例に】

P値ってなに?

P値&検定の考え方の解説とアビガン臨床試験の確認

つい先日、藤田保健衛生大学からファビピラビル(アビガン)特定臨床研究の最終報告についてという発表がありました。

この発表の結果部分には

主要評価項目である「6日目まで(遅延投与群が内服を開始するまで)の累積ウイルス消失率」は、通常投与群で66.7%、遅延投与群で56.1%、調整後ハザード比は1.42(95%信頼区間=0.76-2.62、P値=0.269)

ファビピラビル(アビガン)特定臨床研究の最終報告について

と書かれています。

その時にP値ってなんだ?66.7%と56.1%で差がついているじゃん!!と思った方いらっしゃいませんか?また、なんとなく理解して使っているけど実は詳細まで知らないという方多いのではないでしょうか?

 
チクチク
実は私もかなり年次を重ねてから意味をある程度理解したクチです…

今回は、P値の解説を上記の「特定臨床研究」を題材に解説していきたいと思います。

 
P値と合わせて多施設非盲検ランダム化臨床試験の意義についても踏み込んでいきます。
 
非医療関係者でも理解できる様にできるだけ簡単に紹介します。概念の理解ができればOKですので。

P値と基本的考え方の帰無仮説

P値と統計の基本的考え方

まずP値のPってそもそもなんなんだ?って話なんですが、

Probability(確率)を表しています。つまり確率の値なんです。なんの確率を表しているかというと帰無仮説が正しい場合にそのデータが得られる確率を示しています。

 
帰無仮説?は?いきなりなんなの!?簡単じゃないじゃない!!
 
まぁまぁ!帰無仮説は無に帰る仮説と書いてある字の通り、否定的に立てる仮説なんだ。臨床試験の場合、『有効ではない』や『既存治療と差がない』という仮説のもと、それを否定することで有効性を検討します。
 
 
つまりP値は帰無仮説が正しい場合に得られる確率なので、薬が有効じゃない場合、同様のデータがどんな確率で得られるかということ?
 
p値が0.5の場合は帰無仮説が正しければ50%の確率で、試験と同じデータが得られるということを示しているよ。(怒りおさまるの早いな…)
 
今回の臨床研究では26.9%の確率で効果がなくても同じ結果が得られるということ?
 
 
その通り、極端な話をすると小麦粉で錠剤作って同じ試験デザインで試験したら4回やれば1回は同じデータになるってことなんだ。
 
それじゃあ効いているとは言い難いよね。どれくらいのP値になれば良いの?
 
そこで大事になるのが有意水準なんだ。
 

有意水準

P値は低ければ低いほど良いです。効果がないという仮定が正しい場合、同様のデータが取れる確率が低くなるということを示しているからです。

例えばP値が0.001の場合。効果がない薬を使って、同様のデータが得られる確率は0.1%です。つまり偶然0.1%を引くか、必然でなければあり得ないと考えることが出来ます。この場合、一般的に考えて0.1%を引くとは考えにくいので、帰無仮説が否定され有効であると考えます。

ただどこまでP値を低くすればいいのかという問題があります。その問題を解決する為に設けた水準を有意水準といいます。

一般的には0.05ないし0.01が使われます。つまり5%と1%ですね。ちなみに薬の検定では0.05がほとんどです。これを下回れば偶然ではないと判断します。

 
効果がないという仮説の元では5%以下の低確率でしか得られないデータが出た場合、それは偶然ではなく必然に違いないので有効と判断するというものなんですね。
 
わかったけどややこしいわね
 
もうちょっとわかり易くいうと、効果がないと考えると出るはずのないデータが出た。偶然こうなる確率は5%以下だ。確率的におかしい!ということは効果がないという前提が間違っていて効果があるに違いないというモノだよ
 
なんでそんな回りくどいことするの?
 
有効ってことを証明する為には無効を否定するのが最も確実なんだよね。無効じゃなければ確実に有効だからね。逆に有効という前提の元で無効を証明する方が手間なんだ。

ファビピラビル(アビガン)特定臨床研究の解説

試験結果の見方

それではP値の概要もわかったところで、簡単にアビガンの臨床試験の結果を見ていきたいと思います。

まずは試験デザインの確認です。

試験デザイン

試験デザインが記載されている部分を引用します。

「藤田医科大学を代表機関とし全国47医療機関で実施している「SARS-CoV2感染無症状・軽症患者におけるウイルス量低減効果の検討を目的としたファビピラビルの多施設非盲検ランダム化臨床試験」(研究責任医師 藤田医科大学医学部感染症科 土井洋平教授)につき、その最終結果の暫定的な解析が終了しましたので、要点をご報告いたします。


 本研究には3月上旬から5月中旬までの間に新型コロナウイルス感染症(COVID-19)患者計89名にご参加いただきました。このうち44名がファビピラビルの通常投与群(1日目から内服)、45名が遅延投与群(6日目から内服)に無作為割り付けされました。遅延投与群の内1名は割り付け直後に不参加を希望されたため、臨床的評価は通常投与群44名、遅延投与群44名で行いました。

また、ウイルス量に関する評価は、研究への参加時に既にウイルスが消失していたことが後日判明した19名を除外し、通常投与群36名、遅延投与群33名で行いました。研究参加中に重症化または死亡した方はありませんでした。

ファビピラビル(アビガン)特定臨床研究の最終報告について

今回の臨床試験は多施設非盲検ランダム化臨床試験です。ここを解説すると

  1. 多施設は複数の医療機関が共同でデータを出していますということを示します。今回の場合が47軒です。
  2. 非盲検は盲検処理を行っていない。つまり薬を飲んでいるか、飲んでいないか患者と医師がわかる試験です。プラセボ効果やノセボ効果(思い込み)等の除外はできません。
  3. ランダム化に関しては薬の投薬の決定をランダムにおこなっていることを示します。患者選択に医師の主観が入らない為、この患者治りやすそうだから、実薬はやく入る群に入れようといったバイアスが入りません。また医師が無意識のうちに経験から一定の法則で患者を振り分けてしまうことも防げます。

この様な試験を1日目から投薬した群44人と6日目から投薬した群44人で比較している試験です。なお89名のうち19例は研究開始時に既にウイルスが消失していたとのこと…

ウイルスのチェックが難しいのか、雑だったのか…2割脱落ってのは正直気にかかりますね。

評価項目と結果

評価項目と結果部分も引用します。

事前に規定された主要評価項目である「6日目まで(遅延投与群が内服を開始するまで)の累積ウイルス消失率」は、通常投与群で66.7%、遅延投与群で56.1%、調整後ハザード比は1.42(95%信頼区間=0.76-2.62、P値=0.269)でした。

事前に規定された副次評価項目である「6日目までのウイルス量対数値50%減少割合」は通常投与群で94.4%、遅延投与群で78.8%、調整後オッズ比は4.75(95%信頼区間=0.88-25.76、P値=0.071)でした。

事前に規定された探索的評価項目である「37.5℃未満への解熱までの平均時間」は通常投与群で2.1日、遅延投与群で3.2日、調整後ハザード比は1.88(95%信頼区間=0.81-4.35、P値=0.141)でした。

ファビピラビル(アビガン)特定臨床研究の最終報告について

評価項目は3点です。主要評価項目、副次評価項目、探索的評価項目の3点です。

主要評価項目

主要評価項目というのは試験で一番検証したい重要なポイントです。これが一番重要でこのために実施しているといっても過言ではありません。ちなみに事前に決定します。あとだしは許されません。今回は「6日目まで(遅延投与群が内服を開始するまで)の累積ウイルス消失率」です。

結果は通常投与群で66.7%消失。遅延投与群で56.1%消失していますが。P値=0.269となっています。前述の通り、この薬が無効でも26.9%の確率で同様の結果が出ます。そのため、統計的に意味のある結果とは言えません。むしろ帰無仮説に立脚しているので、帰無仮説が否定できない=『6日目までの累積ウイルス消失率に差はない』と評価する方が認識としては正しいです。結果としてはメチャクチャ悪いです。

副次評価項目

副次評価項目は主要評価項目を支持する補足的な項目や主要評価項目とは異なる視点から有効性を評価する項目として設定されます。ただ補足とある様にあくまで主要評価項目ありきの項目です。
今回の副次評価項目は「6日目までのウイルス量対数値50%減少割合」です。

結果は通常投与群で94.4%、遅延投与群で78.8%、P値=0.071でした。
正直、今回の試験ではこちらは惜しかったように思います。もっと症例数があれば確率が収束して0.05以下になっていたかもしれません。

しかし症例数含む試験デザインは事前に十分に検討して決められるものですし、前述のとおり主要評価項目あっての副次評価項目です。これを惜しいと判断するべきではなく。試験やり直せば勝率があるかもしれない位の判断にとどめるべきです。

これは個人的意見ですが仮に有意水準を下回っていたとしても6日目までのウイルス量対数値50%減少割合が94.4%と78.8%って切れ味悪いなと思います。

 
タラレバ娘
タラレバはいけません

探索的評価項目

探索的評価項目はさらにこれらの評価項目では評価できない治験薬との関連性を検討する項目です。今回は「37.5℃未満への解熱までの平均時間」が設定され通常投与群で2.1日、遅延投与群で3.2日、P値=0.141でした。こちらも有意水準は超えていません。

有害事象関連

有害事象に関しては書いてある通りですね。

 ファビピラビル投与に関連する有害事象としては、血中尿酸値の上昇が84.1%、血中トリグリセリド値の上昇が11.0%、肝ALTの上昇が8.5%、肝ASTの上昇(いずれも検査値異常)が4.9%に見られました。これらの異常値は、内服終了後(16日目または28日目)に再度採血された患者(38例)のほぼ全員で平常値まで回復していることが確認されました。また、痛風を発症した患者はいませんでした。

ファビピラビル(アビガン)特定臨床研究の最終報告について

尿酸値とトリグリセリド、肝酵素があがりましたが、中止で戻りましたというものです。84%という尿酸値上昇ですので、有害事象は必発と言える感じですね。

以上の結果より

通常投与群では遅延投与群に比べ6日までにウイルスの消失や解熱に至りやすい傾向が見られたものの、統計的有意差には達しませんでした。有害事象については、検査値異常としての尿酸値上昇がファビピラビル投与中の患者の大半に見られましたが、投与終了後には平常値まで回復し、その他重篤な有害事象等は見られませんでした。

ファビピラビル(アビガン)特定臨床研究の最終報告について


と結論付けられる訳です。
効果がある傾向はみられましたが偶然の可能性は排除できておらず、今回の試験では無効と考えられます。有害事象は大半におきますが、投与終了で回復しますという結果です。

 
無効だけど有害事象は大半で起きるって考えると薬ではなくて毒なんじゃ…
 
臨床試験が重要だという良い教訓になるかもしれないね


2020/07/13現在、高度な承認システムを有する国でファビピラビルに関してランダム化比較試験を実施した試験は存在しません。これまでの評価としては『新型コロナウイルスに効果が期待できる候補化合物』でしかありませんでした。しかし今回の試験結果を受けて無効、有害事象の分、毒という評価となりました。残念ながら後退です。少なくとも現状では薬ではないのです。エビデンスの伴わない化合物は薬にはなれません。むしろ効果がわからない以上、毒になる可能性のほうが高いです。

 
よく言われますが、クスリ、反対から読むとリスクです。反対から読まないためにはしっかりとしたランダム化比較試験の結果が必要です。今回の結果は残念でしたが、今後の試験次第ではアビガンが有効とされる使い方が明らかになるかもしれません。
 
新たな結果を待ちましょう。

まとめ

まとめ

P値と臨床試験における検定の基本的考え方を紹介し、試験結果の考察を行わせて頂きました。正直、頭こんがらがりそうな考え方してますよね。ぶっちゃけ私はかなり混乱しながら、なんとなく概要を掴むことができる様になったと記憶しています

帰無仮説に立脚していることがわかっていると、臨床試験結果の見え方も変わってくるんじゃないかなーと思ってこの記事を書かせて頂きました。意外とMRではわかっている人少ないんじゃないでしょうか。医師、薬剤師とか検定したことある学部の人では当たり前の内容ですけれどね。

この記事が皆様のお役に立ちましたら至極幸いです。