这几天有报道说阿兹夫定的三期临床试验公布,显著缩短核酸转阴时间。这个药之前写过很多,有效性极为可疑,安全性上的遗传、生殖毒性问题更无法解决(详见二条)。
但很多人还在问,所以就去看了所谓显示有效的巴西三期临床试验,其实根本谈不上显示有效性,部分内容也与之前相关药企IPO文件里提到的其它临床试验结果冲突。此药能上架就已荒唐,如果你有(不)幸拿到阿兹夫定,扔了算了。
1.没有达到主要终点的“成功”
阿兹夫定巴西的三期临床试验公布,国内媒体大言不惭地说安全有效:
好像试验非常成功,而且有意思的是说成了巴西的一项三期临床试验,同时涉及轻症与中症感染者。实际上这明明就是两项研究,预印版论文也是两篇。
轻症的[1]:
中症的[2]:
别看两个标题就Mild(轻症)和Moderate(中症)这一字之差,差点也让我看花了眼,但两个试验在Clinicaltrial.gov上分别编号,是不同的试验。连通稿买的都不严谨,不得不佩服,当然去看了这两篇论文,按其中的学术严谨程度以及写作水平,通稿发不对也不让人意外。
媒体报道更让人震撼的是,报道内容里直接显示了试验主要终点未达到,居然还能说是证明有效。例如轻症的试验,媒体报道里的主要终点都写明了:
是出院时病情量表各级比例,这个有区别吗?报道里直接一张图都显示没有区别:
主要终点都没达到,也能说是成功?
中症那个也一样。媒体报道里也说明了主要终点是什么:
WHO病情改善一个级别的患者比例,这个终点达到了吗?这里阿兹夫定耍了个心机,预印版论文里承认了出院时除了1位退出和7位恶化,其他人都是WHO评分里最低的0或1分。也就是说都改善了,主要终点同样没有区别。可为什么说阿兹夫定耍了个心机呢?因为它说阿兹夫定组出院时最终评分是0.02±0.15(对,最低评分是0,但它能做出0.02方差0.15),比安慰剂组的0.11±0.31低。
这个最终评分差异到底在哪里?看了下原论文:
安慰剂组1分的比阿兹夫定多。那1分和0分是什么区别?两个都是无症状,只是1分的核酸还没转阴。就这么点区别。可我们知道康复者很长时间可能因病毒尸体检测出核酸阳性。这种差异根本就没有意义。后面也会重点说阿兹夫定强调的核酸转阴差距为什么不靠谱。
此外,这个试验只招募了人,最后完成试验的是人,7个恶化进入ICU(6个死亡),1位退出,这8人都没放入上述分析,其中除了退出的和一位心脏骤停死亡的都完成了治疗。把这些人放入分析,还能有区别吗?要知道WHO评分里死亡可是10分。
难不成现在我们判断阿兹夫定的有效性标准是,吃了后好了的都好了,所以就有效,没好的直接忽略?要是用这标准,要找出个没用的药也不容易啊。
两个试验主要终点都没达到,居然能说显示有效,只能让人觉得要去查查字典,看看“有效”二字的定义是不是改过了。
2.核酸转阴靠谱吗?
主要终点都错过,但不妨碍阿兹夫定爱好者们拉出“加速核酸转阴”的卖点来宣传。其实这从两篇预印版论文的标题都能看出来,都是通过载毒量来评估有效性。
两篇论文都宣称阿兹夫定显著缩短了感染患者核酸转阴时间,在轻症的试验里,阿兹夫定组第一次转阴是5.55天,安慰剂组是8.27天;中症的试验,阿兹夫定组第一次转阴6.24天,安慰剂组是7.94天。但这些天数是平均值还是中位值?新闻稿里没说,也正常,因为只有轻症的论文里说了是平均,而中症虽是独立的文章,却一字不提。所以我说两篇论文的严谨程度令人震撼。不过别急,还有更震撼的,现在继续说核酸转阴。
核酸转阴是用RT-PCR来判断,就是划一个CT值的标准,CT值越高,载毒量越低。核酸阴性即RT-PCR的CT值低于设定的阴性标准了。然后看中症试验论文里的CT值比较:
两个组有区别吗?方差范围互相重合,居然能说阿兹夫定转阴时间更快?论文说阿兹夫定是6.24天转阴,安慰剂组7.94天,去看5、7、9这三个采样点,两组CT值有区别吗?还能一个转阴一个没转阴?
另外这里核酸转阴的标准是什么?从文章的方法来看,CT值大于30.5是阳性。第7天的时候,阿兹夫定组方差范围的上线连CT值30的毛都没碰到,能算出来核酸转阴时间是6.24天?就算最快转阴时间都不符合这张图啊。
轻症试验用的核酸检测试剂盒与中症的文章一模一样,但核酸阴性的标准成了CT大于37。不要问我为什么,因为我也不知道,只能说是量子核酸。这是轻症的CT值变化图:
虽然说红色的阿兹夫定组和蓝色的安慰剂组在CT值上有区分,阿兹夫定在3、5、7三个采样点都是CT值更高,可是连30都没超过,离37的转阴标准更是十万八千里,怎么就得出阿兹夫定轻症组5.55天转阴呢?
对了,轻症这副图的图标是Ciralload,都不是病毒载量,是Ciral载量,不过这仍不是我说的令人震撼的地方,继续往下看,最后再揭晓。
这些核酸转阴或载毒量比较,还有一个不靠谱的地方在于不同的采样时间点,收集的样本数不一样。比如轻症试验里:
红框里的是每个采样时间点的采样人数,这个轻症试验招募了人,但31人在完成治疗前退出了(同样,我们不知道为什么这31人退出了,另外阿兹夫定的治疗是不超过14天,未完成治疗是什么概念?是不是也吃了一段时间,有没有采样?这些还是不知道)。完成治疗的人采样,可随着时间进行,采样的受试者越来越少。这种情况下,比较出来的载毒量差异是否还有意义?
为什么有的人没采到样?两组里分布是否平均?两个试验还专门用ddPCR来检测载毒量,可一样受到采样人数变化的影响。
反正,阿兹夫定爱好者们眼里的证明阿兹夫定有效安全的巴西三期临床试验,主要终点没有达到。所谓的核酸转阴显著缩短,按两篇论文里给出的具体数据,连这转阴时间都不靠谱。
3.与过往试验矛盾
这也不是阿兹夫定第一次炒作。说这次试验证明有效的人,为何不去看看阿兹夫定过往试验的结果,比较一下?比如阿兹夫定还有在中国的临床试验,曾在药企IPO文书中提到过[3]。
为什么要再看一下这个中国的试验?因为这个从年6月做到了年3月的轻症与普通型新冠试验,主要终点恰好是受试者服药后第7与14天时的载毒量。巴西的试验不是说显著降低载毒量吗?那我们就看看这种说法在以载毒量为主要标准的试验,是什么结果。
中国实际招募人。完整数据没有公布过,IPO文件描述有效性时,加了一个前提——基线载毒量高于3^10,在这些高载毒量受试者中,第3、5、7天用药组载毒量下降比安慰剂组更多:
那么问题来了,这载毒量高的受试者是多少人呢?这一标准是事先确定的,还是事后加入?如果是事后加入,是否存在偏倚(bias)呢?而且即使是在这不知道多少人的高载毒量组里,载毒量变化达到显著差异的只有第5天。
根据这些描述可以推断试验的主要终点——受试者第7与14天的载毒量,用药组与安慰剂组没有显著差异,也就是说该试验还是没有达到主要终点。
另外,IPO文件里也说了所有次级终点均未显示显著差异。那么次级终点里有什么呢?除了吸氧比例、肺炎变化等症状,还有核酸检测转阴时间与速率。
也就是说,巴西两个试验里观察到的核酸转阴更快,在中国的试验里没有观察到。而且在以载毒量为主要终点的中国试验里,这个主要终点没有达到。
以症状相关指标为主要终点的两个巴西临床试验,没达到主要终点,拿出不知怎么计算出来的核酸转阴时间以及不知采样人数为何不断变动的载毒量数据说有差异。可真的以载毒量为主要终点的中国临床试验里,载毒量没有达到终点,核酸转阴也没有差异。
这种情况下,你觉得阿兹夫定值得相信吗?如果还是相信,那只能说是真爱,韭菜爱镰刀那种真爱。
4.试验人数问题
巴西的两个试验,轻症的是招募人,中症原计划招募人,后来改成人。阿兹夫定药企IPO文件里还提到中国和俄罗斯两个试验。中国计划招募人,俄罗斯计划招募人。
这些试验的主要终点不一,中国的是载毒量下降,俄罗斯与巴西是症状缓解。可是无论什么终点,如此少的计划招募人数非常诡异。
有人可能会说,管它招募多少人,最后有效性指标——临床试验终点能做出统计意义上的区别不就行了?可在非常少的招募人数下做出显著差异,意味着药效要非常好,这样用药组与安慰剂组才能拉开足够的差距。但前瞻性的三期临床试验,试验完成前——包括设计试验的时候,没人知道药效有多高。试验人数的确定,一般是在希望能有多大概率(统计检验功效)确认至少多高的有效性,这一基础上去推算。
比如新冠疫苗的试验,假设希望试验能有90%的把握确认一个50%有效性的疫苗,可以回推需要多少病例,再根据一些感染率假设,推算应招募多少人以及试验需要做多久。
新冠药物在试验设计阶段,觉得只要招募三百多人就能确定有效性几乎是匪夷所思。参考辉瑞与默克口服药。在轻到中症的高危人群三期临床,辉瑞计划招募约人,希望有人有数据做主要分析,默克计划招募人[3-4]。这些都是基于希望有足够的统计检验功效去检测50%降低重症风险,演算出来的需要的样本量大小。最后两家实际分析的数据量分别有多人与多人。
即使说这两个药检测的降低重症风险与阿兹夫定的临床试验终点不同,那参考辉瑞口服药在低危人群的EPIC-SR试验,这里主要终点是症状持续改善,也招募了人[5]。国内新冠单抗药Brii-/,参与NIH的ACTIV-2试验,确认有效性是用药组人,安慰剂组人[6]。
为什么阿兹夫定的研发方认为多人的试验就能验证药物有效性?同行都是计划招募一两千人明确有效性时,有人却不断设计多人的临床试验,甚至改到人后能继续做出所谓的有效性,这值得警惕。
5.远离渣药
前文屡次提到阿兹夫定巴西临床试验的两篇论文不严谨程度令我震撼,现在就揭晓最让我震撼的一点——是的,就算有怎么都让我想不明白的转阴时间,还有更震撼的:
这张截图是巴西中症那个临床试验里的补充材料里截出来的。为什么让我震撼,看一下图里上半部分那个表,里面的人数,阿兹夫定组人,安慰剂组人。我们说了中症这个试验总共才人入组,怎么会有这么多人?这个人数其实是轻症那个试验里的分组人数,第二个表格里阿兹夫定91人,安慰剂88人才是中症的分组人数。
牛吧,两篇论文居然数据能混到一起去。搞得我读着读着总觉得自己眼睛是不是花了。这到底是简单笔误,还是整个数据都弄错了呢?咱也不好说,反正第一张表里显示的阿兹夫定组平均发烧天数更短也是作为有效性之一在论文里提出来的。但都是这样的严谨程度,还值得相信吗?
不过阿兹夫定牛就牛在,别人都要几千人才能做出有效性,它坚持几百人解决问题;别人试验受试者招不满,一般都是失败告终,它能减员做出“有效性”;别人错过了主要终点,都是灰头土脸,它能理直气壮说安全有效。难怪引得国内多位权威专家竞折腰,不信看新闻稿:
就好像有人明确地非常渣,却偏偏有很多人还要围着他转。这里面可能有各种原因,比如人家有钱,有权,有特长。可问题是,不论别人为何折腰,你有必要也去被人家渣吗,也去做韭菜被人割吗?
新冠是一个自限性疾病,绝大多数人不需要任何药物就能自愈。即便是高危人群,能起帮助的也是真实有效的药物,而不是没药非硬拉一个出来吃。
记住:远离渣药保平安。
参考资料: