2020年放射肿瘤护理线上学术论坛

会议日期

2020年06月11日
现场报到时间

2020年05月11日

欢迎辞

Welcome Message

与其他形式的急性卒中相比，随机对照试验为动脉瘤性蛛网膜下腔出血(SAH)提供了严格的证据。SAH除了发病率较低外，临床表现和预后也不同。设计关键随机对照试验时，必须考虑和调整这一点。

在这里，我们展示了SAH严重程度的独特预期分布(世界神经外科医生联合会分级)对关键卒中随机对照试验最常用结果的影响(改进的Rankin评分)，和样本量的影响。

此外，我们讨论了不同选项的优缺点，以分析结果并控制世界神经外科医生联合会等级的预期分布，此外还显示了它们对样本量的影响。

最后，我们提供了研究人员可以适应的方法，以更准确地了解常用改良Rankin量表分析方法的效果以及与世界神经外科医生联合会级别相关的试验资格，从而设计大规模SAH随机对照试验。

动脉瘤性蛛网膜下腔出血(SAH)患者管理信息的严格证据落后于其他类型的急性中风。这一滞后的原因是多因素的，其中之一是SAH在所有形式的中风中发病率最低。

然而，SAH随机对照试验(RCT)的缺乏也可能自我恶化。它不是采用现有的试验设计和生物统计学方法，而是迫使新的研究人员重新设计这些方法。

在这里，我们为研究人员提供了一份基础生物统计指南，帮助他们在设计大规模蛛网膜下腔出血RCT时应对与中风严重程度在发病时和结果之间的相互关系相关的两个基础困境。

临床表现的严重性普遍预示着中风患者的功能结局。世界神经外科医生联合会(WFNS)的分级是用来对SAH严重程度进行的分级，从1级到5级。

虽然格拉斯哥预后评分被用于SAH，但用于衡量中风患者神经发病率和死亡率的典型结果是序数修正的Rankin评分(mRS)，范围从0(无神经功能障碍)到6(死亡)。针对生物统计学试验，估计WFNS评分、mRS评分的预期分布以及两者之间的相关性至关重要。

WFNS评分的预期分布在很大程度上偏向于1级。出于示范目的，我们检索了几个具有广泛资格标准的大型随机对照试验和来自世界不同地区的队列研究(补充材料中的研究报告应具有较少的选择偏差）并估算出 WFNS 1 至 5 级的比例（单位：%）：41、22、7、15 和 15（图 1A；图 S1），2 级为中位数。

对于每个 WFNS 等级，我们都从 ULTRA（蛛网膜下腔出血后使用氨甲环酸）3 RCT 中获得了完整的 mRS 结果（图 1B）。我们之所以选择 ULTRA，是因为它是最近（2021 年）进行的一项关键性 SAH RCT，共有 955 名患者接受了现行标准疗法的治疗。

总之，SAH 患者的 WFNS 预期分布偏斜以及 WFNS 分级与 mRS 结果之间的相关性可能会带来挑战。任何干预措施对 WFNS 1 级患者的效果都会被削弱，因为其中 75% 的患者已经获得了良好的预后（通常认为 mRS 评分为 0-2；图 1B）。

相反，除非干预措施具有强大的治疗效果，足以改善 WFNS 5 级患者的实质性脑损伤，否则其效果也会被稀释，因为其中 76% 的患者的预后较差（mRS 评分 4-6 分）。

由于在 RCT 中证实对 SAH 患者有治疗效果的干预措施很少7 ，因此必须优化大规模 SAH RCT 的设计，以便根据 WFNS 分级的不同效果检测治疗效果。

决定如何分析MRS是一个经常进退两难的问题。常见的选项是

(1)固定的二分法，关注好的结果(MRS评分0-2比MRS评分3-6)或坏的结果(MRS评分4-6比MRS 0-3)；
(2)滑动二分法的应答者分析，根据目前的SAH严重程度预先指定什么是好的结果(例如，WFNS 1级的MRS评分0-1，2-4级的MRS评分0-2，5级的MRS评分0-4)；
(3)用顺序回归分析所有MRS评分的偏移分析。

我们使用预期WFNS分布(图1B和图1C)所规定的基线(对照)MRS分布，研究了这些选项对两组枢轴性蛛网膜下腔出血试验(80%功率；双尾α，0.05)的样本量的影响。

虽然固定的MRS评分在0到2分和MRS评分在4到6分是被广泛接受的，但还没有先例或基于WFNS评分的可接受的、经过验证的滑动二分法方案。

因此，我们通过限制WFNS等级1到MRS分数≤2和等级5到MRS分数3到4来产生所有合理的排列。WFNS等级5的MRS分数0到2不仅雄心勃勃，而且在数值上也限制了滑动选项，因为滑动二分法的基本原理是在相同或更高的MRS分数下切割(或二分法)MRS分数，以顺序地更高的WFNS分数。

例如，允许在MRS分数为2时将WFNS等级5一分为二将限制WFN等级1至4仅在MRS分数≤2处被二分(即，更快的幻灯片)，而如果WFN等级5在MRS分数为4时被二分，然后，WFN等级1至4可沿着MRS分数≤4广泛地被二分(图2)。

利用这些规则，产生了99个下降的二分排列或方案。因此，包括两种常用的固定二分法，我们总共测试了101种二分法。

作为示例，我们考虑了二分类结果中10%绝对变化的常见效应量(作为参考，图S2回顾了绝对效应量和相对效应量之间的差异)。使用图1C中预期的mRS分布作为对照组，mRS评分为0至2的固定二分法比mRS评分为4至6的固定二分法需要多14.6%的患者(754对658;(见图3A中10%效应时的蓝线和紫线)。

对于10%的绝对效应大小，滑动二分法方案通常比固定二分法更低所需的样本量。99个滑动二分类方案中有49个方案所需的样本量小于mRS评分4 ~ 6的固定二分类，有11个滑动二分类方案所需的样本量大于mRS评分0 ~ 2的固定二分类。

他们的样本量取决于WFNS从1级降至5级的速度(图S3中的蓝点)。最小样本量为340例，表示mRS评分为0时1 ~ 4级、mRS评分≤3时5级获得良好结果的方案，分别为(0wfns1、0wfns2、0wfns3、0wfns4、≤3wfns5);最大样本量为778例，表示mRS评分≤1时1级、mRS评分≤4时2 ~ 5级获得良好结果的方案，分别为(≤1wfns1、≤4wfns2、≤4wfns3、≤4wfns4、≤4wfns5)。

最后，如果一个人打算使用整个mRS的所有信息，而不是将其二分类，那么只有在已知对照mRS分布和干预的预期mRS分布的情况下，才能估计样本量。

样本量可能大于或小于二分类方案，完全取决于两个分布，后者通常是未知的。如果期望在所有mRS评分中都有恒定的治疗效果(这一假设的实际有效性有很大的争议)，那么人们可以使用常对数比值移位(即效应大小;图3 b)。

在这个假设下，一个恒定的对数概率偏移通常比固定的二分类产生更小的样本量(图3C)。

我们关注这些结果结构对样本量的影响，因为样本量是具体的，并且经常驱动资源和成本。无论如何，最终的决定应该是多方面的。

本文讨论了这些方法的优缺点。对于SAH mRS评分的独特预期控制分布，关键是要考虑根据治疗的生物学效应(即进一步改善大部分mRS评分为2的患者的预后，或降低第二大患者的死亡率，或两者兼而有之)来检测治疗效果的最大数值和理论潜力在哪里;图1 c)。

最后，效用加权mRS是一种选择，但在SAH患者中没有得到很好的研究或测量，与缺血性卒中患者相比，SAH患者接受了不同的药物和手术治疗。

资格标准可以影响试验检测治疗效果的敏感性。如上所述，干预措施对WFNS分级谱两端的治疗效果可能较差;因此，包括所有WFNS等级可能会稀释干预措施的效应值。

虽然在关键性SAH随机对照试验中直接排除WFNS 1级和5级患者(约占SAH患者的55%)是一种选择，但鉴于缺乏对SAH患者有效的治疗方法，我们警告不要维持干预的广泛性，也不要以较低的入组率延长研究。

一种折衷的选择是限制WFNS分级谱两端患者的入组。虽然这降低了入组率并可能稀释治疗效果，但它保持了一定程度的普遍性。考虑到约40%的SAH患者为WFNS 1级，他们的入组可能被限制在1%，这被认为对临床实践结果的适用性很大，被认为不会大幅减缓入组速度。

同样，WFNS 5级患者也可以使用不同的方法进行限制。最近的多中心研究表明，5级WFNS患者可以使用突出的WFNS量表进一步进行预后亚分类。

5级WFNS患者中约30%为5级WFNS疝出，其中88%预后较差(mRS评分，4-6)。将5级WFNS患者限制为仅非疝出的5级WFNS患者的主要缺点是无法获得适用性，并且错过了在这一高死亡率亚群中显示干预益处的机会。

我们评估了将1级WFNS从≈40%限制到0并排除突出的5级WFNS对样本大小的影响，并将其与保留所有患者的默认选择进行比较。我们估计两组关键试验的样本量为10%的绝对效应量(80%功率;双尾α， 0.05)。

与直觉相反，在大多数情况下，与保留所有患者相比，限制WFNS 1级和排除突出的WFNS 5级患者各增加了样本量(图3D)。限制WFNS等级1将整个频谱的样本量(最大减少- 56)降低到0%，在总共101个固定或滑动二分方案中只有6个。最大增量为126。

排除突出的5级WFNS患者不会改变先前建立的滑动二分类方案的样本大小依赖于从1级WFNS滑降至5级的速度(图S3)。快速和缓慢的滑动二分法方案在样本量上有较大的变化。

排除5级突出性WFNS患者后，样本量增加最多(70例)发生在预后良好的方案中，1 ~ 4级mRS评分为0,5级mRS评分≤3 (0wfns1、0wfns2、0wfns3、0wfns4和≤3wfns5)，而1级mRS评分≤1,2 ~ 5级mRS评分≤4(≤1wfns1、≤4wfns2、≤4wfns3、≤4wfns4和≤4wfns5)的样本量减少最多;−64)和固定二分法在mRS评分0至3与mRS评分4至6(−68)。

在101个二分类方案中，有30个方案排除了突出的5级WFNS患者，减少了WFNS 1级比例范围内的样本量。排除WFNS 1级和突出性WFNS 5级的综合效应是，包括固定二分类在内的87个方案的样本量增加(最大+172)，14个方案的样本量减少(最大- 92)。

在固定的二分法中，mRS评分0到2分与mRS评分3到6分相比，对这些单一或组合方法中的任何一种都不太敏感(最低732分，最高784分)。

最后，利用整个mRS的所有信息的检验(Wilcoxon-Mann-Whitney U检验或比例几率回归)的样本量相对独立于我们讨论的2种WFNS资格方法，因为样本量完全依赖于控制和预期分布。后者往往是未知的。

即使预测控制分布中具有恒定对数赔率移位的预期分布，对样本量的影响也很小。

总的来说，这些结果似乎有悖直觉。通过限制WFNS 1级和5级患者，人们可以期望更低的样本量和更大的干预效应。然而，我们没有用更高的预期效应量重新估计样本量，这将减少样本量，因为后者的初步估计通常是不可用的。

第二，这些都是纯数学的结果。当对照比例为55%时，用2样本比例检验检验绝对减少10%(即效应量)所需的样本量最大(图S4)。由于WFNS分布的偏斜及其依赖于对照mRS分布，限制WFNS 1级和5级患者导致大多数二分类的对照比例接近55%。

如果被测试的干预措施的效应大小尚未通过限制WFNS 1级和5级患者的初步研究进行估计，但预计会更高，我们建议进行最适合该研究的中期分析，以节省资源。

WFNS分数向最低等级倾斜的预期分布决定了基于初级分析方法的样本量。不同的分析方法(固定或滑动二分法和使用完整的mRS)有优点和缺点，并且可以选择修改试验中预期的WFNS分布。

固定二分类需要更大的样本量(特别是mRS得分0-2与mRS得分3-6)，而大多数滑动二分类产生较低的样本量，没有既定的先例来选择一个方案而不是另一个方案。虽然在使用整个mRS的所有信息时，样本量估计更精确，但这要求控制分布和预期分布都是已知的。

虽然估计后者在所有mRS评分中具有恒定的治疗效果，并且与二分法方案相比，它提供了最大的力量，但这种方法的实际有效性是有争议的。一般来说，限制WFNS 1级的入组，排除WFNS 5级的合理亚群，以增加所测试干预的效应量，也会增加样本量。

我们提供了R代码(补充材料)，研究者可以根据他们预期的WFNS和mRS分布来更精确地解决设计大规模SAH随机对照试验时的两个基本难题。

1. SAH患者预期WFNS的偏态分布以及WFNS分级与mRS结果之间的相关性决定了SAH试验的样本量，并影响了试验检测治疗效果的敏感性。

2. 在mRS的滑动二分法分析中，样本量取决于确切的方案。一般来说，滑动二分法在mRS评分≤2或≥4时所需的样本量低于固定二分法，而mRS评分≤2时的固定二分法比mRS评分≥4时的固定二分法样本量增加。

3. 当使用完整的mRS进行分析而不是将其二分类时，只有在控制和预期(干预)mRS分布已知或精确估计的情况下，才能估计样本量。在所有mRS评分中测试恒定治疗效果所需的样本量通常低于使用二分类分析。

4. 在保持效应大小不变的情况下，当限制WFNS谱两端的入组以进行二分法分析时，样本量通常会增加。当使用具有恒定效应量(即对数odds shift)的完整mRS时，这些合格性修改对样本量的影响很小，甚至没有影响。

设计 CC | 编辑小E | 责编 M

来源中南大学湘雅医院重症医学科

本公众号转载文章仅用于学术信息传播与学习

版权归原作者及原出处所有如有侵权请联系删除

展开

会议结束

收起

会议已结束

扫一扫，查看微官网