参比购-【药物制剂】临床试验统计学设计让人头大？不慌，CDE老师有妙招

　　为规范申请人与国家药品监督管理局（原国家食品药品监督管理总局）药品审评中心（center for drug evaluation，CDE）之间的沟通交流，根据《国务院关于改革药品医疗器械审评审批制度的意见》（国发［2015］44号），CDE于2015年12月制定了《药品技术审评沟通交流管理办法（试行）》。

　　2018年3月，为贯彻落实中共中央办公厅、国务院办公厅《关于深化审评审批制度改革鼓励药品医疗器械创新的意见》（厅字〔2017〕42号）的要求，进一步完善注册申请人与审评机构沟通交流机制，CDE对《药物研发与技术审评沟通交流管理办法》进行修订，形成《药物研发与技术审评沟通交流管理办法（修订稿）》。

　　沟通交流管理办法所指的沟通交流，系指在药物研发过程中，经申请人提出，由药审中心项目管理人员与申请人指定的药品注册专员共同商议，并经药审中心适应证团队同意，就现行药物研发与评价指南不能涵盖的关键技术等问题所进行的沟通交流。

　　申请人在开展关键注册临床试验之前，通常会和CDE针对临床试验方案开展沟通交流，咨询CDE关于试验设计等方面的考虑或者建议。

　　我们在对临床试验方案沟通交流进行总结时发现，常见的统计学设计咨询问题主要包括：疗效一致性与区域样本量、期中分析策略、多重性问题以及临床等效界值与样本量等。

　　本文将通过实际的案例对常见的统计学设计咨询问题进行总结和分析解答，希望为同类咨询问题的解决提供参考，指导药物临床试验的开展，加快药物研发的进程；同时还希望可以减少同类问题的咨询申请，节约审评的资源。

　　疗效一致性与区域样本量

　　申请人在开展多区域临床试验（multi-regional clinical trials，MＲCT）或者桥接研究之前，通常会针对中国人群与整体人群的疗效一致性和中国人群样本量与CDE进行沟通交流。

　　在ICHE17（多区域临床试验计划与设计的一般原则）指导原则中，MＲCT应计划包括对各区域处理效应一致性的评价，且其统计分析策略应包括各区域和各亚群处理效应一致性的评价。对于区域样本量的分配，ICHE17提出了5种方法：按比例分配、平均分配、效应保留、区域显著性和固定最小数量，并建议在按比例和平均分配间保持平衡。

　　我们在与申请人针对一致性和区域样本量进行讨论时，主要依据ICHE17指导原则进行考虑。

　　具体来说，对于疗效一致性，建议申请人在开展试验前，应在方案中事先规定一致性的评价方法，目前常见的一致性评价方法包括：①保留整体研究效应量的50%及以上；②确保一定概率的区域效应量出现阳性结果；③对于桥接研究，区域效应与全球研究效应量（点估计值或者置信区间大小）应存在正向对应关系；④可考虑通过调整α大小评价一致性等。

　　对于区域样本量，应基于疗效一致性的评价计算区域样本量大小，并且同时兼顾考虑各区域的情况，包括各区域名称、数量以及疾病分布等。本文将展示2个关于疗效一致性和区域样本量的沟通交流的案例供读者进行参考。

　　案例1

　　一项研究计划入组350例可切除Ⅱ和ⅢA期非小细胞肺癌患者，参与国家包括中国、美国、欧洲的多个国家以及亚洲的其他多个国家。350例患者中约50%为中国患者。主要理由：①中国非小细胞肺癌的发病率约占全球新发病例的35%，因此50%（175例中国患者）被认为有较好的代表性。②在显示疗效一致性方面，根据日本厚生省（MHLW）规定的方法2，即保留整体人群50%的治疗效果，175例中国患者在期中分析将有90%的机会观察到中国研究与整体研究一致的疗效结果，在最终分析时，有93%的机会观察到一致性的结果。

　　案例2

　　基于前期数据，另一项研究计划入组15%的中国患者，并计算了主要疗效结果分析，在试验总体结果呈阳性时，基于15%的中国亚组人群，能够观测到中国亚组人群内的阳性概率。可以得出该研究在中国入组15%的受试者得到亚组阳性的概率相对稳健（见表1）。

微信图片_20210508101526.jpg

　　期中分析策略

　　临床试验中传统的设计是固定样本量的设计，指在试验进行中没有对试验进行任何的分析或修改。然而很多确证性试验是基于前期有限的数据进行设计，试验进行中难免会与事先的估计存在较大的偏差，从而增加了试验失败的可能性，因此越来越多的注册研究采用适应性设计，即根据预先设定的计划在试验过程中进行1次或多次期中分析，根据期中分析结果对试验做出相应调整。

　　我们在与申请人针对期中分析计划进行沟通交流时发现，常见的问题包括期中分析时间节点的设置、一类错误率的调整方法选择、样本量的调整等。

　　期中分析时间节点的设置可以基于日历时间，也可以基于累积数据的占比，如发生目标事件数的比例。由于期中分析时的数据不够成熟、提供的信息量相对有限，即使期中分析时根据消耗函数调整一类错误率，最终分析时得到的结论也有可能与期中分析时相反。

　　时间节点的选择会根据期中分析目的不同而有不一样的考虑。如果期中分析以优效性提前终止为目的，时间节点的选择应该考虑期中分析时的数据是否足够充分以提供可靠的疗效估计以及满足安全性的评价需要，如在以无进展生存期 progression free survival，PFS）或总生存期（overall survival，OS）为主要终点指标的抗肿瘤药物临床试验中，期中分析的时间节点一般选择在发生目标事件总数的2/3或者更多的时候。而如果期中分析以安全性或无效性为目的，时间节点应考虑受试者的安全，时间节点通常相对靠前。

　　如果期中分析以优效性或者无效性提前终止试验为目的，则应对一类错误率进行调整以将试验的总体错误率控制在双侧0.05或者单侧0.025。常见的调整一类错误率的方法包括O'Brien＆Fleming方法、Pocock方法和Lan＆DeMets方法等。一般情况下建议采用较为保守的方法以增加期中分析时结论的可靠性，如采用近似O'Brien＆Fleming边界的Lan＆DeMets法。

　　期中分析还有其他许多考虑的因素，本文在此不再赘述。下文以抗肿瘤药物临床试验为例阐述期中分析的策略。

　　案例1

　　一项研究计划约在观测到388例PFS事件时或者最后1例受试者入组（以后发生者为准）实施PFS的最终分析，预计在首例受试者入组后约30个月时进行。约在观测到285例死亡事件（75%信息量）时或者最后1例受试者入组（以后发生者为准），实施OS的期中分析。

　　上述分析预计在首例受试者入组后约30个月时进行。预计在首例受试者入组后约42个月时观测到OS最终分析所需的380例死亡事件。

　　如果PFS的结果统计显著，则其消耗的一类错误将回收用于OS的检验。期中和最终OS分析将采用近似O'Brien-Fleming边界的Lan-DeMets法控制双侧一类错误。将采用log-rank法对OS进行假设检验，其分析边界见表2。

微信图片_20210508101529.png

　　多重性问题

　　临床试验根据研究目的不同，通常分为探索性试验和确证性试验，研究结论常常需要根据确证性试验的统计推断结果得到，以注册为目的的试验也几乎均为确证性试验。

　　确证性试验的一个非常重要的原则是要将总体一类错误率控制在可接受的水平（通常为双侧0.05或者单侧0.025）。

　　目前大部分临床试验都会涉及需要对多个检验假设做出统计学推断，如多个组间的比较、多个主要终点的分析等，如果不加以正确处理，通常会因多重性问题造成增大假阳性错误的概率，从而无法真正说明药物的有效性。

　　我们在与申请人进行方案的沟通交流时，涉及多重性的情形主要有：多个主要终点的检验、多组间的比较、整体人群与亚组人群的α分配、多个时间点的期中分析、关键次要终点的检验等，核心的问题在于如何控制多重性，即如何将总体一类错误率控制在可接受的水平。一类错误率的控制，不仅仅是申请人非常关注的问题，同时也是统计学审评的关键。

　　以整体人群和亚组人群为例，在进行α分配时，需要事先对不同人群的疗效有充分的认识，还需了解实际临床实践中亚组人群在整体人群中的占比，同时要明晰试验的主要目标人群，从而做到尽量科学合理地对α进行分配。

　　然而，一个试验中通常不仅仅涉及一类多重性的情形，往往是多个情形混合在一起，如需要同时考虑多个终点、多组的比较、多个人群和多个时间点的期中分析，此时除了需要了解同类产品的研究信息、本品前期充分的数据支持、多个终点之间的关系等，还需要进行大量的统计学模拟，对各种情形的组合进行预估，控制总体的一类错误率，确保试验的成功。

　　我国目前尚未发布有关临床试验中多重性的指导原则，在实际操作实施过程中，可参考EMA和FDA的相关指导原则。本文将展示2个关于多重性问题的沟通交流的案例，供读者参考。

　　案例1

　　一项研究采用Bonferroni法和Fallback法控制一类错误率为单侧0.025，首先用Bonferroni方法将单侧显著性水平0.005分至PFS的检验，0.02分至OS。如果PFS的统计结果显著，则将0.005传递给OS，OS将基于0.025整体显著水平进行检验（见图1）。

微信图片_20210508101532.png

　　案例2

　　另一项研究中，首先假设检验1和2都在第一类错误概率不超过α/2进行检验，然后假设检验1和假设2中任意一个显著，则相应的第一类错误概率被回收并用于另外一个检验。如假设检验1被拒绝，则相应的第一类错误概率被回收到用于假设检验2的检验中，即假设检验2基于第一类错误概率不超过α进行检验。假设检验3仅在假设检验1和2均被拒绝的情况下进行检验（见图2）。

微信图片_20210508101534.png

　　临床等效界值与样本量

　　目前对于生物类似药临床疗效比较研究中采用率差（risk difference，ＲD）或者率比（risk ratio，ＲＲ）仍存在争议。一般情况下，ＲＲ与ＲD在大部分情况下是相当的，需要综合考虑原研产品的疗效数据特点以及指标的临床意义等合理选择比值或差值作为主要终点指标的效应量。

　　临床等效性界值一般基于原研产品疗效的置信区间进行估算，并结合临床意义进行确定。原研产品的疗效通常依据于原研产品与标准治疗（或安慰剂）随机对照优效性研究的Meta分析结果。

　　纳入Meta分析文献的选择、分析结果的利用等需要综合考虑目标适应证国内外临床实践、种族差异、样本量可行性等因素。

　　在确定了等效界值之后，结合原研产品的疗效、检验水准、把握度、脱落率等，即可以估算得到生物类似药临床疗效比对研究的样本量大小。值得一提的是，目前在国内对于生物类似药临床疗效比对研究，检验水准一般取值为双单侧0.05。

　　关于等效界值的计算，EMA和FDA建议了一种称为95～95的方法。具体的步骤为，首先通过Meta分析确定原研产品相对标准治疗（或安慰剂）疗效的95%置信区间下限的值为M1，然后根据以M1的50%～75%确定M2值，即为界值。

　　在实际操作过程中，按照95～95的方法在确定等效界值之后计算得到的样本量往往非常大，给试验的正常开展带来诸多的困难与不便。此时，在与申请人进行方案沟通交流时，我们通常会根据原研产品与生物类似药本身的特点，对M1的取值进行必要的调整，并结合临床意义对等效界值进行最终确定。本文以贝伐珠单抗生物类似药为例对临床等效界值的确定进行详细的介绍。

　　案例1

　　目前可获得公开发表的贝伐珠单抗联合化疗与化疗单用作为非小细胞肺癌一线治疗比较的Ⅱ/Ⅲ期随机对照研究，包括5项国外研究和1项中国注册临床试验。界值可基于符合筛选指标研究的Meta分析得到的治疗效应置信区间下限估算得到。

　　FDA在2016年提出，如果基于4项贝伐珠单抗国外的随机对照研究进行Meta分析，得到等效性界值在［0.7368，1.3572］，按80%的把握度，估算最低样本量为608例。在中国应当考虑纳入贝伐珠单抗在转移性或复发性非鳞状细胞非小细胞肺癌患者中的注册临床研究YO25404数据，基于此计算得到合理的界值。

　　在针对贝伐珠单抗生物类似药临床评价技术要求会议讨论中，建议界值按ＲＲ设定为（0.75，1/0.75）。

　　如果前期药动学（pharmacokinetics，PK）比对研究数据表明生物类似药与参照药具有一致性，那么采用实际ＲＲ的90%以上置信区间进行等效性判断是可以接受的，把握度一般设置在80%以上，基于上述参数合理估算样本量。

　　小结

　　本文是对与申请人进行方案沟通交流时关于统计学设计方面常见咨询问题的简单介绍，结合具体品种的临床背景信息，实际的方案沟通交流过程中针对每个问题都会有详细的讨论，如关于桥接研究，申请人会针对品种的具体情况提出新的方法用于说明桥接研究与全球研究的一致性。

　　本文列举的问题有时不仅仅会单独在一项研究设计中存在，不同的设计要素相互之间也会进行交叉与混合。如在MＲCT研究中，既需要考虑一致性与区域样本量，同时还需要考虑多重性问题与期中分析的策略等。

微信图片_20210508101536.jpg

　　近年来随着国家鼓励药品医疗器械的不断创新以及企业对医药研发的加大投入与重视，医药研发企业为了提高试验的效率，加快药物上市的进度，越来越多的企业更加重视方案的设计，采用更加新颖、高效以及复杂的统计学设计。针对新颖复杂的试验设计，在缺乏相应的指导原则以及行业共识时，鼓励申请人与CDE开展详细充分的沟通交流，以达成较为一致的意见用于指导试验的实施。

　　文章来源：《中国新药杂志》

　　原标题：《注册临床试验方案沟通交流常见的统计学设计问题》

　　作者：潘建红，赵骏，李若冰，韩景静，张慧，王骏（国家药品监督管理局药品审评中心，北京）

　　声明：铭研医药对所有公众号产生内容保持严谨、中立的态度。文章仅供交流学习使用。如遇到内容有误，请与我们联系进行讨论和修改。（010-65104668）