医疗器械法规、注册、临床、体系认证、信息系统一站式服务
24×7服务热线:0571-86198618 简体中文 ENGLISH
当前位置:网站首页>新闻动态 >怎样设计医疗器械临床试验方案
怎样设计医疗器械临床试验方案
发布日期:2019-04-03 22:11浏览次数:2909次
医疗器械临床试验是指在具备相应条件的临床试验机构中,对拟申请注册的医疗器械在正常使用条件下的安全有效性进行确认的过程。临床试验是以受试人群(样本)为观察对象,观察试验器械在正常使用条件下作用于人体的效应或对人体疾病、健康状态的评价能力,以推断试验器械在预期使用人群(总体)中的效应。由于医疗器械的固有特征,其试验设计有其自身特点。

引言:医疗器械临床试验是指在具备相应条件的临床试验机构中,对拟申请注册的医疗器械在正常使用条件下的安全有效性进行确认的过程。临床试验是以受试人群(样本)为观察对象,观察试验器械在正常使用条件下作用于人体的效应或对人体疾病、健康状态的评价能力,以推断试验器械在预期使用人群(总体)中的效应。由于医疗器械的固有特征,其试验设计有其自身特点。

医疗器械临床试验.jpg

一、确定医疗器械临床试验目的:

临床试验需设定明确、具体的试验目的。申请人可综合分析试验器械特征、非临床研究情况、已在中国境内上市(下文简称已上市)同类产品的临床数据等因素,设定临床试验目的。临床试验目的决定了临床试验各设计要素,包括主要评价指标、试验设计类型、对照试验的比较类型等,进而影响临床试验样本量。

二、医疗器械临床试验设计的基本类型和特点

(一)平行对照设计

随机、双盲、平行对照的临床试验设计可使临床试验影响因素在试验组和对照组间的分布趋于均衡,保证研究者、评价者和受试者均不知晓分组信息,避免了选择偏倚和评价偏倚,被认为可提供高等级的科学证据,通常被优先考虑。对于某些医疗器械,此种设计的可行性受到器械固有特征的挑战。

(二)配对设计

对于治疗类产品,常见的配对设计为同一受试对象的两个对应部位同时接受试验器械和对照治疗,试验器械和对照治疗的分配需考虑随机设计。配对设计主要适用于器械的局部效应评价,具有一定的局限性。例如,对于面部注射用交联透明质酸钠凝胶的临床试验,配对设计在保证受试者基线一致性上比平行对照设计具有优势,但试验中一旦发生系统性不良反应则难以确认其与试验器械或对照器械的相关性,且需要排除面部左右侧局部反应的互相影响。因此,申请人考虑进行配对设计时,需根据产品特征,综合考虑该设计类型的优势和局限性,恰当进行选择,并论述其合理性。

对于诊断器械,若试验目的是评价试验器械的诊断准确性,常见的配对设计为同一受试者/受试样品同时采用试验器械和诊断金标准方法或已上市同类器械来进行诊断。

(三)交叉设计

在交叉设计的临床试验中,每位受试者按照随机分配的排列顺序,先后不同阶段分别接受两种或两种以上的治疗/诊断。此类设计要求前一阶段的治疗/诊断对后一阶段的另一种治疗/诊断不产生残留效应,后一阶段开始前,受试者一般需回复到基线状态,可考虑在两个干预阶段之间安排合理的洗脱期。

(四)单组设计

单组试验的实质是将主要评价指标的试验结果与已有临床数据进行比较,以评价试验器械的有效性/安全性。与平行对照试验相比,单组试验的固有偏倚是非同期对照偏倚,由于时间上的不同步,可能引起选择偏倚、混杂偏倚、测量偏倚和评价偏倚等,应审慎选择。在开展单组试验时,需要对可能存在的偏倚进行全面分析和有效控制。

三、医疗器械临床试验的受试对象

根据试验器械预期使用的目标人群,确定研究的总体。综合考虑对总体人群的代表性、临床试验的伦理学要求、受试者安全性等因素,制定受试者的选择标准,即入选和排除标准。入选标准主要考虑受试对象对总体人群的代表性,如适应症、疾病的分型、疾病的程度和阶段、使用具体部位、受试者年龄范围等因素。排除标准旨在尽可能规范受试者的同质性,将可能影响试验结果的混杂因素(如影响疗效评价的伴随治疗、伴随疾病等)予以排除,以达到评估试验器械效应的目的。

四、医疗器械临床试验的评价指标

评价指标反映器械作用于受试对象而产生的各种效应,根据试验目的和器械的预期效应设定。在临床试验方案中应明确规定各评价指标的观察目的、定义、观察时间点、指标类型、测定方法、计算公式(如适用)、判定标准(适用于定性指标和等级指标)等,并明确规定主要评价指标和次要评价指标。指标类型通常包括定量指标(连续变量,如血糖值)、定性指标(如有效和无效)、等级指标(如优、良、中、差)等。对于诊断器械,临床试验评价指标通常包括定性检测的诊断准确性(灵敏度、特异性、预期值、似然比、ROC曲线下面积等)或检测一致性(阳性/阴性一致性、总一致性、KAPA值等),以及定量检测回归分析的斜率、截距和相关系数等。

五、医疗器械临床试验的比较类型和检验假设

(一)比较类型

临床试验的比较类型包括优效性检验、等效性检验、非劣效性检验。采用安慰对照的临床试验,需进行优效性检验。采用疗效/安全性公认的已上市器械或标准治疗方法进行对照的临床试验,可根据试验目的选择优效性检验、等效性检验或非劣效性检验。

优效性检验的目的是确证试验器械的疗效/安全性优于对照器械/标准治疗方法/安慰对照,且其差异大于预先设定的优效界值,即差异有临床实际意义。由于试验器械特征、对照和主要评价指标等因素的不同,部分优效性检验没有考虑优效性界值,申请人需论述不考虑优效性界值的理由。等效性检验的目的是确证试验器械的疗效/安全性与对照器械的差异不超过预先设定的等效区间,即差异在临床可接受的范围内。非劣效性检验的目的是确证试验器械的疗效/安全性如果低于对照器械,其差异小于预先设定的非劣效界值,即差异在临床可接受范围内。在优效性检验中,如果试验设计合理且执行良好,试验结果可直接确证试验器械的疗效/安全性。在等效性试验和非劣效性试验中,试验器械的疗效/安全性建立在对照器械预期疗效/安全性的基础上。

(二)界值

无论优效性试验、等效性试验或非劣效性试验,要从临床意义上确认试验器械的疗效/安全性,均需要在试验设计阶段制定界值并在方案中阐明。优效界值是指试验器械与对照器械之间的差异具有临床实际意义的最小值。等效或非劣效界值是指试验器械与对照器械之间的差异不具有临床实际意义的最大值。优效界值、非劣效界值均为预先制定的一个数值,等效界值需要预先制定优侧、劣侧两个数值。

界值的制定主要考虑临床实际意义,需要被临床认可或接受。理论上,非劣效界值的确定可采用两步法,一是通过Meta分析估计对照器械减去安慰效应后的绝对效应或对照器械的相对效应M1,二是结合临床具体情况,在考虑保留对照器械效应的适当比例1-f后,确定非劣效界值M2(M2=f×M1)。f越小,试验器械的效应越接近对照器械,一般情况下,f的取值在0~0.5之间。制定等效界值时,可用类似的方法确定下限和上限。

(三)检验假设

试验方案需明确检验假设和假设检验方法,检验假设依据试验目的确定,假设检验方法依据试验设计类型和主要评价指标类型确定。附录1提供了部分试验设计和比较类型下的检验假设举例,供参考。

六、医疗器械临床试验的样本量估算

临床试验收集受试人群中的疗效/安全性数据,用统计分析将基于主要评价指标的试验结论推断到与受试人群具有相同特征的目标人群。为实现样本(受试人群)代替总体(目标人群)的目的,临床试验需要一定的受试者数量(样本量)。样本量大小与主要评价指标的变异度呈正相关,与主要评价指标的组间差异呈负相关。

样本量一般以临床试验的主要评价指标进行估算。需在临床试验方案中说明样本量估算的相关要素及其确定依据、样本量的具体计算方法。附录2提供了样本量估算公式的样例,供参考。确定样本量的相关要素一般包括临床试验的设计类型和比较类型、主要评价指标的类型和定义、主要评价指标有临床实际意义的界值、主要评价指标的相关参数(如预期有效率、均值、标准差等)、Ⅰ类和Ⅱ类错误率以及预期的受试者脱落和方案违背的比例等。主要评价指标的相关参数根据已有临床数据和小样本可行性试验(如有)的结果来估算,需要在临床试验方案中明确这些估计值的确定依据。一般情况下,Ⅰ类错误概率α设定为双侧0.05或单侧0.025,Ⅱ类错误概率β设定为不大于0.2,预期受试者脱落和方案违背的比例不大于0.2,申请人可根据产品特征和试验设计的具体情形采用不同的取值,需充分论证其合理性。

七、医疗器械临床试验设计需考虑的其他因素

由于器械的固有特征可能影响其临床试验设计,在进行医疗器械临床试验设计时,需对以下因素予以考虑:

(一)器械的工作原理

器械的工作原理和作用机理可能与产品性能/安全性评价方法、临床试验设计是否恰当相关。

(二)使用者技术水平和培训

部分器械可能需要对使用者进行技能培训后才能被安全有效地使用,例如手术复杂的植入器械。在临床试验设计时,需考虑使用器械所必需的技能,研究者技能应能反映产品上市后在预期用途下的器械使用者的技能范围。

(三)学习曲线

部分器械使用方法新颖,存在一定的学习曲线。当临床试验过程中学习曲线明显时,试验方案中需考虑在学习曲线时间内收集的信息(例如明确定义哪些受试者是学习曲线时间段的一部分)以及在统计分析中报告这些结果。如果学习曲线陡峭,可能会影响产品说明书的相关内容和用户培训需求。

(四)人为因素

在器械设计开发过程中,对器械使用相关的人为因素的研究可能会指导器械的设计或使用说明书的制定,以使其更安全,更有效,或让受试者或医学专业人士更容易使用。

八、医疗器械临床试验的统计分析

(一)分析数据集的定义

意向性分析(Intention To Treat,简称ITT)原则是指主要分析应包括所有随机化的受试者,基于所有随机化受试者的分析集通常被称为ITT分析集。理论上需要对所有随机化受试者进行完整随访,但实际中很难实现。

临床试验常用的分析数据集包括全分析集(Full Analysis Set,FAS)、符合方案集(Per Protocol Set,PPS)和安全性数据集(Safety Set,SS)。需根据临床试验目的,遵循尽可能减少试验偏倚和防止Ⅰ类错误增加的原则,在临床试验方案中对上述数据集进行明确定义,规定不同数据集在有效性评价和安全性评价中的地位。全分析集为尽可能接近于包括所有随机化的受试者的分析集,通常应包括所有入组且使用过一次器械/接受过一次治疗的受试者,只有在非常有限的情形下才可剔除受试者,包括违反了重要的入组标准、入组后无任何观察数据的情形。符合方案集是全分析集的子集,包括已接受方案中规定的治疗、可获得主要评价指标的观察数据、对试验方案没有重大违背的受试者。若从全分析集和符合方案集中剔除受试者,一是需符合方案中的定义,二是需充分阐明剔除理由,需在盲态审核时阐明剔除理由。安全性数据集通常应包括所有入组且使用过一次器械/接受过一次治疗并进行过安全性评价的受试者。

需同时在全分析集、符合方案集中对试验结果进行统计分析。当二者结论一致时,可以增强试验结果的可信度。当二者结论不一致时,应对差异进行充分的讨论和解释。如果符合方案集中排除的受试者比例过大,或者因排除受试者导致试验结论的根本性变化(由全分析集中的试验失败变为符合方案集中的试验成功),将影响临床试验的可信度。

全分析集和符合方案集在优效性试验和等效性或非劣效性试验中所起作用不同。一般来说,在优效性试验中,应采用全分析集作为主要分析集,因为它包含了依从性差的受试者而可能低估了疗效,基于全分析集的分析结果是保守的。符合方案集显示试验器械按规定方案使用的效果,与上市后的疗效比较,可能高估疗效。在等效性或非劣效性试验中,用全分析集所分析的结果并不一定保守。

(二)缺失值和离群值

缺失值(临床试验观察指标的数据缺失)是医疗器械临床试验结果偏倚的潜在来源,在临床试验方案的制定和执行过程中应采取充分的措施尽量减少数据缺失。对于缺失值的处理方法,特别是主要评价指标的缺失值,需根据具体情形,在方案中遵循保守原则规定恰当的处理方法,如末次观察值结转(Last Observation Carried Forward, LOCF)、基线观察值结转(Baseline Observation Carried Forward, BOCF)等。必要时,可考虑采用不同的缺失值处理方法进行敏感性分析。

不建议在统计分析中直接排除有缺失数据的受试者,因为该处理方式可能破坏入组的随机性、破坏受试人群的代表性、降低研究的把握度、增加Ⅰ类错误率。

对于离群值的处理,需要同时从医学和统计学两方面考虑,尤其是医学专业知识的判断。离群值的处理应在盲态审核时进行,如果试验方案中未预先规定处理方法,在实际资料分析时,需要进行敏感性分析,即比较包括和不包括离群值的两种试验结果,评估其对试验结果的影响。

(三)统计分析方法

1.统计描述

人口学指标、基线数据一般需选择合适的统计指标(如均数、标准差、中位数等)进行描述以比较组间的均衡性。

主要评价指标在进行统计推断时,需同时进行统计描述。值得注意的是,组间差异无统计学意义不能得出两组等效或非劣效的结论。

次要评价指标通常采用统计描述和差异检验进行统计分析。

2.假设检验和区间估计

在确定的检验水平(通常为双侧0.05)下,按照方案计算假设检验的检验统计量及其相应的P值,做出统计推断,完成假设检验。对于非劣效性试验,若P≤α,则无效假设被拒绝,可推断试验组非劣效于对照组。对于优效性试验,若P≤α,则无效假设被拒绝,可推断试验组临床优效于对照组。对于等效性试验,若P1≤α和P2≤α同时成立,则两个无效假设同时被拒绝,推断试验组与对照组等效。

亦可通过构建主要评价指标组间差异置信区间的方法达到假设检验的目的,将置信区间的上限和/或下限与事先制定的界值进行比较,以做出临床试验结论。按照方案中确定的方法计算主要评价指标组间差异的(1-α)置信区间,α通常选取双侧0.05。对于高优指标的非劣效性试验,若置信区间下限大于-?(非劣效界值),可做出临床非劣效结论。对于优效性试验,若置信区间下限大于?(优效界值),可做出临床优效结论。对于等效性试验,若置信区间的下限和上限在(-?,?)(等效界值的劣侧和优侧)范围内,可做出临床等效结论。对试验结果进行统计推断时,建议同时采用假设检验和区间估计方法。

3.基线分析

除试验器械及相应治疗方式外,主要评价指标常常受到受试者基线变量的影响,如疾病的分型和程度、主要评价指标的基线数据等。因此,在试验方案中应识别可能对主要评价指标有重要影响的基线变量,在统计分析中将其作为协变量,采用恰当的方法(如协方差分析方法等),对试验结果进行校正,以修正试验组和对照组间由于协变量不均衡而对试验结果产生的影响。协变量的确定依据以及相应的校正方法的选择理由应在临床试验方案中予以说明。对于没有在临床试验方案中规定的协变量,通常不进行校正,或仅将校正后的结果作为参考。

4.中心效应

在多个中心开展临床试验,可在较短时间内入选所需的病例数,且样本更具有代表性,结果更具有推广性,但对试验结果的影响因素更为复杂。

在多个中心开展临床试验,需要组织制定标准操作规程,组织对参与临床试验的所有研究者进行临床试验方案和试验用医疗器械使用和维护的培训,以确保在临床试验方案执行、试验器械使用方面的一致性。当主要评价指标易受主观影响时,建议采取相关措施(如对研究者开展培训后进行一致性评估,采用独立评价中心,选择背对背评价方式等)以保障评价标准的一致性。尽管采取了相关质量控制措施,在多中心临床试验中,仍可能出现因不同中心在受试者基线特征、临床实践(如手术技术、评价经验)等方面存在差异,导致不同中心间的效应不尽相同。当中心与处理组间可能存在交互作用时,需在临床试验方案中预先规定中心效应的分析策略。当中心数量较多且各中心病例数较少时,一般无需考虑中心效应。

在多个中心开展临床试验,各中心试验组和对照组病例数的比例需与总样本的比例基本相同。当中心数量较少时,建议按中心进行分层设计,使各中心试验组与对照组病例数的比例基本相同。

九、医疗器械临床试验的偏倚和随机误差

临床试验设计需考虑偏倚和随机误差。偏倚是偏离真值的系统误差的简称,在试验设计、试验实施和数据分析过程中均可引入偏倚,偏倚可导致错误的试验结论。临床试验设计时应尽量避免或减少偏倚。

统计量的随机误差受临床试验样本量的影响。一方面,较大的样本量可提供更多的数据,使器械性能/安全性评价的随机误差更小。另一方面,更大的样本量可能引入更大的偏倚,导致无临床意义的差异变得具有统计学意义。试验设计应该旨在使试验结果同时具有临床和统计学意义。







Copyright © 2018 医疗器械注册技术咨询 浙ICP备18025678号 技术支持:熙和网络