附件:真实世界数据用于医疗器械临床评价技术指导原则(征求意见稿)
为有效解决影响和制约医疗器械创新、质量、效率的突出性问题,加快实现医疗器械治理体系和治理能力现代化,立足我国监管工作实际,围绕审评审批制度改革创新,国家药品监督管理局启动中国药品监管科学行动计划。基于行动计划首批项目“真实世界数据用于医疗器械临床评价的方法学研究”的研究成果,制定本指导原则。
本指导原则旨在初步规范和合理引导真实世界数据在医疗器械临床评价中的应用,为申请人使用医疗器械真实世界数据申报注册以及监管部门对该类临床数据的审评提供技术指导。
本指导原则是供申请人和审查人员使用的技术指导文件,不涉及注册审批等行政事项,亦不作为法规强制执行,如有能够满足法规要求的其他方法,也可采用,应在遵循相关法规的前提下使用本指导原则。本指导原则基于现有科学发展和认知水平制定,随着真实世界数据研究的发展、提高和相关法规政策、标准制定等情况的变化,本指导原则还会不断地完善和修订。
一、概述
(一)真实世界数据与证据
本指导原则所述真实世界数据是指来自现实医疗环境的、传统临床试验以外的数据,反映实际诊疗中患者健康状况和医疗服务过程。
围绕相关科学问题,综合运用流行病学、生物统计学、循证医学等多学科方法技术,利用真实世界数据开展的研究统称为真实世界研究。它通过对临床常规产生的真实世界数据进行系统性收集,并在预先设定的研究假设下,运用合理的流行病学设计和统计分析方法,可为前瞻或回顾性研究,与传统临床试验互为补充。信息技术支持的临床实践所产生的大量临床数据为进行真实世界研究奠定了基础。
真实世界证据指的是,通过分析真实世界数据,形成产品使用、潜在风险/收益相关的临床证据。但是,由于真实世界数据来源和类型不同,数据质量和涵盖的信息差异较大,并非所有的真实世界数据都适用于支持医疗器械临床评价。在符合要求的前提下,基于真实世界数据形成的真实世界证据可显示医疗器械在全生命周期的风险获益特征,可能构成有效科学证据并用于监管决策。
(二)真实世界研究的优势与局限性
相比于传统临床试验,真实世界研究是在现实的健康医疗环境下开展,对纳入患者病情限定更少,覆盖人群更广,样本量可能较大,研究结果的外推性可能较好。真实世界研究强调综合利用多种数据,如医院电子病历、登记数据、区域健康医疗数据、医疗保险数据等,使获得长期临床结局数据成为可能。真实世界研究还可用于观察罕见严重不良事件,回答罕见疾病的相关问题,评价临床结局在不同人群之间的差异。
真实世界研究的局限性来自两方面。第一,真实世界数据来源众多,在数据收集、存储过程中,常会出现测量/分类错误或数据缺失等情况;数据未实现结构化,数据质量有待评价;不同数据源之间的链接存在挑战。第二,基于真实世界数据开展的研究通常存在多种偏倚和混杂,研究结果在实现因果推断方面存在较大挑战。
常见的真实世界数据来源包括登记数据库、医院电子病历、区域健康医疗数据、医保数据、健康档案、常规公共监测数据、患者自报数据(包括居家环境)、其它健康检测(如移动设备)产生的数据等。适用于医疗器械的真实世界数据除上述情形外,还可包括在医疗器械生命周期中生产、销售、运输、存储、安装、使用、维护、退役、处置等过程中产生的数据(如验收报告、维修报告、使用者反馈、使用环境、校准记录、运行日志、影像原始数据等)。
从特定器械临床评价的角度出发,上述数据来源按数据形成时间与研究开展时间的关系,可分为两大类。第一大类是既有的数据资源,即在开展当前研究时,数据资源已经存在。根据数据产生过程的差异,该类数据资源又分为两种情况:
(一)产生于医疗服务的提供和付费过程,基于管理目的生成,如医院电子病历数据、医保数据、健康档案等。
(二)基于数据库建立时的研究目的,设立统一的数据标准和数据收集模式,在常规健康医疗环境下形成并建立的数据资源,如登记数据、基于实效性临床试验形成的数据库。
第二大类是以特定器械的临床评价为目的,设立明确的数据标准和数据收集模式,在常规健康医疗环境下形成的数据资源。典型数据包括以器械为对象产生的登记数据、实效性临床试验数据等。
真实世界数据质量直接影响真实世界研究结果的证据强度。真实世界数据的质量评价是开展真实世界研究的基础,需建立和实施相应的质量保障和评估措施。真实世界数据质量评价,需综合考虑源数据质量以及研究过程的质量控制。
使用既有数据资源的数据进行临床评价时,需针对具体研究问题,评估既有数据是否涵盖研究所需人群、关键变量及随访时长,是否能获得医疗器械识别信息、使用信息等,以及这些变量的准确性及完整性。其次,需基于具体的研究设计对既有数据进行规范化的清理及提取,形成真实世界研究数据集。
对于主动收集数据的情形,首先需考虑研究设计的科学性和可行性。真实世界研究的纳入和排除标准通常较为宽泛,需保证核心随访时间点的随访质量。其次,需确保数据的真实性、准确性、可追溯性,建立系统的随访规范,对研究人员进行培训与监管。需在研究开始前充分识别可能的研究偏倚和混杂因素,并在制定研究计划和编制病例报告表时包含相关混杂因素的测量和记录,并在数据分析阶段采用分层分析、多因素分析以及倾向性评分等统计方法来控制、校正这些混杂因素造成的影响。
评价数据管理的规范性,可从管理流程、人员、信息系统、数据标准化等方面进行全面考虑。关于数据标准化,需有标准化的文档格式及数据结构,使用标准化的变量字典等。
评价数据质量,需考虑数据的相关性和可靠性。数据的相关性主要考虑其是否可充分回答与研究目的相关的临床问题,个体水平特定结局变量的充分性,并从回答临床问题的角度对各相关变量进行评估。在数据的可靠性方面,需重点考虑数据采集的准确性,包括在采集前确定采集范围、采集变量,制定数据词典、规定采集方式(如数据提取表)等,以确保误差最小化,并充分保障数据的真实性和完整性等。
从医疗器械临床评价角度,当真实世界数据用于医疗器械临床评价的具体研究时,应基于具体研究目的,进行研究的总体策划和设计。研究总体策划包括明确研究问题、确定数据来源、确定数据的生成方式或者数据的清洗及提取规范以及组建研究团队等。研究总体设计包括确定设计类型、明确研究对象和研究变量、识别混杂及偏倚的来源并进行合理控制以及制定统计分析计划等步骤。在策划、设计及实施真实世界研究的过程中,伦理与数据安全问题亦需得到充分的重视。
无论选择何种真实世界数据,需注意的是真实世界研究存在的偏倚。这些偏倚可能限制了研究结果在因果关系上的推断和解读。为尽量减少潜在的偏倚,研究者需要在研究的策划、设计、实施以及分析阶段进行识别,并预先制定相应措施,在获取及分析数据前谨慎而周密的形成研究方案及分析计划。申请人可以根据数据与研究问题的匹配程度,选择不同的研究设计,必要时也可以同时选择多种研究设计。
真实世界研究设计类型主要分为实效性试验研究设计和观察性研究设计及其他设计。
1.实效性试验
在实效性试验中,以实效性随机对照试验(pRCT)为代表的干预性研究是重要组成部分。实效性随机对照试验,又称为实用性随机对照试验,是指在真实或接近真实的临床医疗环境下,采用随机、对照的设计比较临床实践中不同干预措施的治疗效果。与传统随机对照试验不同,pRCT通常是在实际临床医疗环境中开展,研究对象可能存在多种合并症,干预过程与临床医疗实践保持较好一致,但同时受干预者技巧和经验的影响等。因此,在研究策划和设计上需要多方考虑。
依据随机分组单元选择的不同,实效性随机对照试验可包括:
(1)个体随机实效性对照试验,即以个体作为随机分组单位进行干预和观测。对于器械临床评价而言,通常随机单元是患者个体。
(2)整群随机实效性对照试验,指以群组(如医院、诊所、小区或学校等)作为干预单元,在分析此类研究设计的数据时,除考虑群组效应外,也应以个体为单位进行效应评价。
(3) 阶梯楔形随机对照试验,是一种特殊的群组随机对照试验,群组在不同的开始时间(阶梯式的)被随机分配接受干预措施。
pRCT中的结局指标需根据研究的具体目的选择,可包括安全性、有效性、治疗依从性、卫生经济等方面。结局指标通常选择对患者(或研究结果的运用者)有重要临床意义的指标,一般不采用生物学或影像学等中间指标。在干预措施无法做到盲法时,建议选择不易因干预分配开放而受影响的结局指标如脑卒中、肿瘤大小等。通常情况下,应根据具体的研究设计进行样本量的计算。
pRCT通常选用常规治疗、标准治疗或公认有效的治疗措施作为对照,一般不采用安慰效应为对照。因注重评价远期结局,pRCT一般需进行结局的多时点测量,随访时间较长,随访频率常低于常规随机对照试验。
pRCT主要关注干预措施在实际临床环境下的效果,但研究场所和环境仍需结合疾病特征和临床实际来判断,其研究对象应尽可能反应真实诊疗中应用研究干预措施的患者群体。
2.观察性研究
基于真实世界数据开展观察性研究时,不同来源的数据质量不同,暴露与结局的测量可能与研究本身的定义存在不一致,治疗分配通常根据医生的判断,而非随机分配,如何识别和控制可能的混杂和偏倚,是观察性研究在设计和分析阶段的重要考量。如设计时不进行全面考虑,将引入较高的偏倚,限制因果推断。当拟用真实世界观察性研究确认暴露与结局的因果关系时,建议对研究的关键要素与环节进行审慎思考,根据研究目的事先制定研究计划以及统计分析计划。
在设计真实世界观察性研究时,首先应确定研究目的,提出在医疗器械临床评价中拟解决的问题,并阐明研究假设。建立研究假设时,建议重点考虑构建研究问题的关键要素,即P(Population, 人群)、I(Intervention, 干预)、C(Control, 对照)、O(Outcome, 结局)、T(Timing, 时间)是否可基于真实世界数据产生,包括真实世界数据中是否可提取出满足要求的研究人群数据,是否能形成相对统一或标化的干预方案,是否可设置可比的对照,是否包含研究所需的结局评价指标及测量结果。
观察性研究包括队列研究(前瞻性、回顾性与双向队列)、病例-对照研究及衍生设计(如巢式病例-对照研究)、自身对照的病例系列等设计类型。申请人可根据研究目的以及可获得的真实世界数据特征,选择恰当的研究设计,也可以同时选择多种研究设计。申请者需要对整个过程当中存在的可能的偏倚进行全面识别(如选择偏倚、测量偏倚等),并建立有效的措施尽可能控制措施。
3. 其他设计类型
采用真实世界数据作为外部对照的单组试验设计,是形成临床证据的一种设计类型。其中,历史对照因临床实践的差异性、随访时间的变化性,以及诊断和结局测量标准缺乏一致性等原因,通常可比性较差。选择同期对照而非历史对照,收集研究相关变量的详细、准确信息,是改善这些局限的有效方法。
在真实世界研究中,研究者需要根据研究目的、数据类型以及研究设计类型酌情应用合理的统计学方法,常见的统计分析方法见附录2。
真实世界研究中常见的研究设计主要包括试验性研究及观察性研究两大类型。其中,试验性研究中具有代表性的为实效性随机对照试验(pRCT),融合了随机化和真实世界数据的优势,可相对较好地控制混杂和偏倚的影响。这类研究中的统计分析方法与传统临床试验没有本质差别,其统计分析计划包括数据集定义、分析原则与策略、缺失数据处理、分析指标与分析方法、亚组或分层分析、敏感性分析、补充分析和结果报告等方面。统计分析的基本原则亦为意向性治疗分析原则。常用的分析方法包括参数检验、非参数检验、分层分析、回归分析等多种方法。
基于真实世界数据的观察性研究由于更容易产生混杂和偏倚,数据分析的关键是采用统计分析技术对最大限度的控制混杂因素造成的偏倚。在真实世界数据的观察性研究中,同样推荐在统计分析之前预先制定统计分析计划,以降低研究结果为假阳性的概率。常用的分析方法除传统的分层分析、多变量分析方法外,还包括倾向性评分等方法。
基于真实世界数据形成的真实世界证据可支持医疗器械全生命周期临床评价,涵盖上市前临床评价及上市后临床评价。真实世界证据用于医疗器械临床评价的常见情形如下:
(一)在同品种临床评价路径中提供临床证据
同品种临床评价路径是基于同品种医疗器械的临床数据开展临床评价,需要的临床数据包括同品种产品的临床数据和/或申报产品的临床数据。
对于同品种产品的临床数据,真实世界数据是其重要来源,其有助于确认产品在现实医疗环境中的安全有效性,识别产品的潜在风险(如罕见的严重不良事件),甚至通过获知同类产品在不同人群中的实际疗效,明确最佳使用人群;通过知晓同类产品的行业水平,为申报产品的上市前风险/收益评价提供信息。合法获得的申报产品真实世界数据,可用于确认申报产品与同品种器械间的差异,不对申报产品的安全性有效性产生不利影响。
(二)用于支持产品注册,作为已有证据的补充
由于全球法规尚待进一步协调以及受产品上市策略等因素影响,多数医疗器械尚未实现全球同步上市。注册申请人可综合考虑产品设计特点及适用范围,已有的临床数据,各监管区域对于临床证据要求的差异等情况,在已上市监管区域收集真实世界数据并形成真实世界证据,支持在中国的注册申报,以避免在中国境内额外开展临床试验。
(三)临床急需进口器械在国内特许使用中产生的真实世界数据,可用于支持产品注册,作为已有证据的补充
根据国家统一部署,在部分区域指定医疗机构内,特许使用临床急需且在我国尚无同品种产品获准注册的医疗器械,按照相关管理制度和临床技术规范使用产生的真实世界数据,经过严格的数据采集和系统处理、科学的统计分析以及多维度的结果评价,可用于支持产品注册,作为已有证据的补充。特别是通过境外临床试验进行临床评价,有证据表明/提示将境外临床试验数据外推至中国人群可能受到境内外差异的影响时,可考虑使用该类数据进行桥接研究。
(四)作为单组试验的外部对照
在单组临床试验设计中,可从质量可控的真实世界数据库中提取与试验组具有可比性的病例及其临床数据,作为外部对照。外部对照通常来源于具有良好质量管理体系的登记数据库,其可接受申办者和监管方等的评估,以确认其数据的相关性和可靠性。建议采用同期外部对照,如使用历史数据进行对照,将因为时间差异引入多种偏倚,降低临床试验的证据强度。
(五)为单组目标值的构建提供临床数据
目标值是专业领域内公认的某类医疗器械有效性/安全性评价指标所应达到的最低标准,包括客观性能标准和性能目标,是在既往临床数据的基础上分析得出,用于试验器械主要评价指标的比较和评价。真实世界数据可作为构建或更新目标值的数据来源。
(六)支持适用范围和适应症的修改
医疗器械上市后,基于所在监管区域的相关法规,在合法使用的前提下,获得的真实世界数据可用于支持适用范围和适应症的修改。可能的情形包括在合法使用过程中发现额外的疗效,或者某些境外监管区域法规许可的批准范围外使用等。
(七)支持在说明书中修改临床声称
医疗器械上市后的真实世界证据,可用于支持修改说明书中的临床声称。例如,对于测量、计算患者生理参数和功能指标的医疗器械,部分生理参数和功能指标在上市前评价时主要关注穷测量和计算的准确性,未充分发掘其临床价值。真实世界数据可用于构建生理参数和功能指标、或者基于其做出的临床治疗决定,与临床结局之间的因果推断,从而修改说明书中产品的临床声称。
(八)支持附带条件批准产品的上市后研究
对用于治疗罕见病、严重危及生命且尚无有效治疗手段的疾病和应对公共卫生事件等急需的医疗器械,附带条件批准上市后,可利用真实世界数据开展上市后研究,以支持注册证载明事项的完成。
(九)用于高风险植入物等医疗器械的远期安全有效性评价
高风险植入物等医疗器械,特别是市场上首次出现的高风险植入物,在上市前临床评价中,难以确认产品的远期疗效和风险,识别罕见严重不良事件。可利用真实世界数据进行该类产品的上市后研究,确认产品的远期安全有效性,完成产品的全生命周期临床评价。
(十)用于治疗罕见病的医疗器械全生命周期临床评价,加快其上市进程,满足患者需求
真实世界数据可在多维度支持治疗罕见病的医疗器械快速上市。如拟开展上市前临床试验,真实世界数据可作为单组试验的外部对照,或者用于构建目标值;附带条件批准后,真实世界数据可用于确认产品的有效性,识别产品风险,进行产品风险/收益的再评价。
(十一)上市后监测
产品的上市后监测,涉及不良事件监测、产品安全有效性再评价等方面,是医疗器械全生命周期临床评价的重要组成部分。真实世界数据在上市后监测中应当发挥重要作用,如通过收集、提取风险信号,开展不良事件归因分析,及时发现和控制已上市医疗器械的使用风险,分析同时促进生产企业对已上市产品的设计改进,推动新产品研发。
附录1:常见的统计分析方法
一、实效性随机对照试验的统计方法
实效性随机对照试验(pRCT)统计分析思想与传统随机对照试验的统计分析思想类似,包括需按照统计分析计划执行,比如考虑调整协变量、控制中心效应和群组效应构建统计模型、亚组分析、敏感性分析等。不同的是,pRCT由于在实际临床医疗环境中开展,患者接受干预的标准化程度降低,依从性也可能低于传统试验环境,同时失访可能增加。意向性分析是常用的分析方法,但应重视对患者失访的结局处理,需要预先明确失访患者的处理办法并说明原因。相比传统随机对照试验,pRCT的研究结果更容易趋向于无效假设。因此,在设计非劣效试验时应谨慎使用pRCT的设计。
此外,由于pRCT在随机后可能根据个体差异或临床专业人员的选择,患者接受的干预会发生变化,从而产生新的混杂(常称为随机后混杂),这些情况需进行协变量的调整。常采用相应的统计学模型进行调整,如多重线性回归、Logistic 回归、Cox 回归、Poisson 回归等。由于pRCT可能会来自于多个中心,需要对中心效应进行控制,当主要结局变量是连续性指标时,可采用协方差分析方法;当主要结局变量是分类指标时,可采用考虑中心效应的Cochran-Mantel-Haenszel方法;当有其他协变量需要考虑时,可采用随机效应模型。
对于个体pRCT无需考虑群组效应,而群组随机对照试验(cRCT)和阶梯楔形随机对照试验(swRCT),由于干预、随机分配单位为群组和干预的阶段性引入,分析内容和方法有别于个体pRCT。cRCT分析可采用混合效应模型、多水平/层次建模技术,同时考虑群组、个体水平和组间特征的影响,还可采用贝叶斯层次建模方法获得干预效应合理的区间估计。swRCT分析多采用调整时间效应影响的群组随机效应模型进行干预效果分析。在pRCT统计分析中,建议重视敏感性分析,以评估统计推断的稳健性。
二、观察性研究常用的统计分析方法
在真实世界数据的观察性研究中,数据分析的关键是采用统计分析技术最大限度的控制混杂因素造成的偏倚。常见的分析方法如下:
(一)分层分析
分层分析是指将数据按可能的混杂因素分为多层,每层内部的数据之间有较好的同质性,是最常用的识别和控制混杂偏倚的方法之一。Mantel- Haenszel法是常用的分层分析方法,来评估混杂因素对结果的影响。该分析可判断外来因素是混杂还是效应修饰作用,或以哪种作用为主,以及确定混杂的大小和方向或效应修饰的大小。但是分层分析只能控制少数混杂因素,若混杂因素数过多可能导致过度分层,使层内样本量少;对连续性变量只能用等级分层法,常引起不合理的分组。
(二)多元回归模型
多元回归模型是最常见的控制混杂因素的统计分析方法,常用于观察性研究,根据结局变量的特点选择logistic回归、线性回归、Poisson回归和Cox比例风险回归,根据数据是否存在层次结构考虑是否选择多水平模型,针对存在重复测量的数据可以考虑广义线性混合效应模型和广义估计方程。但在应用这些模型的时候,仍需要考虑其模型的模型假设以及模型适用性。
(三)倾向性评分分析方法
倾向性评分分析是目前观察性研究中用于因果推断最为常见的分析方法,是一种针对较多混杂因素的调整方法,尤其适用于暴露因素常见而结局事件罕见的研究,或者有多个结局变量的研究。常见的倾向性评分应用方法包括倾向性评分匹配法,倾向性评分分层法,逆概率加权法,以及将倾向性评分作为唯一协变量纳入统计模型进行调整分析的方法。特别值得注意的是,研究者若在治疗结局评价中考虑使用倾向评分方法。应首先在研究方案或分析计划中,预先指明用于建立倾向评分模型的变量,以及对模型拟合优度和预测效果进行判断的标准;更为重要的是,在对基线指标建立倾向评分模型时,应保持对结局指标的“盲态”,直到倾向评分模型建立完毕并确定后,才将结局指标引入,直接评价结果。避免根据疗效结局的对比结果重新调整倾向评分模型,从而获得“理想”或“预期”结果的情况。
在应用倾向评分进行分析时,需同时报告使用倾向评分之前和之后的结果,并需要考虑倾向评分处理后分析方法可能对最终结果造成的影响,例如,用倾向评分匹配后可能导致的估计精度降低(因样本量下降);或使用倾向评分加权时,个别的极大权重的样本可能对分析结果造成较大影响等。特别需要强调的是,倾向评分方法仅能处理可观测到的混杂因素,不能控制研究中未采集的混杂因素可能带来的潜在影响,建议研究中针对评价结果进行合理的解读和讨论,并开展可能的定量分析。
(四)工具变量分析方法
采用上述分层分析、多变量回归模型和倾向评分法控制混杂的局限性在于:只能控制已测量的混杂因素的影响,但对于未测量的混杂因素无法调整。而采用工具变量的因果效应分析方法不涉及具体地对混杂因素/协变量的调整,能够控制未知的混杂因素的影响,进而估计出干预/暴露因素与结局的因果效应。如果某变量与干预因素(暴露)水平相关,并且对结局变量的影响只能通过影响干预/暴露因素实现,同时与暴露和结局的混杂因素不相关,那么该变量可以称为其暴露因素的一个工具变量。确定工具变量后,即使存在未知未测的混杂因素,通过分别估计工具变量对暴露和工具变量对结局的影响效果,即可以估计出暴露对结局的因果效应。利用工具变量估计因果效应的方法,最大的难点在于找到符合上述假设条件的合适的工具变量。在可能的情况下,建议遴选和使用多个工具变量,并说明选择这些工具变量的原因。通过敏感性分析,检验结果的稳健性。