为规范人工智能医疗器械相关产品的管理,2023年9月15日,国家药监局器审中心组织制定并发布了《磁共振成像系统人工智能软件功能审评要点》,本审评要点是对磁共振成像系统人工智能软件功能的一般要求,医疗器械注册申请人应依据产品的具体特性确定其中的内容是否适用。若不适用,需具体阐述其理由及相应的科学依据,并依据具体的产品特性对注册申报资料的内容进行充实和细化。
为规范人工智能医疗器械相关产品的管理,2023年9月15日,国家药监局器审中心组织制定并发布了《磁共振成像系统人工智能软件功能审评要点》,本审评要点是对磁共振成像系统人工智能软件功能的一般要求,医疗器械注册申请人应依据产品的具体特性确定其中的内容是否适用。若不适用,需具体阐述其理由及相应的科学依据,并依据具体的产品特性对注册申报资料的内容进行充实和细化。
磁共振成像系统人工智能软件功能审评要点
本审评要点是对磁共振成像系统人工智能软件功能的一般要求,申请人应依据产品的具体特性确定其中的内容是否适用。若不适用,需具体阐述其理由及相应的科学依据,并依据具体的产品特性对注册申报资料的内容进行充实和细化。
本审评要点是供注册申请人和技术审评人员使用的指导性文件,但不包括注册审批所涉及的行政事项,亦不作为法规强制执行,应在遵循相关法规的前提下使用本审评要点。如果有能够满足相关法规要求的其他方法,也可以采用,但是需要提供详细的研究资料和验证资料。
本审评要点是在现行法规和标准体系以及当前认知水平下制定的,随着法规和标准的不断完善,以及科学技术的不断发展,相关内容也将适时进行调整。
本审评要点不包含临床评价的要求,也不包含人工智能伦理、数据产权等法律法规层面要求。
一、适用范围
本审评要点适用于采用人工智能技术(artificial intelligence, AI)的磁共振(magnetic resonance, MR)成像系统。按照现行有效的《医疗器械分类目录》,该类产品分类编码为06-09,管理类别为III类。
本审评要点所指的AI软件功能,必须运行于MR系统,且作为软件组件随MR系统进行注册。某些AI软件功能以专用型独立软件形式呈现,运行于MR系统的通用计算平台(工作站等),如其作为附件随MR系统进行注册,可以视为MR系统的软件组件。
二、产品简介
MR成像无电离辐射危害,具有良好的图像对比度,是临床常见的影像学检查方法。近年来,MR系统的磁场强度和成像分辨率不断提升,多参数和定量化的成像序列不断涌现,移动式、超低场的产品也逐渐用于临床。基于大数据的AI技术进一步推动了相关行业发展,除了利用AI技术进行MR图像处理的独立软件产品,MR系统本身也开始通过AI技术实现产品赋能。
(一)成像优化
利用AI技术对MR成像进行功能完善和性能提升,常见应用场景包括:① 改善图像质量(例如:图像降噪、运动伪影去除等);② 优化图像重建(例如:欠采样重建、超分辨率重建、多参数定量图像重建等);③ 提升成像速度(例如:减少扫描时间,优化动态成像、实时成像的性能等)。
(二)工作流程优化
利用AI技术提升MR系统的工作流程的质量和效率,例如:在磁共振定位像中智能规划扫描区域和层面,减少人工操作时间,提高扫描定位的准确性和可重复性。
(三)定量计算
利用AI技术在MR图像中对器官、组织、病灶等进行定量分析(例如:体积、图像纹理、生理参数等),输出结果用于诊断、治疗及疗效评估。定量计算软件功能一般用于处理图像或其他类型数据,其临床应用场景可能涉及辅助分诊、辅助检测、辅助评估、辅助诊断、辅助治疗等,通常不控制成像硬件、不干预扫描操作。
从MR系统扫描和输出图像的角度,AI软件功能也可以按照涉及的产品模块或成像过程进行划分,例如:准备、扫描、前处理[1]、后处理等。由于MR系统复杂度较高,各种划分方法在一定程度上存在交叉和重叠,某个软件功能可能同时对前处理、后处理等多个环节产生较大影响,需要依据工作原理、预期用途、产品功能、临床使用场景等进行综合评价。
四、审评主要关注点
在参照适用的法规、规章、指导原则和标准的前提下,请结合下列关注点开展技术审评。
(一)综述资料
参考《医疗器械通用名称命名规则》的要求,具有AI软件功能的MR系统宜采用通用名称,即“磁共振成像系统”或“磁共振成像设备”,医疗器械注册证载明的产品名称中不宜增加“智能”等修饰词。此外,产品结构组成和适用范围一般与常规MR系统的注册证载明信息保持一致,例如:“该产品由3.0T超导磁体、射频线圈、......组成”、“该产品适用于临床磁共振成像诊断或检查”。
申请人可以在产品技术要求或产品说明书中体现AI软件功能。
由于MR系统已经按照第三类医疗器械进行管理,即风险最高的管理类别,所以是否采用AI技术不会导致其调增产品管理类别。
采用AI技术的MR系统在注册申报时,需要针对具体的AI软件功能,逐项描述工作原理、处理对象、适用疾病(若适用)、适用人群、适用人体部位、临床用途、使用限制、禁忌证等内容。若适用,请提供AI软件功能关于儿童应用的必要说明和评价资料。对于某些仅适用于儿童或成人的软件功能,建议在产品技术要求和说明书中进行提示和说明。
以AI降噪功能为例,需要说明兼容的成像序列(类型、2D/3D、是否加速采集等)、射频线圈(类型、部位、发射/接收等)的要求,以及输出图像类型(定量或非定量等)、适用人群和人体部位、使用限制等信息。
(二)非临床资料
1. 产品风险管理资料
目前,AI技术已融入临床MR检查的各个环节,需要采用基于风险的全生命周期管理方法进行科学监管,风险管理活动应依据预期用途(用途类型、目标部位和疾病、重要程度、紧急程度等)、使用场景(适用人群、疾病特征、目标用户、使用场合、临床流程等)、核心功能(核心算法、处理对象、数据兼容性、功能类型等)予以实施。
成像优化的主要风险是AI技术导致图像质量下降或损失关键诊断信息,例如:快速成像的加速倍数过高、扫描时间过短,导致图像质量下降的风险;图像降噪、运动伪影去除等软件功能导致图像失真的风险。
工作流程优化同样需要考虑是否引入了类似的风险。以扫描层面自动定位功能为例,如果出现定位错误,可能导致无法获得预期目标图像、成像质量下降的风险,相应的风险缓解措施包括改进层面位置和方向的显示方式、提示操作者确认自动定位结果、允许操作者手工调整等。
涉及定量计算的软件功能,定量结果错误或偏差可能对患者诊疗方案造成较大影响,是影响风险分析结果的关键因素,需要对其危害程度进行详细分析。在输出定量指标时,宜提供与定量指标相关的其他辅助信息,尽可能降低定量结果错误或偏差导致的诊疗决策错误的风险(详见附件1)。
已上市的MR系统通过变更注册申请新增AI软件功能,可能会导致原有产品或功能的预设参数、扫描方式、用户操作习惯等发生较大变化,申请人应对相关风险予以识别并采取必要措施。
2. 产品技术要求及检验报告
依据AI软件功能的临床用途,预期对产品安全有效性产生重要影响的项目,宜在产品技术要求中制定相应的、具体的性能指标条款,且条款内容需要准确、简要、客观的描述其所实现的产品功能。
以图像降噪功能为例,宜按照用户可选的图像降噪级别,分别验证各级输出的图像质量。其他宣称具有改善图像质量或提升成像速度等相似用途的软件功能,均建议参考以上示例,制定适宜的性能指标条款。若软件功能的运行时间是影响产品临床使用的重要因素,则建议选取典型应用场景并规定相应的性能效率要求。
此外,申请人需要说明AI软件功能的使用条件或限制条件,以及检验用线圈、适用部位、成像序列及扫描参数等重要内容,并提供检验典型性的必要说明,具体示例详见附件2。
3. 研究资料
3.1 软件研究
3.1.1 软件
软件研究报告需要列表描述采用AI技术的产品核心功能和核心算法,宜提供专题研究资料。申请人应依据AI软件功能的技术特点、风险程度和应用场景,开展相应的软件测试,并保证软件验证和确认的质量。
若AI软件功能已在境外获批上市,建议提供相关产品功能的境外上市批件,以及境外上市申报提交的软件研究资料。
涉及定量计算的软件功能,需要提供其输出结果的准确性、一致性等方面的评价资料(详见附件1)。
3.1.2 网络安全
若AI软件功能具有远程访问与控制接口,或采用了云计算、移动计算等《医疗器械软件注册审查指导原则(2022年修订版)》第七章中提及的其他相关功能,需要结合产品预期用途、使用场景和核心功能,基于保密性、完整性、可得性等网络安全特性,对相关风险予以重点关注。
4. 其他资料
申请人在开展MR系统AI软件功能的评价研究时,宜参考《人工智能医疗器械注册审查指导原则》的适用内容,重点关注训练数据质量控制、算法泛化能力、临床使用风险等关键因素,并结合《医疗器械软件注册审查指导原则》、《医疗器械网络安全注册审查指导原则》、《医疗器械生产质量管理规范独立软件附录》等规范性文件的要求,提供专题研究资料。
除上述通用要求之外,基于MR成像原理及其图像固有特征,建议申请人参考下文内容对AI软件功能进行充分评价。
4.1 算法原理和实现过程
申请人应针对具体软件功能描述所用AI技术和涉及的产品模块。一般而言,仅用于前处理或后处理的AI软件功能的算法原理和实现过程存在较大差异。
考虑到可追溯性、可解释性等AI技术难点尚未完全解决,申请人需要重点关注算法原理,以及所用算法与MR成像物理过程的相关性(若适用),避免AI算法产生非预期的图像失真等类型的错误(例如:信号丢失、图像分辨率劣化、病灶及周围组织形态改变等)。
4.2 训练数据和归一化、泛化能力
MR图像的像素值通常反映的是人体组织间相对变化程度,并不直观对应于某个明确的物理量(例如:CT图像的HU值),难以直接用于定量分析。除了人群因素影响(地域、年龄、性别等),即使是对相同患者和部位进行扫描,MR设备的型号、场强、操作者等诸多因素均会导致图像产生较大差异,不同序列采集图像之间直接比较像素值也缺乏实际意义。上述问题源于MR成像技术本身,也源于临床缺乏标准化扫描协议,进而影响AI软件功能的泛化能力。
运行于MR系统计算平台的AI软件功能,一般与MR系统源自同一制造商,可以在多个MR系统上进行部署,同时也存在集成第三方现成软件实现AI赋能的情况。针对复杂应用环境,AI软件功能的训练数据除了满足一定的规模要求之外,还需要充分考虑数据的多样性,包括扫描方式(2D/3D、平扫/增强、扩散加权、MRA等)、扫描参数(场强、层数、层厚、层间距、成像矩阵等)和图像质量(伪影、噪声等)等因素,以及不同MR系统和制造商的影响,以保证AI软件功能面对临床实际图像具有良好的归一化能力。若适用,归一化能力可以采用定量指标进行评价,例如:选取不同来源的图像进行归一化处理,并对所得图像的像素均值、方差、极值、直方图形态等进行测试分析。
对于某些图像处理算法,可能采用自然照片等其他模态图像进行预训练,通过迁移学习等方式,生成适合MR图像的最终模型。受限于MR图像获取难度较大,采用类似策略可以快速扩大训练数据集规模,提升模型性能,但是需要关注其输出图像是否符合预期质量要求,以及验证方法的合理性。若适用,需要重点关注数据扩增方法的合理性,以及数据扩增对模型训练造成的潜在不良影响,对数据偏倚等风险采取有效控制措施,具体内容详见《人工智能医疗器械注册审查指导原则》。
4.3 验证与确认
4.3.1 软件功能验证
AI软件功能应按照设计需求及功能定义,参考典型应用场景开展验证工作。建议关注AI算法导致的变化(产品功能、工作流程等),结合输入输出特征,合理规定测试条件,完成软件功能的整体验证,确认相关变化符合设计需求。一般而言,与传统方法或非AI赋能的其他方法相比,AI软件功能的综合评价结果应至少是非劣效的。
4.3.2 软件功能确认
一般需要客观证据证明AI软件功能可以满足用户需求和预期目的,包括软件确认测试、临床使用、设计评审等系列活动。建议按照具体设计需求,在真实或模拟临床应用场景下实施软件功能确认。
4.4 关键技术特征
4.4.1 定量计算
按照难易程度,定量计算可大致分为两类:简单定量计算功能,常用于直接客观测量的物理量(长度、角度、面积等),宜明确测量范围、误差等指标要求;复杂定量计算功能,常用于涉及间接测量的对象和场景,包括病灶分割、物质分解和量化等。具体内容详见附件1。
以MR图像数据的定量计算为例,输入图像质量及扫描参数(层厚、层间距、层内分辨率等)可能对输出结果产生较大影响[2],需要采取相应措施(例如:增加图像归一化等预处理环节;对测量结果及偏差给予必要的用户提示等)。此外,建议结合应用场景和目标用户,合理选用计量单位,例如:相对于物理长度单位,采用像素数量作为计量单位,在某些情况下可能更易于理解和使用。
4.4.2 多参数成像
采用多参数成像序列,以及特定的图像重建和处理方法,一次扫描可以获得多个具有诊断意义的参数指标。AI技术结合多参数成像,除了优化扫描过程,也可以最大化利用各个参数之间的互信息,进一步提升输出结果的准确性。
若适用,需要明确AI软件功能兼容的多参数成像序列,详细描述标准操作流程和具体要求,并全面评估其鲁棒性。例如:图像降噪功能是否适合多参数成像输出的所有图像类型;如果部分图像或参数缺失而导致输入数据不完整,基于多参数成像的定量分析功能是否具有防止输出错误结果的相应措施。
4.4.3 拟合其他模态图像数据
通过特殊采集和处理的MR图像,可以用于拟合生成CT图像(以下简称合成CT),类似应用还包括拟合生成DR图像等。
MR图像的软组织对比度较好,适合放疗靶区勾画以及图像引导,但是存在像素值绝对定量困难等问题。采用AI技术对MR图像进行HU值预测,获得的合成CT图像保留了软组织对比度优势,预期可以替代真实CT图像用于放疗计划和模拟。合成CT图像一般需要特定的扫描序列和处理方法,例如:水脂分离成像等。
AI软件功能用于拟合其他模态图像时,需要详细说明输入数据和输出数据的具体要求,以及输出数据的具体临床用途。输入数据一般是MR图像和必要的成像参数(扫描序列、采集方式等)。输出数据一般是拟合生成的其他模态图像及其辅助信息,并需要符合预期的质量要求。
(三)产品说明书和标签样稿
产品说明书需要详细描述AI软件功能,包括临床使用的注意事项、局限性、警示或提示等重要内容,必要时可以通过专题章节进行讲解,以最大程度缓解AI技术的已知风险,也可参考附件1的适用内容和要求。
(四)体系考核关注点
对采用AI技术的MR系统开展生产质量体系核查时,建议核查人员结合本审评要点第三章节内容,逐项梳理AI软件功能的清单,并重点关注设计开发资料。
五、《医疗器械安全和性能基本原则清单》各项内容的适用性
略