医疗器械法规、注册、临床、体系认证、信息系统一站式服务
24×7服务热线:0571-86198618 简体中文 ENGLISH
当前位置:网站首页>关于我们>新闻动态
影像超声人工智能软件(流程优化类功能)技术审评要点(2023年第23号)
发布日期:2023-07-10 00:00浏览次数:1110次
《影像超声人工智能软件(流程优化类功能)技术审评要点》旨在指导注册申请人对影像超声产品中流程优化类人工智能软件功能注册申报资料的准备及撰写,同时也为技术审评部门审评注册申报资料提供参考。是对影像超声产品中流程优化类人工智能软件功能的一般要求,医疗器械注册申请人应依据产品的具体特性确定其中内容是否适用,若不适用,需具体阐述理由及相应的科学依据,并依据产品的具体特性对注册申报资料的内容进行充实和细化。

影像超声人工智能软件(流程优化类功能)技术审评要点

本审评要点旨在指导注册申请人对影像超声产品中流程优化类人工智能软件功能注册申报资料的准备及撰写,同时也为技术审评部门审评注册申报资料提供参考。

本审评要点是对影像超声产品中流程优化类人工智能软件功能的一般要求,医疗器械注册申请人应依据产品的具体特性确定其中内容是否适用,若不适用,需具体阐述理由及相应的科学依据,并依据产品的具体特性对注册申报资料的内容进行充实和细化。本审评要点不包括临床评价的要求。

一、适用范围

本审评要点适用于影像超声产品中流程优化类人工智能软件功能(以下简称“超声流程优化AI功能”)的注册。上述功能应由有相应超声诊断资质和能力的医生使用。上述功能通常集成于影像超声设备中,其产品分类依从于影像超声设备,按现行《医疗器械分类目录》,该类产品分类编码为06-07,管理类别为II类或III类;上述功能若集成于独立软件,分类编码为21-02,基于《人工智能医疗器械分类界定指导原则》,作为流程优化功能,管理类别为II类。

辅助诊断类超声AI功能由于尚无产品批准,缺乏审评经验,暂不纳入本审评要点,可参考适应的内容。

影像超声人工智能软件注册.jpg

二、产品简介

超声流程优化AI功能主要实现定位标准切面、生理结构识别与分割、自动测量、诊断流程自动化等功能,进而起到减少医生重复劳动、提高效率的作用,目前多见于妇产科胎儿、心脏的超声检查和频谱多普勒检查,也见于实质器官、肌骨、神经的检查,少见于彩色多普勒检查。以上提到的结构分割,仅限于分割正常组织结构(包括先天畸形或后天发育失常或受伤导致的正常组织结构发生异于常人的变化,如先天性心脏病),不用于分割疑似病灶组织结构,如甲状腺结节、乳腺结节,否则属于辅助诊断功能,不属于流程优化功能。对疑似病灶进行辅助识别和辅助诊断是超声诊断中的常见任务,该任务中病灶辅助识别不属于本要点讨论的流程优化功能。

不同于放射科影像设备的固定位置、标准参数的采集方式,影像超声需要超声医师自行寻找所需切面同时进行诊断,或为了观察到特定结构、病灶需要从多个角度不同切面进行观察,超声诊断标准化是一个重要问题。影像超声的诊断流程经常要求采集标准切面,在切面中找到指定生理结构或标志点,进行测量,通过与标准图谱或标准数据库对比作出诊断。有些诊疗流程规定须观察到的切面、结构、标志点、特征多普勒频谱以及相关测量非常多,如产科排畸检查、超声心动图检查,工作量大而重复,亟需自动化工具。相应的流程优化功能不但可以减少医生重复劳动提高效率,还有利于实现超声诊断标准化提高诊断质量。

不同于放射影像通常在医生已经对疾病有所怀疑时才进行检查,超声诊断的应用场景更广,在体检、定期检查、诊断、手术中均有应用。诊疗流程越靠前的检查,检查量越大,部分检查目的侧重于确认正常,并同时发现异常或定期观察进展。需求量越大、诊断流程越复杂的超声检查,流程优化功能的价值就越大。部分超声流程优化AI功能的临床风险相对较低,但其中的高风险因素必须予以重视。

三、参考文件

[1] 国家食品药品监督管理局.医疗器械说明书和标签管理规定:国家食品药品监督管理总局令第6号[Z].

[2] 国家药品监督管理局.医疗器械安全和性能的基本原则:国家药品监督管理总局公告2020年第18号 [Z]

[3] 国家药品监督管理局.医疗器械通用名称命名规则:国家药品监督管理总局令第19号[Z].

[4] 国家药品监督管理局.医用软件通用名称命名指导原则: 国家药品监督管理总局通告2021年第48号[Z]

[5] 国家食品药品监督管理局.医疗器械分类目录:国家食品药品监督管理总局公告2017年第104号[Z].

[6] 国家药品监督管理局. 人工智能医用软件产品分类界定指导原则: 国家药监局器审中心通告2021年第47号[Z]

[7] 国家药品监督管理局.医疗器械产品技术要求编写指导原则:国家药监局通告2022年第8号[Z].

[8] 国家药品监督管理局医疗器械审评中心.医疗器械软件注册审查指导原则(2022年修订版):国家药监局器审中心通告2022年第9号[Z].

[9] 国家药品监督管理局医疗器械审评中心.医疗器械网络安全注册审查指导原则(2022年修订版):国家药监局器审中心通告2022年第7号[Z].

[10] 国家药品监督管理局医疗器械审评中心.人工智能医疗器械注册审查指导原则:国家药监局器审中心通告2022年第8号[Z].

四、审评主要关注点

在参照的法规、规章、指导原则、标准的情况前提下,结合下列关注点开展技术审评。

(一)综述资料

1.产品名称

此类功能一般集成于影像超声主机或超声图像处理软件中,产品名称依从于所集成产品。功能名称可以包含英文,应保持同一功能的规范名称在产品资料中保持一致。功能名称相似的,应明确实质差异,如同名的不同代际功能,可以通过名称或版本号予以区别。

2.结构组成

集成于影像超声主机时,结构功能无需体现。集成于处理超声影像的独立软件时,结构组成应体现出包括AI的功能模块。

其他按照《人工智能医疗器械注册审查指导原则》在算法研究报告中提供算法基本信息,结合本产品特点应注意和细化的要求详见下文算法研究资料的算法基本信息。

(二)非临床资料

1.产品技术要求及检测报告

1.1规格信息

应给出软件发布版本和版本命名规则。软件版本命名规则原则上应涵盖算法驱动型更新和数据驱动型更新,明确并区分重大软件更新和轻微软件更新,其中重大软件更新列举常见典型情况。AI功能若是软件模块,若有单独的版本、版本命名规则均需说明。

明确AI功能可处理的超声影像输入,如超声机型、探头、成像参数、检查方式、检查部位、影像形式。超声机型和探头应明确制造商和型号,且应为国内上市的产品。成像参数应考虑频率、增益、深度、动态范围、焦点、帧频、谐波成像、多波束成像等,若是某探头用于某部位的默认参数,可以简化描述。影像形式明确单帧或序列图像,对全图处理还是需要先分割出特定区域,是否包括种子点、采样窗、患者病历(如年龄、性别、地域、主诉、病史等)等其他信息。相应内容应已通过算法影响因素分析论证。

若预期操作者包括超声医师之外的用户,应在此处予以明确。

1.2性能指标

以AI功能为单位(而不是算法)描述临床功能、使用限制、运行环境(若适用)、性能效率(若适用)。临床功能应简要描述输入输出,并在附录中提供典型界面图片,明确采用深度学习AI算法的部分;实现分类、分割功能和生成自然语言描述的枚举可给出的所有情况;明确AI输出的哪些内容可由医生修改。使用限制考虑从流行病学分布、预期应用场景、成像质量不佳或范围不够、易混淆图像、有影响的身体状态或疾病、植入物、先天或后天身体结构异常等方面简要描述。运行环境(含云计算)明确典型配置,包括硬件配置、外部软件环境、网络条件,仅运行在所申报超声主机上的AI功能,运行环境可不适用。性能效率明确软件在典型运行环境下完成典型核心功能的时间特性。

2.软件研究

申请人应依据《医疗器械软件技术审查指导原则(2022年修订版)》、《医疗器械网络安全技术审查指导原则(2022年修订版)》、《移动医疗器械注册技术审查指导原则》、《人工智能医疗器械注册审查指导原则》等指导原则,提交相应注册申报资料。

3.算法研究资料

应基于《人工智能医疗器械审查指导原则》第四章生存周期过程、第五章技术考量、第六章算法研究资料的所有相关要求提供算法研究报告或算法更新研究报告,认为不适用的应详述理由。不同功能应分别提供算法研究报告,一个功能中包括多个相对独立AI算法的建议分别提供算法研究报告,有工作流衔接关系的算法、功能应说明其关系,宜合并算法研究报告中相同相似内容,但验证与确认应分别进行。根据此类功能特点需要细化之处如下。以下要求主要针对基于深度学习等新一代人工智能算法的功能,采用传统模式识别算法的可供参考。

3.1算法基本信息

AI功能及其核心的AI算法穿插于检查流程中,在某些环节发挥作用。AI功能控制AI算法模块(可能不只1个)的启动、运行、停止、结果显示,以及与其他功能模块的配合。申请人应对功能和算法分别进行描述,由于超声检查流程的复杂性,应重视功能描述。

3.1.1功能描述

应从临床角度在说明常规诊断流程的基础上,明确常规流程的哪些环节被AI功能替代或是改变,从技术角度配合流程图详细说明功能如何控制各核心AI算法及相关模块完成功能。简述功能带来的临床价值,用于提高效率的功能,宜给出量化指标。

按照国家药监局发布的注册申报资料要求提供产品的适用范围、预期使用环境、适用人群、禁忌证,需与申报产品的性能、功能相符,并需与临床评价资料结论一致。使用环境明确预期使用的医疗机构类型、级别、科室及应用场景,如超声室常规检查、穿刺引导、麻醉引导、手术中等,适用人群应明确医生的专业(超声科、其他科室)、资质、能力水平(年资、培训),患者的年龄、性别、生理疾病状态(怀孕的明确孕龄范围)。

明确产品的设计依据,给出切面、结构、标志点、多普勒频谱等特征识别功能和测量功能所依据的医学图谱、诊疗指南等的名称和具体内容,并说明其权威性以及在我国的接受情况和使用情况。

涉及定位标准切面的,应明确针对实时扫查、存储的图像序列还是后处理重建图像,输出是否可为重建切面(即扫查自然生成切面之外的切面)。处理实时超声扫查的,明确扫查的帧率和图像稳定性要求,明确扫查过快图像不稳定时,功能如何处理和显示。

涉及多普勒频谱的,应明确取样窗放置要求(如位置、角度)。

涉及识别生理结构的,应明确可检出结构的最小、最大尺寸;是否需要先定位切面再识别结构,还是在扫查中直接识别结构;是否需要从不同角度切面观察同一结构,关注点有何差异。

涉及测量的,应明确测量的规则,宜展示各参数测量的起止点或区域,并可由医生调整。

明确算法输出的展示形式。以图像区域增强形式展示的,明确图像增强的方式,给出典型影像表现图像增强前后的图片。以提示框、分割区域勾画展示的,给出典型影像表现的图片,明确框画的规则,明确一帧中出现多个同样结构时分立或融合的规则。以成像区域外示意图或体标展示的,明确是否有提示医生注意或确认医生已注意到的方式,如闪烁、抖动、发声、点击确认等,明确是否仅在当前帧检出目标切面、结构时显示,还是出现后会延时显示,是否会自动记录检出目标的帧等。若有AI算法输出但并不进行展示的应进行说明,如作为默认项或作为中间结果参与后续处理再展示的。

涉及多个功能或算法串联的,明确各功能或算法启动、展示结果和退出的条件,例如满足条件后自动启动,或需点击按钮等启动后续功能。明确AI分析功能的激活时段,如仅在所选帧激活,在采集一段图像序列时激活,在患者一次检查的全程激活。

图像质量问题,如由于机器故障、扫查参数设置不合适、耦合不佳等原因造成图像模糊、过明过暗、结构失真、伪影等,以及存在治疗痕迹、测量/注释标记等图像问题,明确算法是否对存在上述情况的图像进行AI计算并给出结果。是否有图像质控模块,还是由医生评价图像质量以决定是否启动核心功能的AI算法。对于在图像质量不佳时仍运行AI算法的,宜有相关提示,并对结果可靠性可能降低给出提示。

明确在同一帧中切面或结构无法完整显示时如何处理,如不进行AI计算,或结合相邻帧,或无需出现完整目标也可识别。由于声窗和患者身材的限制,有时难以找到包括所有特征的完整切面,但由于超声检查的实时,小范围移动探头即可覆盖整个关注区域,检查到所有结构。如果功能设计为必须先找到完整切面,再启动找结构的算法,上述情况会导致功能无法正常运行,但只要考虑前后帧这一问题即可解决。

3.1.2算法描述

按照《人工智能医疗器械注册审查指导原则》明确每个核心AI算法的名称、类型、结构、输入输出、流程图、算法框架、运行环境等基本信息以及算法选用依据。

算法的输入应考虑但不限于机型、探头、成像参数、检查方式、扫查角度/切面/深浅、成像质量不佳或范围不足、流行病学分布、预期应用场景、易混淆图像、有影响的身体状态或疾病、植入物、先天或后天身体结构异常等。对于不同功能/算法,可能无需考虑上述所有方面,但应给出合理分析。机型考虑波束形成器、发射/接收通道数、成像算法等。探头考虑阵元数、频率、孔径、曲率半径、宽度、成像范围等。成像参数考虑频率、增益、深度、动态范围、焦点、帧频、谐波成像、多波束成像等。检查方式考虑体表、术中、腔内、超声内窥镜等。流行病学分布对不同功能可能差异很大,需要深入分析以保证算法设计满足临床实际,如某些生理结构、症状诊断需考虑性别、年龄、地域、疾病进展期等差异。预期应用场景考虑预期使用的医院级别、科室(如超声科、急诊科、麻醉科、手术室等),医生的资质、能力等。易混淆图像,如与预期图像相似或相关的图像,如同一切面或器官上的易混淆图像,其他器官与之类似的图像。有影响的身体状态或疾病:如产科胎龄,肺气肿对心脏检查的影响。其他因素已在本文其他部分有所描述。

算法输入应明确处理单帧还是序列图像(关联多帧共同输出结果,不是虽输入序列但仅处理单帧),对全图处理还是需要先分割出特定区域,是否包括种子点、采样窗、患者病历(如年龄、性别、地域、主诉、病史等)等其他信息。

应结合功能的特点,对以上因素进行性能影响因素分析,对于处理相应输入不能得出满足预期性能要求或未经验证的因素应考虑作为使用限制。

3.2算法风险管理

明确产品的软件安全性级别(轻微、中等、严重)并详述判定理由,提供算法风险管理资料。软件安全性级别可基于产品的预期用途、使用场景、核心功能进行综合判定,其中预期用途主要考虑用途类型、重要程度、紧迫程度等因素,使用场景主要考虑使用场合、疾病特征、适用人群、目标用户等因素。核心功能主要考虑功能类型、核心算法、输入输出、接口等因素。对于超声流程优化AI功能,还应考虑所优化流程的复杂程度、使用广泛程度,功能对现有流程的影响程度,算法的成熟度、性能、泛化能力,以及出现错误结果是否能够被医生识别纠正等。算法研究资料应与算法的软件安全性级别相适应。

3.3算法需求规范

提供算法需求规范文档,若无单独文档可提供软件需求规范,并注明算法需求所在位置。

明确算法训练数据集需求。样本量需考虑样本规模的充分性,明确样本总量及其确定依据。样本分布需考虑样本的科学性和合理性,应考虑机型、探头、成像参数、检查方式、扫查角度/切面/深浅、成像质量不佳或范围不足、流行病学分布、预期应用场景、易混淆图像、有影响的身体状态或疾病、植入物、先天或后天身体结构异常等。认为无需考虑的因素给出合理理由,应考虑但不计划考虑的因素应作为使用限制。训练数据宜纳入一定比例的易混淆样本和阴性样本,明确是预期图像扫查中临近区域易出现的样本,还是完全无关的样本。

明确各算法性能设计目标。结合算法特点、核心功能选择合理的评价指标,给出性能指标的限值要求及其设定依据。同一功能对于不同应用场景具有不同性能要求的,应分别规定。分类问题可考虑敏感性、特异性、阳性预测值、阴性预测值、准确率、一致率(如kappa)、F-measure、ROC-AUC等。多分类问题不能仅给出总体一致率,应对每一类给出敏感性、特异性等指标。多标签问题,应明确标签排序规则(如适用)。识别问题可考虑敏感性、特异性、ROC-AUC等,应明确识别正确的判定标准,如IoU、dice的阈值,并结合临床给出其合理性。分割问题可考虑交并比IoU、dice系数等,并给出识别准确性方面的指标,参考分类问题。不同算法即使有关联性,也应分别规定,重点关注最终输出结果的性能。

3.4数据质控

参考《人工智能医疗器械注册审查指导原则》四(二)数据收集、六(一)4.数据质控的要求提供相关资料。并注意:

3.4.1数据收集

明确采集数据样本的机型、探头、成像参数、采集时长(图像序列适用),以及来源机构、采集和被采集人员情况、采集时间,比较与算法训练数据需求的差异。流程优化功能的验证需要尽可能模拟使用过程,可能需要采集比AI诊断图像或序列更长的扫查序列,而不仅是训练核心算法的单帧图像。若存在这种情况,应在采集过程中予以说明。

3.4.2数据整理

明确经数据清洗弃用数据的原因和数量。数据预处理环节应采用典型图片/图像序列和流程图说明处理过程和每一步处理的结果。原始数据库的预处理过程若与产品中算法运行的预处理过程存在差异,应比较说明。

3.4.3数据标注

应列表给出标注、审核、仲裁人员的基本信息,如科室/专业、职称、工作年限、所在机构、培训考核情况、标注量,若有外国人员则需明确其资质要求。

标注规则应明确所依据的医学图谱、诊疗指南等的名称和具体内容,并说明其权威性以及在我国的接受情况和使用情况。若有存在争议的,或需要医生基于经验判断的,应分析其对标注一致性的影响。预期结构不能完整显示的,明确满足什么条件时进行标注,如何标注。

宜采用流程图介绍单张图片/单段序列的标注、审核、仲裁过程。若标注较复杂宜采用典型图片/序列加流程图说明每一步的标注内容以及特殊情况处理。图像序列明确逐帧标注,还是自动标注方式,若采用自动标注应予以详述。区域分割的标注,多人标注势必不完全一致,应配合图片说明如何融合多人的标注结果及其影响。简述全部图片标注的管理过程、时间周期,特别是标注周期内的质量评估。若用于不同功能做标注的数据集与数据量有所区别,应明确具体情况。

3.4.4数据集构建

对于标注前的基础数据库,标注后划分的训练集、调优集、测试集,应给出样本量和分布情况及其确定依据,以及集合划分的方法、依据。考虑“患者-结构-切面-图像/图像序列”层级(即某一人的某一结构,有不同切面的图像或图像序列),三个数据集原则上应在患者级两两无交,至少到结构级两两无交。若降低无交集的范围,应给出合理的理由。提供查重验证结果,以证实训练集、调优集、测试集的样本两两无交集。

样本分布应考虑机型、探头、成像参数、检查方式、扫查角度/切面/深浅、成像质量不佳或范围不足、流行病学分布、预期应用场景、易混淆图像、有影响的身体状态或疾病、植入物、先天或后天身体结构异常等因素。

可按照《人工智能医疗器械注册审查指导原则》的要求进行数据扩增,重点说明扩增方法和实现方式,分析扩增样本与真实样本的相似性,分析对算法的影响。采用生成对抗网络(GAN)数据扩增的,提供算法基本信息以及算法选用依据。

用于算法验证需采集扫查过程序列图像的,应参考以上要求另行说明序列图像特点、样本量、样本分布。

3.5算法训练

明确算法训练所用的评估指标、训练方式、训练目标、调优方式(若有),说明损失函数、主要超参数的确定思路,提供训练数据量-评估指标曲线等证据以证实算法训练的充分性和有效性。若使用迁移学习,应满足AI导则的要求。

3.6算法验证与确认

3.6.1算法性能评估

基于测试集提供设计需求要验证的算法性能指标、重复性与再现性、鲁棒性/健壮性等算法性能评估结果,以证明算法性能满足设计目标。亦可基于第三方数据库开展算法性能评估。可运行于不同的运行环境的功能,若运行环境不具有兼容性,应分别进行软件验证、性能评估和实时性验证。

用于提高效率的功能应开展效率提高的定量验证,建议采用多阅片者多病例(MRMC)研究的方式进行验证。

对实时超声图像进行处理的,准确性可通过离线方式验证,实时性须通过在线方式验证,可提前通过离线验证了解处理单一样本的时间,再通过在线实时验证确认软件集成后可以达到预期效率并保证超声采集和诊断流程的稳定性可满足正常使用。

分类问题和多标签问题,若可识别的种类较多,应给出完整的混淆矩阵,对在表格对应的行列给出每类的敏感性、特异性、阳性预测值、阴性预测值、准确性、一致率,分析各类出现假阳性、假阴性的情况(如集中在某一特定类型则说明该类是目标类的易混淆类),制定相关注意事项。

若在训练过程中使用数据扩增,应在调优集上比较使用与不使用数据扩增对算法性能的影响。

算法输出展示形式的临床使用效果验证。以图像增强、提示框、分割区域勾画形式展示的,应评价是否影响正常的超声诊断,如图像画质的改变,标记对超声图像的遮挡、干扰等。以图像区域外给出示意图或体标展示的,应评价是否可确保已引起医生注意。

3.6.2算法性能影响因素评估

应进行算法性能影响因素分析以提升算法可解释性,详述影响算法性能的主要因素及其影响程度,基于分析结果明确产品使用限制和必要警示提示信息。

性能影响因素应考虑机型、探头、成像参数、检查方式、扫查角度/切面/深浅、成像质量不佳或范围不足、流行病学分布、预期应用场景、易混淆图像、有影响的身体状态或疾病、植入物、先天或后天身体结构异常等。认为无需考虑的因素给出合理理由,应考虑但不计划考虑的因素应作为使用限制。

对于某一影响因素,可建立多个包含单一因素的子集和一个包含所有子集的合集(必要时)分别进行性能测试,统计分析各集合性能差异,评价影响程度。对于预期对性能有显著影响且存在相互关联的不同影响因素,也可建立包含多因素的子集进行分析。各集合应保证具有足够的样本量,性能评估结果应给出中心值和95%置信区间。各子集宜以产品研发时标注数据库中的测试集为主,当某一待评价因素的样本量较少或没有时,可补充其他数据集的样本,如临床试验、真实世界数据、第三方测试等的样本,但合并在一个子集的数据其标注规则应基本一致。简述各子集的构建情况,如数据来源、标注过程、标准规则、样本分布等。

3.6.3算法性能综合评价

结合算法训练、算法性能评估、临床评价等结果开展算法性能综合评价,针对训练样本量和测试样本量过少、测试结果明显低于算法设计目标、算法性能变异度过大等情况,对产品的适用范围、使用场景、核心功能进行必要限制。

4.用户培训

对于软件安全性级别为严重级别、在基层医疗机构使用的产品,原则上需单独提供一份用户培训方案,包括用户培训的计划、材料、方式、师资等。由于超声流程优化AI功能的使用者一般具备按照常规流程进行超声诊断的能力,因此培训重点宜放在AI功能与常规功能流程和操作的差异上,以及功能的使用限制和注意事项,如无法正常运行算法或算法性能下降的情形。

培训考核应纳入适当的医生数量和测试样本数量,被考核医生应与功能的预期使用者在培训前具有等同能力,以验证培训方案的可行性。

(三)说明书注意事项

根据算法性能综合评价结果,对产品的适用范围、使用场景、核心功能进行必要限制,并在说明书中明确产品使用限制和必要警示提示信息。必要时,可给出数据采集设备和数据采集过程相关要求,算法训练验证情况的总结。

标签:影像超声人工智能软件注册


Copyright © 2018 医疗器械注册技术咨询 浙ICP备18025678号 技术支持:熙和网络

新闻动态