计算机辅助决策产品临床设计核心审查点
国家药品监督管理局医疗器械技术审评中心近日发布了《基于深度学习的计算机辅助决策产品临床试验设计类型如何考虑》的共性问题解答:
对患者是否患有目标疾病,从而对患者的分诊转诊提供辅助决策建议的产品,该类产品不给出具体病变情况,且无论辅助分诊结果为阴性、阳性,均需专业医师再一次对患者影像进行评阅,如糖尿病视网膜病变辅助分诊、肺炎辅助分诊、脑出血辅助分诊等各类目标疾病患者的计算机辅助分诊、转诊产品等,可以考虑采用单组目标值设计,主要评价指标可考虑产品辅助分诊结果的诊断准确度指标(如敏感度、特异度等,通常为患者水平)。
对目标疾病的病变病灶进行辅助检测的产品,如肺结节辅助检测产品、骨折CT 影像辅助检测产品等,临床试验建议采用对照设计,试验组为医师与申报产品共同检测,对照组为传统检测诊断方法(如临床医师的阅片/综合诊断)。主要评价指标考虑诊断准确度指标 (如敏感度、特异度、AFROC曲线、检出率等,一般灵敏度考虑病灶病变水平,特异度考虑患者水平)。临床试验比较类型应能够体现产品受益风险的可接受性,建议考虑优效性设计,如针对4mm以上肺结节CT影像辅助检测软件可考虑患者水平的特异度优效和病灶水平的敏感度非劣效。
我们来对其进行解读:
核心观点摘要: 针对计算机辅助决策产品临床设计,核心在于严格区分其预期用途是“分诊转诊”还是“病灶检测”。前者不提供病灶细节且需强制人工复核,可采用单组目标值;后者直接标记并输出具体病灶,则必须采用更为严苛的对照设计(如优效或非劣效),以验证产品相较于纯人工阅片的增益价值。
预期用途的边界决定临床试验评价路径
许多企业在立项初期,为了压缩临床试验的成本与周期,往往主观倾向于将产品定义为“辅助分诊”。然而,底层法规审评逻辑要求产品输出结果的颗粒度必须与其宣称的用途严丝合缝。一旦软件不仅给出了患者级别的阴阳性提示,还在系统界面上标出了具体的病灶位置、形态或进行了靶区勾画,这就实质上越界进入了“病灶检测”的范畴。在申报人工智能辅助检测医疗器械时,若存在此类功能越界却依然强行采用单组目标值设计,将面临极高的合规发补甚至退回风险。这种基于功能深度划分风险的审查逻辑,不仅适用于放射影像领域,其核心尺度与超声AI流程优化功能审评要点所强调的功能边界判定原则是高度一致的,即算法向临床输出的具象化信息量,直接决定了验证要求的严苛度。
如果在申报资料中,未能明确证明“无论分诊结果阴阳性均需专业医师再次评阅”的临床工作流闭环,或者软件实际输出的信息超出了单纯的转诊提示,审评机构将直接否定单组目标值设计的合理性,这往往意味着企业需要花费数百万资金和大量时间重新开展平行对照试验。
对照设计与核心评价指标设定的雷区
对于真正的辅助检测类产品,其临床设计的核心挑战在于证明附加价值。这里存在一个极易踩坑的错位:评价指标数据水平的选择。官方已明确点出,灵敏度通常需考核“病灶病变水平”,而特异度需考核“患者水平”。部分企业在起草临床方案时,未能对统计学假设进行精准拆分,导致收集到的数据无法真实反映临床受益。以肺结节CT影像软件为例,要求“患者水平的特异度优效”和“病灶水平的敏感度非劣效”,这就要求临床样本量和预期的界值设定必须经得起严密的统计学推敲。
针对正在推进此类医疗器械注册项目的研发团队,在设定比较界值时切忌照搬市面通用的固定参数,必须结合目标疾病的当前临床诊断基线水平进行反推验证。若在核心预设指标上存在不确定性,我们建议企业在完成初步的临床前性能验证和试验草案后,及时把握国家鼓励高端医疗器械创新发展的政策沟通窗口,积极申请前置技术咨询。钦思咨询深耕高端医疗软件类产品的法规策略,建议企业在遇到此类高难度试验设计分歧时尽早引入专业的合规研判,提前与审评中心对齐评价体系,锁定项目确定性。