进口AI医疗器械中国人群验证的核心审评考量
国家药品监督管理局医疗器械技术审评中心近日发布了《“器审云课堂”线下辅导共性问题》的共性问题解答,其中针对系列问题中的第6项作出如下回复:
问题6:对于人工智能医疗器械,进口产品可否只拿中国人群数据做验证与确认?
答复:根据产品特点和设计开发情况开展相应验证与确认活动,若中外差异风险可接受则提交原产国验证与确认资料即可,若中外差异风险不可接受则需提供基于中国人群的验证与确认资料,必要时还需基于中国人群数据重新进行算法训练以及验证与确认。
这一官方答复直击了跨国企业将人工智能软件引入中国市场时的核心法规痛点:数据集的人种与流行病学分布差异。对于进口AI产品,一味依赖原产国数据或盲目补充境内临床验证均会偏离合规轨道,注册成败的关键在于对“中外差异风险”的科学量化与论证。
核心观点摘要: 针对进口产品,无需一刀切强制提供境内数据。企业需基于算法特征深入评估流行病学等中外差异风险。若差异可控,原产国数据即可满足要求;若差异显著,则必须开展针对性的进口AI医疗器械中国人群验证,甚至面临本土算法重训。
进口AI医疗器械中国人群验证的触发条件与风险评估
探讨“中外差异风险”需回归到模型泛化能力的底层逻辑。人工智能算法的准确性高度依赖于训练数据的分布特征。在技术审评中,审查重点往往聚焦于目标疾病的中国患者基线(如解剖结构偏好、生理指标阈值、特定并发症发病率)是否与外资企业的原始训练集存在统计学上的显著偏倚。企业在参考诸如2023年第三次医疗器械产品分类界定结果等分类界定文件确立的产品属性与管理类别后,必须在软件研究资料中详尽对比境内外目标人群的异同性。
如果风险评估流于形式,未能实质性识别出关键的生物学或影像学差异而强行采用全境外数据申报,极易面临严厉的发补意见。轻则要求补做境内的回顾性交叉验证,重则因适用人群边界模糊被直接退审。与评估双极头半髋关节置换适用范围等传统器械的物理尺寸匹配性逻辑同理,AI软件的底层数据特征必须与中国患者的真实生理画像严格咬合。
应对数据本土化挑战与算法重训的临床设计
当差异风险被判定为不可接受时,单纯的小样本测试集扩充通常无法弥补模型本身的偏差。答复中明确指出“必要时还需基于中国人群数据重新进行算法训练”,这意味着核心算法框架的重大变更。一旦触发该条件,既往在境外完成的计算机辅助决策产品临床设计与确认结论可能全部失效,企业必须按全新产品形态在中国境内从零启动数据的采集、清洗与标注工作。
因此,在项目引入的极早期阶段,前置性地调用境内小样本测试集进行模型性能的“摸底评估”至关重要。例如在执行类似肺结节CT图像辅助检测软件注册审查相关指导原则时,由于中国肺结核等陈旧性病变的高发特征,欧美原产数据集极易产生高假阳性率,直接引用的合规阻力极大。在跨国算法落地国内的过程中,精准把握境内外数据等效性论证的尺度是控制时间成本的核心,建议企业在立项初期即寻求钦思咨询的前瞻性法规评估与临床合规支持,以规避开发路径的重大偏离。