人工智能医疗器械对抗测试要求及样本量判定

国家药品监督管理局医疗器械技术审评中心近日发布了《“器审云课堂”线下辅导共性问题》的共性问题解答,其中针对系列问题中的第5项作出如下回复:

问题5:对于人工智能医疗器械,对抗测试和压力测试是否需要对非核心功能相关算法进行测试?对抗测试集样本量有何要求?
答复:对抗测试和压力测试原则上仅用于核心功能的评价,对抗测试集样本量原则上与测试集样本量在同一数量级。

上述答复清晰界定了AI医疗器械在进行算法鲁棒性验证时的边界与尺度。明确区分核心与非核心功能的测试要求,不仅为企业减轻了不必要的验证负担,也突出了审评对高风险核心算法安全性的绝对聚焦。

核心观点摘要: 落实人工智能医疗器械对抗测试要求需把握两大原则:首先,测试对象严格限定于核心功能,无需向非核心辅助功能延伸;其次,对抗测试集的样本量必须与常规测试集保持在同一数量级。此举旨在确保算法在极端或受干扰条件下的鲁棒性验证具备充分的统计学说服力。

人工智能医疗器械对抗测试要求的底层逻辑与合规痛点

在医疗器械软件的验证与确认环节,对抗测试与压力测试是评估模型防御恶意干扰及极限数据处理能力的关键技术手段。在以往的申报项目中,部分企业制定测试计划时容易陷入“全面铺开”的误区,将大量算力和周期消耗在诸如图像显示优化、系统底层交互等非核心功能上。此次审评尺度明确指出,测试资源必须精准聚焦于产品的软件核心算法。若偏离这一重心,企业不仅会白白拉长研发周期,更极易因核心功能的验证深度不足,在技术审评阶段遭遇“算法安全性评价不充分”的发补意见。

另一方面,样本量是支撑测试结论科学性的基石。部分申报方出于降低成本的考量,仅抽取极少量数据进行对抗验证,这种做法显然无法真实反映模型在复杂临床场景下的表现。监管要求“同一数量级”的实质在于,如果常规测试集包含上千例样本,对抗测试集也必须达到相近的规模,从而有效排查出微小数据扰动可能导致的算法大面积失效风险。

延伸关注:基于临床场景的算法验证策略闭环

构建科学的测试方案必须回归产品的实际临床应用场景。以医学影像辅助诊断AI为例,其输入数据往往受到前端采集设备物理参数的深刻影响。在设计对抗样本时,除了算法层面的噪声添加或形变处理,还需要充分考虑数据源头的物理变异,例如符合CT设备典型运行条件技术要求的不同扫描参数(如层厚、管电压、螺距等)带来的图像质量波动。这意味着对抗测试不仅要在数量级上达标,更要在临床真实世界变异特征的覆盖度上满足要求。

建议企业在规划整体软件验证方案时,严格对照现行的人工智能医疗器械注册审查指导原则,确保对抗干扰策略的设计、压力测试边界条件的设定均与产品的预期用途和已知危险隐患形成严密闭环。面对复杂的算法验证要求与统计学路径选择,企业可依托钦思咨询的资深法规技术团队,通过前置性的合规风险干预与方案定制,保障软件注册材料高质量满足国家局的审评标准。

类似文章