2025年宫颈细胞学AI软件临床评价：非劣效+优效性的试验设计

国家药品监督管理局医疗器械技术审评中心近日发布了《宫颈细胞学数字病理图像计算机辅助分析软件临床评价要求》的共性问题解答：

宫颈细胞学数字病理图像计算机辅助分析软件是指在医疗机构使用，对宫颈细胞数字病理图像进行全片分析，从而辅助执业细胞学病理医师进行宫颈细胞学检查的产品。该类产品的临床试验应以专家组病理医师显微镜阅片结果为临床参考标准，重点评价本软件辅助病理医师数字阅片与临床参考标准的一致性水平和病理医师独立数字阅片与临床参考标准的一致性水平，以及软件辅助判读和病理医师独立阅片的时间效率。
基于现有认知，病理医师独立数字阅片与专家组病理医师显微镜阅片的一致性水平较高，软件辅助病理医师数字阅片的临床价值在于缩短病理医师阅片时间从而提升阅片效率。因此，临床试验中，软件辅助病理医师数字阅片相较于病理医师独立数字阅片与临床参考标准的一致性水平一般应满足非劣效的要求，对于时间效率评价则应确认其优效性。

我们来对其进行解读：

以人工智能（AI）为基础的计算机辅助分析软件，正在深刻改变病理诊断的模式。对于用于宫颈细胞学数字图像分析的AI软件，其临床评价的设计需精准体现其在真实临床工作流中的价值。因此，设计一场科学、严谨的医疗器械临床试验，以全面验证其安全性（准确性不降低）和有效性（效率提升），是产品获批上市的关键。

试验设计的基石：临床参考“金标准”

此类临床试验的“最高裁决标准”，即“金标准”，被明确定义为：由专家组病理医师对原始玻璃片进行显微镜阅片的结果。所有其他阅片方式，无论是病理医师独立进行数字化阅片，还是在AI软件辅助下进行阅片，其准确性都将与这一金标准进行比较。

“双重目标”：临床试验的核心评价终点

临床试验的设计需要围绕一个“双重目标”展开，旨在同时回答关于“准确性”和“效率”这两个核心问题。

评价终点一：诊断一致性水平

试验需要设置两组对照，分别评价并比较以下两种情况与“金标准”的一致性（或符合率）：

病理医师独立数字阅片 vs. 金标准
软件辅助下的病理医师数字阅片 vs. 金标准

评价终点二：阅片时间效率

试验需要精确记录并比较，在处理相同病例时，软件辅助阅片与病理医师独立阅片所花费的时间，以量化软件对效率的提升作用。

“非劣效+优效性”的统计学假设

基于对该类软件临床价值的现有认知，其临床试验的统计学设计应遵循一个“非劣效+优效性”的组合假设。

诊断一致性：必须满足“非劣效”

基本认知：病理医师在数字化阅片系统上独立阅片的准确性，通常已能达到很高的水平。
软件价值：AI软件的核心价值在于辅助和提效，而非颠覆性地提高准确率。因此，对其最基本的要求是“不添乱”——即不能因为软件的辅助，而导致医师的诊断准确性出现不可接受的下降。
统计学要求：因此，在一致性评价上，试验需要证明“软件辅助阅片”与“病理医师独立阅片”相比，其结果与金标准的一致性水平是非劣效的。

时间效率：必须证明“优效性”

基本认知：AI软件能够被临床接受并广泛应用的核心驱动力，是其能够显著缩短阅片时间，将病理医师从海量阴性切片的重复性劳动中解放出来。
软件价值：这被认为是其主要的临床获益点，也是其软件核心算法有效性的直接体现。
统计学要求：因此，在时间效率评价上，试验则必须证明“软件辅助阅片”相比于“病理医师独立阅片”，其效率是优效的，即阅片时间显著缩短。

钦思咨询临床方案建议

总而言之，宫颈细胞学AI软件临床评价需要一个复杂的“非劣效+优效性”组合设计。这一设计科学地反映了产品“保证安全、提升效率”的临床定位。企业在制定临床试验方案和统计分析计划时，必须精准地围绕这两个核心终点展开，构建全面、可靠的临床证据，以满足监管机构对该类创新产品的审评要求。

宫颈细胞学AI软件临床评价的核心终点与设计

试验设计的基石：临床参考“金标准”

“双重目标”：临床试验的核心评价终点

“非劣效+优效性”的统计学假设

钦思咨询临床方案建议

热原和细菌内毒素的区别与关联

如何科学确定医疗器械临床试验样本量？关键要素解析

软性亲水接触镜注册单元划分指南

牙齿漂白材料注册单元的四大划分原则

新医疗器械分类界定的两种申报路径

牙科附着体产品注册单元划分指南：结构类型与注册管理要点解析

试验设计的基石：临床参考“金标准”

“双重目标”：临床试验的核心评价终点

“非劣效+优效性”的统计学假设

钦思咨询临床方案建议

类似文章