在“医疗器械AI+”浪潮推动下,我国AI+医学影像呈现出如火如荼的发展态势。目前,我国AI医疗器械研发主要集中于肺结节等肺部疾病和糖尿病视网膜病变影像诊断领域。企业非常关注肺结节AI诊断类产品的临床试验设计。那么,肺结节AI诊断类产品临床试验评价指标如何选择?进行临床试验时需要注意哪些问题?本文将展开探讨,以供参考。
肺结节为影像学表现为直径≤3厘米的局灶性、类圆形、密度增高的实性或亚实性肺部阴影。肺结节可能是肺部恶性肿瘤,也可能是良性疾病(如感染或非感染因素导致的炎症性疾病)。根据《肺结节诊治中国专家共识(2018年版)》,我国推荐肺癌高危人群使用低剂量CT进行肺结节筛查,以早期诊断肺癌。
适用范围
产品预期的适用范围是产品研发的核心要素之一,对临床试验的设计方向有举足轻重的影响,同时也是判断产品临床价值的重要依据。对于肺结节AI诊断类产品,其作用对象为患者CT影像中的“肺结节”,因此制定适用范围时,建议以“肺结节”作为描述对象,如产品适用于肺部CT薄层扫描时对肺结节进行识别、分类及测量,在临床上为肺结节筛查时提供辅助。不建议以“疾病”作为描述对象制定适用范围,因为患者是否有肺结节与是否罹患肺癌或其他肺部疾病有时并没有必然关系。
研究人群
基于肺结节AI诊断类产品一般的使用环境,推荐选择肺癌高危人群进行临床试验,如年龄40岁以上、吸烟量大于20包/年、有环境或职业暴露史等。
需要注意的是,AI诊断类产品的临床性能受训练集类型及质量的影响较大,在产品研发时就应明晰产品的预期使用人群及环境,根据预期的使用情况选择产品的训练集。如产品预期用于低剂量CT的肺结节筛查,则训练集中的数据也应是来源于肺癌高危人群筛查的低剂量CT数据,同时在临床试验时也应选择肺癌高危人群的低剂量CT数据进行验证。
评价指标
对于一般的诊断试验而言,主要评价指标包括灵敏度、特异度、阳性预测值及阴性预测值等。这些评价指标一般以受试者为单位进行计算,但肺结节AI诊断类产品针对的测量对象是CT影像上单个的肺结节,因此,使用“肺结节”作为计数单位对此类产品开展检测灵敏度评价更为合适。此时产品的灵敏度应被定义为:产品判断正确肺结节的数量占所有正确肺结节数量的百分比。其中“正确的肺结节”将由一个第三方专家组结合AI诊断结果、人工阅片结果及患者病史等资料进行判定。值得一提的是,因为肺结节AI诊断类产品一般仅对肺部CT影像上的结构特征做出“是否为肺结节”的判定,而不会对非肺结节的结构做出“非肺结节”的判定,所以当使用“肺结节”作为计数单位时,此类产品并没有特异度这个评价指标。
从AI产品的技术特点考虑,可以预知此类产品相对于人工阅片可能具有更高的阳性检出率,特别是针对5毫米甚至3毫米以下的微小结节,但是较高的阳性检出率往往提示产品具有相应较高的假阳性风险。因此,在进行临床试验时,除需评价产品的灵敏度外,还需要评价产品的假阳性风险,以全面权衡产品上市后的“风险-获益”比。
此类产品的假阳性风险一般通过“假阳性指数”进行评价,即患者平均进行一次CT扫描,产品判断出的“假结节”数目。同理,“假结节”也将由一个第三方专家组进行判定。
通过上述试验比较AI与人工阅片的灵敏度及假阳性指数,可以客观评价AI产品本身的临床诊断性能。鉴于AI产品在临床上更多用于辅助诊断,为进一步评价产品的临床价值,控制产品的假阳性风险。在进行此类临床试验设计时,还需增加一个“AI+人工联合阅片组”。即在AI与普通研究者单独完成所有受试者的阅片后,在保持受试者背景信息盲态的情况下,普通研究者再结合AI的诊断结果对所有受试者进行重新阅片。通过对“AI+人工联合阅片”“单独人工阅片”“单独AI阅片”的灵敏度及假阳性指数进行组间比较,可以综合评价AI产品的临床价值,衡量产品上市后的“风险-获益”比。
注意问题
一是肺结节的良恶性。部分肺结节AI诊断类产品还能出具“结节是否良恶性”的诊断结果。这种情况下,按照一般的诊断试验思维,需要与病理结果等金标准对比。但当AI诊断类产品判断一个受试者存在良性结节时,此时为了验证判断结果的正确性,需对可能患有良性疾病的受试者进行有创病理切片检查,而该操作并不符合临床实际及伦理要求。因此,针对能出具“结节是否良恶性”诊断结果的AI诊断类产品,其临床试验以“影像学上的良恶性”作为金标准更为合理。
二是盲法、中心化阅片及研究者资质。为充分控制研究者的评价偏倚,此类产品临床试验的盲法及中心化阅片尤为重要。盲法主要包括受试者信息盲态、影像诊断信息盲态等,试验中不同角色需要保持的盲态不同,临床试验方案中应对盲法有具体的描述。另外,此类临床试验应建立独立的中心阅片小组(即第三方专家组)对CT影像数据进行判读,在中心化阅片的过程中,需要保证原始数据的可溯源性。
由于影像学数据判读的正确性很大程度上取决于研究者的阅片经验,故此类临床试验对研究者的经验及资质有较高的要求,一般建议人工阅片组的研究者至少有5年的阅片经验,而专家组中的阅片专家则至少需有10年以上的阅片经验。因此,研究者的选择及临床中心的筛选是此类产品临床试验的难点之一。 (作者:广州奥咨达医疗器械技术股份有限公司 招仲恒)