摘要
目的:目前已有多种人工智能(AI)系统可用于在彩色眼底照片(CFPs)中筛查糖尿病视网膜病变(DR)。大多数现有系统基于单一特定人群的传统CFP数据集开发。本研究旨在评估训练数据多样性(即来自不同人群的数据)对AI泛化能力的影响。通过在新设备(共聚焦DRSplus,iCare)获取的未见数据上的性能来评估泛化性。
方法:开发了两种算法用于检测中度及以上DR。单数据集(SD)算法使用单一数据集训练:OPHDIAT(法国,176,147张图像)。多数据集(MD)算法使用三个数据集训练:OPHDIAT、Kaggle(美国,31,648张图像)和DDR(中国,8,763张图像)。MD算法可选使用1,578张DRSplus图像进行微调(微调MD)。所有算法在378张独立DRSplus测试图像上评估。
结果:在DRSplus测试图像中检测至少中度DR的曲线下面积(AUC),SD算法为0.9856,MD算法为0.9908。微调后的MD算法性能下降(AUC=0.9812)。在灵敏度固定为0.9412时,SD算法特异度为0.9244,MD算法为0.9535,微调MD算法为0.9012;在特异度固定为0.9767时,SD算法灵敏度为0.7647,MD算法为0.8824,微调MD算法为0.6471。
结论:尽管传统CFP与共聚焦DRSplus图像存在视觉差异,基于传统CFP训练的算法在检测DRSplus图像中的中度及以上DR时仍表现良好。使用多人群数据训练的MD算法优于SD算法,表明数据多样性可提升AI泛化性。微调少量DRSplus图像未改善性能,进一步印证了泛化性优势。
本研究摘要发表于2023年ARVO年会(美国新奥尔良,2023年4月23-27日)。
阅读原文
检测中度及以上DR的受试者工作特征(ROC)曲线(SD算法、MD算法及微调MD算法在DRSplus测试图像上的表现)。点A、B、C和D、E、F分别表示算法在特异度0.9767和灵敏度0.9412阈值下的性能。