根据1 月 21 日发表在NPJ Digital Medicine上的一项研究,在临床试验中与皮肤科医生匹敌或优于皮肤科医生的 AI 黑色素瘤检测器在通往患者护理现实世界的道路上跌跌撞撞。
挫折发生在加州大学旧金山分校的一项实践证明研究中,研究人员通过计算“压力测试”将经过实验室验证的算法用于确定人工智能在不同患者人口统计中的普遍性。
这些测试使用了真实世界的皮肤病照片和卷积神经网络 (CNN),这些网络是通过与任何特定护理部位无关的训练、评估和验证协议开发的。
资深作者 Maria Wei、医学博士、博士及其同事发现,自动模型会因相同病变的连续照片而被抛弃,并会因旋转照片等简单的变化而感到困惑。
这些类型的变化导致模型为多达 22% 的皮肤图像带回了假阳性或假阴性诊断。
据此,Wei 和合著者得出结论,AI 黑色素瘤检测器在初始临床试验中与经验丰富的皮肤科医生并驾齐驱,“需要进一步验证计算压力测试,以评估临床准备情况。”
“虽然 CNN 模型几乎已准备好增强临床诊断,但可以通过评估它们对重复拍摄的相同病变的图像和旋转或以其他方式转换的图像的校准和稳健性来最大程度地减少潜在的伤害,”Wei 及其同事写道。“我们的研究结果支持将模型稳健性和校准报告作为临床使用的先决条件,以及报告敏感性、特异性和准确性的更常见惯例。