
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
受试者工作特征(receiver operating characteristic, ROC)曲线是根据一系列不同的二分类方式,以敏感度(真阳性率)为纵坐标,1–特异度(假阳性率)为横坐标绘制的曲线。ROC曲线分析是一种常用的统计学分析方法,在医学研究中主要用于评价诊断试验的效能[1]。随着ROC曲线分析在医学诊断应用中的不断深入,该方法逐渐被医学影像学研究人员广泛关注并使用[2]。大量的研究和实践表明ROC曲线分析是目前国际公认的评价两种或两种以上医学影像学诊断系统效能是否存在差异的最有效的方法[3]。因此本文从其发展历史、必要性、分类、主要评价指标及临床具体应用等方面对ROC曲线分析进行总结和概述,并给出常用的ROC曲线分析工具及各工具的优缺点,目的在于给以后需要使用ROC曲线分析的研究人员提供较为方便和全面的资源。
ROC曲线分析起源于20世纪50年代的统计决策理论,最早用来描述信号和噪声之间的关系,在20世纪60年代中期被Lusted[4]首次应用到医学诊断学,随后在基础医学和临床医学中受到广泛重视,自20世纪80年代起该方法被广泛用于评价医学诊断性能[5]。目前ROC曲线分析主要用于医学诊断的评价、癌症的筛选、实验室医学及精神病学研究,特别是在医学影像学诊断的准确性评价方面的应用显得更为重要,并且为新技术、新设备的推广使用提供了强有力的判断证据。
医学影像诊断的实现是比较复杂的,诊断试验(影像学方法)和试验者(诊断医师)共同构成一个诊断系统,二者决定着诊断的效果。影响诊断系统的因素是多种多样的,其中胶片的质量、成像参数的选择、正常解剖结构的误认及伪影等都可造成假阳性结果;而病灶过小、影像的分辨率差、正常结构掩盖病灶等因素可能会导致假阴性结果。此外,在实际的临床工作中,不同医师的诊断水平也在很大程度上影响诊断结果,因此假阳性和假阴性结果的出现几乎是不可避免的。如何评定一种影像手段或者一个诊断医师的诊断准确性是目前临床和基础医学研究关注的重点。
ROC曲线分析的最大特点是将敏感度和特异度整合成一个指标,该指标不受疾病发病率影响,这一特点对于确诊疾病和排除疾病都十分有利[6]。ROC曲线分析的本质就是在多个诊断阈值下分析其相应的敏感度、特异度的变化规律[1]。ROC曲线不仅可以通过图形可视化及曲线下面积判断诊断方法的准确性,而且没有固定的分类阈值,允许多个中间状态的存在,能够全面客观地评价诊断系统的优劣。
传统的ROC曲线分析主要包括二等级法、多等级法和百分法。五等级法在影像学研究中应用最广泛[7],与二分类法相比,五等级法能反映更多的信息,使ROC曲线分析的估计更为稳定精确,并且比百分法简单易行,效率更高。五等级法的基本思路是,诊断医师根据影像资料的具体信息将病例划分为5个等级:1为肯定阴性,2为可能阴性,3为不确定,4为可能阳性,5为肯定阳性。对于这5个分类资料,分别把前4个分类(不考虑最小分类)当作诊断阈值,≥阈值的判定为阳性,否则判定为阴性,根据不同诊断阈值得到多对敏感度和特异度数值,从而形成一条ROC曲线。
与传统评价指标相同,ROC曲线分析也可以单独分析诊断系统的敏感度和特异度,并且可以通过多对敏感度和特异度值分析二者的关系和走向。
曲线下面积是评价诊断效能最常见的特征参数,反映的是诊断系统中阳性和阴性结果分布的重叠程度,其值常用Az表示。由于它不受诊断阈值变化的影响,并且不依赖于疾病的患病率[8],因此被作为评价诊断系统效能的最佳指标[9,10]。曲线越靠近左上角,Az值越大,表示诊断结果越可靠,Az值>0.9说明诊断结果具有很高的准确性,Az值介于0.7~0.9说明诊断结果有一定准确性,而当Az值接近0.5时,说明诊断没有临床意义。
ROC曲线分析除能动态、客观地反映诊断系统的效能外,另一重要作用是确定检测的最佳工作点(optimal operating point, OOP)。在医学影像学诊断中,OOP表示最优的诊断阈值,采用OOP进行诊断分类时诊断系统具有最好的诊断效能。目前常用的确定最佳工作点的方法有2种:(1)用ROC曲线上距离坐标(0,1)最近的点(通常用K表示)对应的阈值作为ROC曲线的最佳工作点;(2)采用约登指数(敏感度+特异度–1)最大值对应的阈值作为ROC曲线的最佳工作点,约登指数最大值是ROC曲线上与机会线(对角线)纵向距离最远的点[11,12,13]。除此之外,Peng等[14]认为利用交叉作图法也可以确定ROC曲线的最佳工作点。交叉作图法是以诊断阈值为横轴,将相应的敏感度和特异度曲线绘制在同一图中,两曲线在图中的交点是一个转折点,在该点处一条曲线由平坦转为陡峭下降,另一条曲线由陡峭上升转为平坦。将敏感度曲线和特异度曲线的交点对应的诊断界值作为最佳工作点。
ROC曲线分析可以对各种成像技术、诊断系统的效能做出客观评价,主要包括绝对效果的评价和相对效果的评价。(1)绝对效果的评价是指某种影像系统对某种疾病诊断的绝对评价[15,16,17,18],即利用"金标准"作对照,评价一种检查方法对疾病的鉴别诊断价值。Raza等[18]针对肝癌背景下良恶性血栓的鉴别诊断进行研究,旨在评价对比增强超声(CEUS)对肝癌良恶性血栓的鉴别诊断价值。该研究使用ROC曲线分析方法对CEUS的诊断结果进行评价,结果发现两位医师诊断得到的ROC曲线下面积均>0.9,这表明CEUS对鉴别诊断肝癌背景下的良恶性静脉血栓具有很高的准确性。(2)相对效果的评价是指2种或2种以上的影像系统对同一种疾病的诊断做出的相对性评价[19,20,21,22,23],即利用已有的检查方法作对照,评价一种新的检查方法对疾病的鉴别诊断价值。Hwang等[23]以CT作为对照,用ROC曲线分析方法评价MRI对慢性肝病背景下小肝癌的诊断价值。该研究发现MRI诊断得到的ROC曲线下面积>CT诊断得到的ROC曲线下面积,由此表明与64排螺旋CT相比,钆塞酸增强3.0 T MRI用于诊断慢性肝病背景下小肝癌具有更好的诊断效果。
疾病的诊断往往依赖于临床医师,而不同医师对同一种疾病的诊断能力可以通过ROC曲线分析来评价。Blachar等[24]采用ROC曲线分析方法对6位参与研究的医师(包括2位腹部放射科医师,1位腹部成像技师和3位放射科住院医师)利用CT诊断肝肿瘤的结果进行评价。6位医师的ROC曲线下面积从0.81~0.90不等,其中腹部放射科医师的Az值最高,但组间Az值差异无统计学意义,表明6位医师对肝肿瘤的诊断能力均较高。
根据ROC曲线下面积估计方法,可将目前存在的ROC曲线分析工具大致分为两类:非参数分析工具和参数分析工具。非参数分析的软件最常见的有Excel、SPSS和MedCalc,参数分析工具有ROCKIT、SAS和R语言中的一些软件包。Excel最为常见,操作简单,但只能针对单个诊断试验,并且需要手动计算敏感度和特异度。SPSS和MedCalc软件是医学工作者常用的两种统计分析软件,具有多种分析功能和友好的操作界面,适用于两个诊断试验效能比较的ROC曲线分析。SAS软件和R软件统计包可以实现参数估计,得到平滑的ROC曲线,主要适用于专业的统计人员,需要使用者具有一定的编程基础;而ROCKIT操作相对简单,并能实现参数估计,适用于医学研究人员。
在比较两种或两种以上诊断系统的诊断效能时,经常会出现代表不同诊断系统的ROC曲线相交的情况,此时曲线下面积不能作为判断某一范围内ROC曲线的敏感度和特异度优劣的指标,有时甚至可能得出相反的结论。而ROC曲线下部分面积[29],即某一假阳性率数值范围内的敏感度的平均值,可用来比较多种诊断系统的优劣。
传统ROC曲线分析方法适用于病灶位置明确或者可以忽略病灶位置时的情况,而实际临床工作中通常需要考虑这些因素的影响。当病灶位置不明确,同一图像上出现多个病灶或者存在多种诊断可能性时,使用传统的ROC曲线分析衡量诊断系统效能会存在一定偏差。为了解决这些问题,研究人员提出了几种改进的ROC曲线分析方法,如位置响应ROC方法、自由响应ROC方法和替代的FROC方法等[30]。除此之外,一些研究人员在传统ROC方法的基础上进行扩展,开发出了三维ROC方法[31,32,33],除敏感度和特异度外,同时考虑阈值参数的影响。





















