|
非参数法估计ROC曲线下面积
中国卫生统计1999年第16卷第4期
宇传华 徐勇勇
关键词:受试者工作特征(ROC) 非参数法 ROC曲线下面积
ROC是受试者工作特征(Receiver Operating Characteristic)的缩写。ROC曲线及ROC曲线下面积可作为某一诊断方法准确性评价的指标;通过对同一疾病的多种诊断试验分析比较,这些指标可帮助临床医生筛选出最佳诊断方案〔1〕。对于ROC曲线的构建及其实际临床意义,文献〔2〕已作了详细介绍,本文将采用实例数据具体介绍如何利用简单、实用的非参数法估计与比较ROC曲线下面积。
一、ROC曲线下面积的计算
本文所指的“诊断”是泛指某对象(如人、仪器、设备、试剂、方法等)对某确定事件作出是正常还是异常(无病还是有病、噪音还是信号等)判断的过程。假设正常组有nn个观察值,记为xnj(j=1,2,…,nn);异常有na个观察值,记为xai(i=1,2,…,na)。如果观察值大为异常,根据Wilcoxon Mann-Whitney统计量,ROC曲线下面积(AZ)就是异常组每个观察值大于正常组每个观察值的概率,用公式表示为:

(1)
该公式为na个xai与nn个xnj比较,如果前者大于后者则比较结果为1,相等时为0.5,否则为0,将na×nn个比较结果相加取平均即得AZ。如果观察值小为异常,则改变公式中的大于与小于符号即可。
AZ的标准误可采用公式:

(2)
计算。其中SE(AZ)为AZ的标准误,Q1是两个随机选择的异常组观察值比一个随机选择的正常组观察值都将有更大可能分类为异常的概率。Q2是一个随机选择的异常组观察值比两个随机选择的正常组观察值将有更大可能分类为异常的概率。
得出的ROC曲线下面积是否与完全随机情况下获得的AZ=0.5有统计学差异,可采用公式z= 作检验。z是正态离差值,查正态分布表,可得其P值,如z=1.96,P=0.05。根据AZ±uaSE(AZ)可计算AZ的100(1-a)%可信区间,这里ua为标准正态分位数。
下面以分类资料和计量资料数据分别说明计算的具体实现方法。
1.分类资料:放射学影像评价一般将诊断结果分成5至6类,如按肯定正常、可能正常、异常可疑、可能异常和肯定异常分别分为1、2、3、4、5五类,然后由放射医生将已知诊断结果的影像分到各类中,根据分类情况,可评价该医生的诊断能力。表1的第1和2行是某医生对正常组193份,异常组41份影像资料诊断为某种疾病的分类结果。第3行是异常组大于该分类的影像份数,它等于异常组总例数减该类及以下影像份数的和。第4行是正常组小于该分类的影像份数,它等于正常组该类以下影像份数的和。第5、6、7行利用第1~4行数据及相应各行所列公式,分别计算出ROC曲线下面积AZ=77.97%、Q1=0.6624和Q2=0.6629,具体结果分别见表1。将这些结果及na=41,nn=193代入(2)式,得SE(AZ)=0.0403。第5、6、7行所列公式由Hanley和McNeil根据分类资料提出〔3〕,由这些公式完成AZ、Q1和Q2的计算。
表1 分类资料的AZ、Q1和Q2的计算
|
内 容 |
分 类 |
说明 |
|
1 |
2 |
3 |
4 |
5 |
合计 |
|
正常组(xn) |
35 |
68 |
49 |
29 |
12 |
193=nn |
基本数据 |
|
异常组(xa) |
2 |
3 |
8 |
16 |
12 |
41=na |
基本数据 |
|
异常组分类较大(ya) |
39 |
36 |
28 |
12 |
0 |
|
na=41连减第2行 |
|
正常组分类较小(yn) |
0 |
35 |
103 |
152 |
181 |
|
第1行累加到0 |
|

|
1400 |
2550 |
1568 |
580 |
72 |
6170 |
AZ=合计/(nann)=0.7797 |
|

|
56011 |
95676 |
50437 |
12219 |
576 |
214919 |
Q1=合计/( )=0.6624 |
|

|
817 |
15439 |
131651 |
444677 |
419772 |
1012356 |
Q2=合计/( )=0.6629 |
z检验得正态分布统计量z=(0.7797-0.5)/0.0403=6.9304,相应的P=0.0000。AZ的95%可信区间为(0.7006,0.8588),不包括0.5,结果表明该放射医生的诊断分类较好。
2.计量资料:采用骨髓诊断作为金标准,对于100例可疑为缺铁性贫血患者作诊断。将诊断结果为缺铁性贫血的34例作为异常组,其余66例作为正常组,然后对每组的第一例测量红细胞平均容积(MCV),其测量值列于表2。
表2 红细胞平均容积〔4〕
|
骨髓诊断 |
MCV 结 果 |
|
正常组 |
60 |
66 |
68 |
69 |
71 |
71 |
73 |
74 |
74 |
74 |
76 |
77 |
77 |
77 |
77 |
78 |
78 |
|
(xnj) |
79 |
79 |
80 |
80 |
81 |
81 |
81 |
82 |
82 |
83 |
83 |
83 |
83 |
83 |
83 |
83 |
84 |
|
|
84 |
84 |
84 |
85 |
85 |
86 |
86 |
86 |
87 |
88 |
88 |
88 |
89 |
89 |
89 |
90 |
90 |
|
|
91 |
91 |
92 |
93 |
93 |
93 |
94 |
94 |
94 |
94 |
96 |
97 |
98 |
100 |
103 |
|
|
|
异常组 |
52 |
58 |
62 |
65 |
67 |
68 |
69 |
71 |
72 |
72 |
73 |
73 |
74 |
75 |
76 |
77 |
77 |
|
(xai) |
78 |
79 |
80 |
80 |
81 |
81 |
81 |
82 |
83 |
84 |
85 |
85 |
86 |
88 |
88 |
90 |
92 |
为了检查MCV诊断缺铁性贫血的准确性,首先根据100例测定值选择所有可能的截断点(如样本较大,可根据实际要求的精确程度选择一定数量的截断点),对于每个截断点分别清点正常组与异常组的观察例数。此时截断点相当于分类资料的类别,正常组与异常组例数相当于表1的第1、2行,资料可仿照分类资料处理。该资料有38个可能的截断点,部分截断点及其对应的正常组与异常组例数xn、xa和其他计算结果见表3。注意:因为该资料是观察值小诊断为异常,所以ya应为异常组截断点处观察值较小的例数,而yn为正常组截断点处观察值较大的例数。这与观察值大诊断为异常计算恰好相反。 、 和 分别相当于表1的第5、6和7行,按其相应行所列公式计算。
表3 连续性资料的AZ、Q1和Q2的计算
|
编号 |
截断点 |
xn |
xa |
ya |
yn |

|

|

|
|
1 |
52 |
0 |
1 |
0 |
66 |
0.0 |
0.0 |
4356.0 |
|
2 |
58 |
0 |
1 |
1 |
66 |
0.0 |
0.0 |
4356.0 |
|

|

|

|

|

|

|

|

|

|
|
37 |
100 |
1 |
0 |
34 |
1 |
34.0 |
1156.0 |
0.0 |
|
38 |
103 |
1 |
0 |
34 |
0 |
34.0 |
1156.0 |
0.0 |
|
合 计 |
66 |
34 |
- |
- |
1609.0 |
44533.3 |
84597.1 |
该资料的AZ=71.70%,Q1=0.5837,Q2=0.5712,na=34,nn=66,将这些值代入(2)式,得SE(AZ)=0.0526。经检验z=4.1258,P=0.0000,AZ的95%可信区间为(0.6139,0.8201),不包括0.5,结果表明MCV对缺铁性贫血具有一定的诊断价值。
二、ROC曲线下面积的比较
比较两个ROC曲线下面积间是否具有差异,可按(3)式计算z统计量。

(3)
其中z是正态离差值,Az1和Az2是两诊断试验的曲线下面积,SE1和SE2是其对应的标准误,分别由公式(1)和(2)求得。r是两个ROC曲线下面积间的相关系数,它的计算需要首先求得两个中介相关系数,即正常组的两诊断试验间和异常组的两诊断试验间的相关系数,记为rn和ra,其计算可采用传统的Pearson积差法和Kendal tau等级相关法,前者适用于连续性资料,后者适用于等级资料,标准统计软件包,(如SAS、SPSS)均可计算。以两诊断试验平均相关(ra+rn)/2和平均面积(Az1+Az2)/2查表4得r值
表4 两个ROC曲线下面积估计值间的相关系数〔5〕
|
平均相关
{(ra+rn)/2} |
平均面积{(Az1+Az2)/2} |
|
0.700 |
0.725 |
0.750 |
0.775 |
0.800 |
0.825 |
0.850 |
0.875 |
0.900 |
0.925 |
0.950 |
0.975 |
|
0.02 |
0.02 |
0.02 |
0.02 |
0.02 |
0.02 |
0.02 |
0.02 |
0.01 |
0.01 |
0.01 |
0.01 |
0.01 |
|
0.04 |
0.04 |
0.04 |
0.03 |
0.03 |
0.03 |
0.03 |
0.03 |
0.03 |
0.03 |
0.02 |
0.02 |
0.02 |
|
? |

|

|

|

|

|

|

|

|

|

|

|

|
|
0.88 |
0.86 |
0.86 |
0.86 |
0.85 |
0.85 |
0.85 |
0.84 |
0.84 |
0.83 |
0.82 |
0.81 |
0.79 |
|
0.90 |
0.88 |
0.88 |
0.88 |
0.88 |
0.87 |
0.87 |
0.87 |
0.86 |
0.86 |
0.85 |
0.84 |
0.82 |
为了解释非参数法ROC曲线下面积的比较方法,用表5资料加以说明。
表5 相同研究对象由两种不同诊断方法分类
|
诊断方法1分类 |
诊断方法2分类 |
|
正常组 |
异常组 |
|
1 |
2 |
3 |
4 |
5 |
6 |
合计 |
1 |
2 |
3 |
4 |
5 |
6 |
合计 |
|
1 |
9 |
3 |
0 |
0 |
0 |
0 |
12 |
0 |
0 |
1 |
0 |
0 |
0 |
1 |
|
2 |
17 |
9 |
2 |
0 |
0 |
0 |
28 |
1 |
0 |
2 |
0 |
0 |
0 |
3 |
|
3 |
3 |
4 |
1 |
0 |
0 |
0 |
8 |
1 |
1 |
1 |
3 |
0 |
0 |
6 |
|
4 |
1 |
2 |
2 |
1 |
0 |
0 |
6 |
1 |
1 |
1 |
9 |
1 |
0 |
13 |
|
5 |
1 |
1 |
0 |
2 |
0 |
0 |
4 |
0 |
0 |
0 |
7 |
10 |
5 |
22 |
|
6 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
4 |
5 |
9 |
|
合计 |
31 |
19 |
5 |
3 |
0 |
0 |
58 |
3 |
2 |
5 |
19 |
15 |
10 |
54 |
表5左侧是两种诊断方法对正常组58例分类的数据,分类等级1到6分别表示肯定正常、可能正常、正常可疑、异常可疑、可能异常和肯定异常。正常组等级相关系数用表6的SAS程序计算得rn=0.3920。用同样的方法可计算表5右侧异常组等级相关系数ra=0.7034。该资料平均相关(ra+rn)/2=0.5477。
表6 正常组两种诊断方法间等级相关
系数rn的SAS计算程序
|
行号 |
程 序 |
行号 |
程 序 |
行号 |
程 序 |
|
01 |
data; |
07 |
end; |
13 |
110200 |
|
02 |
do x=1 to 6; |
08 |
cards; |
14 |
000000 |
|
03 |
do y=1 to 6; |
09 |
930000 |
15 |
; |
|
04 |
input freq @@; |
10 |
1792000 |
16 |
proc corr kendall; |
|
05 |
output; |
11 |
341000 |
17 |
freq freq; |
|
06 |
end; |
12 |
122100 |
18 |
run; |
对表5资料计算两诊断方法的Az1、Az2、SE1和SE2分别得0.8945、0.9382、0.0304和0.0261,由此可得其平均面积(Az1+Az2)/2=0.9164。查表4得面积间相关系数r为0.44,所以根据公式(3)有:
z=1.4509
其z小于1.96,P>0.05,在检验水准为0.05时,两诊断方法无统计学差异。如果比较的两个诊断试验是独立的,可令r=0,即采用 进行统计学检验。
三、讨论
对于ROC资料,可根据分类或截断点计算出ROC工作点,绘出未光滑ROC曲线〔2〕。用直线连接各点,并在每个点处作一垂线至横轴,可将ROC曲线下面积分成若干个梯形,原点与第一个ROC点组成的三角形可看成上底为0的梯形。此时,将各梯形面积相加可得ROC曲线下面积。以表1资料为例,它的各ROC点为:(0,0)、(0.0622,0.2927)、(0.2124,0.6829)、(0.4663,0.8780)、(0.8187,0.9512)、(1,1),其各梯形面积的和为77.97%。该结果表明Wilcoxon Mann-Whitney统计量计算出的ROC曲线下面积与梯形规则计算出来的结果相等,他们是未光滑ROC曲线下的面积。因此,非参数法计算出的AZ一般小于参数法估计的光滑ROC曲线下的面积。有研究还表明非参数法计算出的标准误较参数法大,使得非参数法计算结果较保守。
计算出ROC曲线下面积及其标准误的目的不只是为了与随机诊断产生的AZ=0.5相比,而主要的目的是为了比较两个或两个以上诊断试验,帮助临床医生筛选最佳诊断方法。
对于本文第一部分介绍的ROC曲线下面积及其标准误的非参估计方法,作者用SAS 6.11版本编写了SAS计算程序〔6〕(有需要者请直接与作者联系),该程序可输出文中介绍的所有结果,包括基本资料、ROC曲线下面积及其标准差、z检验统计量、95%可信区间和有关中间结果等。
作者单位:第四军医大学卫生统计学教研室(710032)
参考文献
1.王家良.临床流行病学.中华医学杂志,1998,78(12):941~943.
2.宇传华,徐勇勇.ROC分析的基本原理.中华流行病学杂志,1998,19(2-A):413~415.
3.Hanley JA,McNeil BJ.The meaning and use of the area under a receiver operating characteristic(ROC) curve.Radiology,1982,143:29~36.
4.Beck JR,Shultz EK.The use of relative operating characteristic(ROC) curves in test performance evaluation.Arch Pathol Lab Med 1986,110:13~20.
5.Hanley JA,McNeil BJ.A method of comparing the areas under a receiver operating characteristic curves derived from the same cases.Radiology 1983,148:839~843.
6.SAS Institute Ine.SAS Language:Reference,Version 6,First Edition.Cary,NC:SAS Institute Inc.,1990,1~1042.
|