|
百分位数的可信区间估计
中国卫生统计1999年第16卷第3期
陈健美 陈峰
关键词:百分位数 Bootstrap法 可信区间估计
百分位数(percentile)是用于描述计量资料尤其是偏态分布资料极为常用的指标体系。如用于允许区间的估计,变异度的描述,百分位数回归等。但百分位数本身亦存在抽样误差,有必要对其进行区间估计。本文介绍百分位数的bootstrap区间估计,并与二项分布近似法进行比较。
一、Bootstrap法
它是以原始数据为基础的模拟抽样统计推断法,其基本思想是:在原始数据的范围内作有放回的再抽样,样本含量仍为n,原始数据中每个观察单位每次被抽到的概率相等,为1/n,所得样本称为bootstrap样本。于是可得到参数θ的估计值θ(b),这样重复若干次,记为B。设B=1 000,就得到该参数的1 000个估计值。当θ(b)的频数分布近似正态分布时,以其均数作为点估计,用正态原理估计可信区间;当θ(b)的频数分布为偏态时,以其中位数作为点估计,以上、下2.5%分位数作为其95%可信限。
二、二项分布近似法:
根据二项分布原理按下列公式分别求可信区间上下限的百分位x%。

其中n为样本量,uα为标准正态分布的分位数,p为所求总体百分位数的百分位。然后按公式

分别求出相应百分位数的可信区间。
三、实例分析
取文献〔3〕中资料(表1),其中生存时间为正偏态分布,计算5%、50%、95%百分位数为P5=3.73,P50=10.11,P95=69.86。我们首先用bootstrap法来估计以上几个百分位数的可信区间。步骤为:在26个个体(编号为1,2,…,26)中作有放回的抽样,每个个体被抽到的概率为1/26,抽样次数仍为n=26,这可以用计算机产生1~26的均匀分布的随机数,相应的编号即为抽中的个体,由这些个体组成的样本就是一个bootstrap样本。如此重复B次(分别取B=200,500,1 000,1 500,2 000)可算得 、 、 ,b=1,…,B。从其频数分布可知是偏态分布,故以上、下2.5%分位数作为其95%可信限,结果见表2。在整个计算过程中,只是重复地抽样,重复地计算各样本百分位数,根据其频数分布的分位数即得到了可信区间,无需繁杂的数学推导。
表1 26例浆液性卵巢上皮癌患者的生存时间
|
1.00 |
2.50 |
4.50 |
7.50 |
9.50 |
|
11.50 |
12.50 |
14.50 |
15.00 |
15.00 |
|
17.50 |
18.50 |
24.00 |
24.00 |
25.20 |
|
32.70 |
36.00 |
36.00 |
43.00 |
44.00 |
|
46.00 |
69.00 |
70.00 |
83.40 |
83.50 |
|
156.00 |
|
|
|
|
表2 总体百分位数的可信区间
|
|
bootstrap法 |
二项分布法 |
|
B=200 |
B=500 |
B=1 000 |
B=1 500 |
B=2 000 |
|
P5 |
3.40~4.02 |
3.40~4.03 |
3.40~4.03 |
3.40~4.09 |
3.40~4.09 |
3.40~4.10 |
|
P50 |
7.57~12.48 |
7.60~13.99 |
7.64~14.16 |
7.64~14.83 |
7.64~14.83 |
7.64~5.00 |
|
P95 |
21.89~31.33 |
24.55~124.17 |
25.65~124.17 |
27.05~124.17 |
27.17~124.17 |
27.18~24.17 |
四、讨论
1.bootstrap法估计的误差是多少?bootstrap统计量的抽样误差包含了两个部分,一是原样本(经验分布)的抽样误差SF;二是bootstrap再抽样误差S(1)B。当B充分大小时,bootstrap再抽样误差就趋于消失,bootstrap估计的误差就接近抽样误差。B要取多大?据Efron〔5〕提出,B的大小与原分布有关,一般取50~200之间即可,但若原数据的变异较大,则B的取值相应增加。从例1亦可看出,原始资料变量值小的一侧相对稳定,B=200与B=2 000时P5的可信区间很接近,而P95在B=200与B=2 000时则相差很大,提示我们对于变异较大的数据,特别是存有极大值或极小值,B宜取大一些,如本例B=1 000时,P95的可信区间才趋稳定。
2.在作医学参考值范围估计时,常用的方法有两大类:一是适用于正态分布或经变量变换能转换为正态分布的资料,最常用的是正态分布法;另一适用各种分布型资料,最常用的是百分位数法;对偏态分布用正态分布法会得怎样的结果?如本例若用正态分布法处理得X=34.70,均数的区间估计为27.94~41.46,与bootstrap、二项分布相差甚远。因此对偏态分布资料,我们常用百分位数法进行医学参考值的估计,常用的百分位数为P2.5,P5,P95,P97.5等,对百分位数的区间估计,目前应用较少,从本文应用结果来看,用bootstrap法对百分位数作区间估计,不失为一种可行、高效的估计方法。
作者单位:陈健美 镇江医学院(212001)
陈 峰 南通医学院
参考文献
1.陈峰.Bootstrap估计及其应用.中国卫生统计,1997,14(5):5.
2.杨树勤主编.中国医学百科全书*医学统计学.上海:上海科学技术出版社,1985,86.
3.余松林等.临床随访资料的统计分析方法.北京:人民卫生出版社,1991,127.
4.Efron B & Tibshiirani RJ.An Introdution to the bootstrap.New York:Chapman & Hall,1993.
5.Efron B.Better bootstrap confindence interuals(with discutions).J.Amer.Statist.Assoc,1987,82:171~200.
|