|
重复观测数据的相关分析
第三军医大学学报1999年第21卷第12期
王文昌 张蔚 易东 冷怀明 许汝福
提 要 目的:本研究将建立重复测量数据的相关分析技术。方法:利用半参数回归分析的原理与方法,结合重复观测数据的特点,建立重复观测数据的半参数回归模型,剔除重复因素的影响后,建立重复测量数据的相关系数公式,并讨论了相应的假设检验问题。结果:给出了一个具体的实例,计算得其相关系数为r=0.3645,P>0.05,与分别在各个重复点上计算得到的线性相关系数是吻合的。结论:结果表明对重复观测数据进行相关分析时,所建立的方法是有效的、实用的,并且效果优于普通的最小二乘法和广义最小二乘法。
关键词:重复测量数据 相关分析 半参数回归
重复观测数据广泛存在于医学研究中,对重复测量数据进行相关分析无论在理论上还是实践上都有重要意义。假设在研究总体中随机地选出n个受试对象,分别对每个对象按一定的时间间隔重复测量p次,得观测值(Xij,Yij,i=1,2,…,n,j=1,2,…,p。这种观测数据称为纵向重复测量数据。由于对同一对象进行重复测量,因此其数据间存在自相关性,当对其进行相关回归分析时,通常的最小二乘法将失效[1]。前不久,我们运用统计学中才兴起的半参数回归方法[2,3,4]研究了此类数据的回归分析问题[5],建立了对其进行处理的半参数回归模型,讨论了模型的参数估计及假设检验等问题。本文将对重复测量数据的相关程度进行定量描述,并研究了相应的假设检验问题。
1 原理与方法
我们对纵向重复测量数据建立了如下半参数回归模型[5]:
(1)
其中b为模型参数,主要反应了X对Y的影响。X= 为X的平均数。g(j)为未知函数,主要反应了重复测量的效应。εij~N(NULL,σ2)为随机误差且相互独立。对模型中的参数及未知函数可作如下估计:
(2)
(3)
其中,
最后,可用表1的方差分析表对模型进行假设检验。
表1 模型(1)的方差分析表
tab 1 Table of ANOV about Model (1)
| Variant source |
SS |
v |
MS |
F |
| Total |
? |
np-1 |
| Regression |
? |
1 |
SSreg/Vreg |
MSreg/MSerr |
| Repeated |
? |
p |
SSrep/Vrep |
MSrep/MSerr |
| Residual |
? |
np-p-2 |
SSerr/Verr |
|
其中 事实上, 为原始数据消除了重复因素所导致的自相关性后所得的序列,因此 与 间的相关性才能准确地反应原始数据消除重复因素的影响后的相关性。于是根据表1,我们可定义原始数据(Xij,Yij)的相关系数如下: (4)
对相关系数r的假设检验方法与线性相关系数的假设检验相同。
2 实例
表2为某幼儿园9名幼儿连续3年的体重与身高数据。文献[6]曾分析得受试对象内残差相关是显著的,并且断言使用普通最小二乘法得到的体重与身高数据的回归系数 的标准误将高估真实的标准误,于是在文献[6]中对 的标准误进行调整后,得到对 的假设检验的t值为6.2667,同时采用广义最小二乘法也得到r=9.9808,进一步说明了对 的假设检验是显著的,即幼儿身高与体重有显著关系的结论。事实上,我们分别对1991年、1992年、1993年数据进行相关分析,则3个r值分别为:0.4891、0.2377、0.3878,其相应的P值均大于0.05。也就是说,对此资料而言,如果剔除年龄因素的影响,幼儿的身高与体重应该是无关的。
表2 某幼儿园幼儿的体重与身高
tab 2 Height and weight of infants
| Number |
|
Observation date |
| 6/7/1991 |
25/5/1992 |
24/5/1993 |
| 1 |
X(cm) |
105.0 |
113.7 |
120.0 |
| Y(kg) |
16.3 |
18.7 |
19.7 |
| 2 |
X(cm) |
102.5 |
110.3 |
117.0 |
| Y(kg) |
16.2 |
20.3 |
23.5 |
| 3 |
X(cm) |
104.5 |
110.4 |
117.7 |
| Y(kg) |
15.81 |
18.4 |
20.4 |
| 4 |
X(cm) |
109.8 |
117.1 |
124.4 |
| Y(kg) |
16.1 |
18.6 |
21.0 |
| 5 |
X(cm) |
103.8 |
110.0 |
112.0 |
| Y(kg) |
17.0 |
19.0 |
18.55 |
| 6 |
X(cm) |
106.0 |
113.7 |
120.7 |
| Y(kg) |
16.1 |
17.8 |
19.3 |
| 7 |
X(cm) |
110.3 |
115.8 |
123.7 |
| Y(kg) |
20.3 |
24.3 |
27.9 |
| 8 |
X(cm) |
103.0 |
110.5 |
116.2 |
| Y(kg) |
17.3 |
19.7 |
21.6 |
| 9 |
X(cm) |
106.9 |
113.1 |
121.0 |
| Y(kg) |
17.0 |
18.7 |
19.1 |
我们现用模型(1)来讨论表2中的数据,则有: =0.25236, (1)=18.6349, (2)=19.4477, (3)=19.5463。并对其半参数回归模型进行假设检验得到:对回归系数,P>0.05;对重复因素,P<0.01,即就此资料而言,如果排除年龄因素的影响后,由于幼儿的体重变异远远大于身高的变异而掩盖了身高对体重的影响,幼儿的身高与体重是无关的,而对体重影响的主要因素为年龄因素,这与分别在各时间点上对身高与体重的相关分析结果是吻合的。更进一步地,我们用本文方法计算在此3年中,剔除年龄因素后,幼儿身高与体重的线性相关系数为r=0.3645,与分别计算得到的相关系数较为接近,相应的P>0.05,也说明了对此资料而言身高与体重是无关的。
3 讨论
对重复测量数据进行回归分析时,由于数据间的自相关性,一般的最小二乘法将失效。事实上,在文献[6]中无论是采用对标准误进行调整还是采用广义最小二乘法均得到了与实际资料所显示的信息不相符的结果。此实例的结果显示,半参数回归分析用于处理重复测量数据时的效果优于普通的最小二乘法和广义最小二乘法。
对重复测量数据作相关分析时,应考虑重复因素所导致的数据间的相关性。一般来说,重复因素所导致的相关性是比较显著的,如果不剔除重复因素的效应,将有可能夸大指标间的相关程度。
对重复测量数据作相关分析在实际中有着重要的意义。一般的模型仅能解决指标间有无相关性问题,而不可能对相关程度作出定量的描述。虽然模型的P值从某个角度来说能反映指标间的相关程度,但不利于实际分析使用。我们这里所导出的重复测量数据间的相关系数能真实地反应重复测量指标间的相关程度,无论是在理论上还是直观上它都是与线性相关系数一致的。
基金项目:国家自然科学基金资助项目(39870691)
foundation item: National Natural Science Foundation of China(39870691)
作者简介:王文昌,男,1970.02.03生,贵州省大方县人,硕士,讲师,主要从事卫生统计方面的研究,发表论文6篇。电话:(023)68752343
作者单位:王文昌 张蔚 易东 许汝福:第三军医大学:高原医学系医学统计学教研室; 冷怀明:学报编辑部;重庆 400038
参考文献
[1] 陈希儒,王松桂.近代回归分析——原理方法及应用[M].合肥:安徽教育出版社,1987.91-105.
[2] 高集体,洪对岩,梁 华,等.半参数回归模型研究的若干进展[J].应用概率统计,1994,10(1):96-103.
[3] 洪圣岩.一类半参数模型的估计理论[J].中国科学(A辑),1991,12(12):1258-1272.
[4] 王文昌,易 东,许汝福,等.季节性时间序列资料预测的半参数回归模型[J].中国卫生统计,1997,14(6):4-7.
[5] 王文昌,易 东,张 蔚,等.重复观测数据的半参数回归分析[J].中国卫生统计,1999,16(4):200-203.
[6] 赵景波,李 康.重复观测值线性回归分析及其在医学中的应用[J].中国卫生统计,1995,12(2):18-19.
|