在 R 中使用 glmer() 在混合效应(分层)模型中正确规范上层预测变量

Correct specification of an upper level predictor variable within a mixed effects (hierarchical) model using glmer() in R

提问人:humans-meet-quantities 提问时间:11/13/2023 最后编辑:humans-meet-quantities 更新时间:11/14/2023 访问量:22

问:

我正在尝试使用 R 中的 glmer() 包运行混合效应模型或分层线性回归。

该数据集是地理上嵌套在 4 个时间点收集的区域内的单个调查响应的汇总横截面。我有兴趣介绍和探索上层预测因子(即每个地区具有唯一值的宏观经济变量)对个体水平结果(二元变量)以及其他各种低级预测因子(个体特征)的重要性。

我将区域数据与按地区和年份划分的个别调查回复合并在一起。因此,“第 1 年”中“区域 1”中的任何个体都具有相同的上级预测变量值。

到目前为止,我一直对混合效应模型的结果感到困惑。绘制数据表明该区域水平预测变量具有正显著的固定效应,但混合模型的结果反而较弱且为负。

我使用 glmer() 运行了一个模型,其中上层预测变量作为固定效应与各种分类个体级预测变量一起包含在内。我还假设了地区和年份的随机效应。我的理解是,通过对随机区域效应进行建模,我可以包括一个上层(区域)预测因子,从而将(区域)上层预测因子的影响与未观察到的区域异质性区分开来。我在模型中包括了调查权重。

model <- glmer(binary-y ~ region.level.predictor +
                   [various categorical individual level predictors]
                   (1|year) +
                   (1|region),
                 data = pooled_survey, 
                 family = binomial(), weights = pwt,
                 nAGQ = 0)
#result
Random effects:
 Groups Name        Variance Std.Dev.
 region (Intercept) 0.12283  0.3505  
 year   (Intercept) 0.01306  0.1143  
Number of obs: 335319, groups:  region, 10; year, 4

Fixed effects:                                                                                                                   Estimate Std. Error  z value Pr(>|z|)    
(Intercept)
-2.2172042  0.1247093  -17.779  < 2e-16 ***

upper.level.predictor
-0.0507120  0.0006980  -72.650  < 2e-16 ***

individual.predictor1.level1
2.0791319  0.0008582 2422.778  < 2e-16 ***
individual.predictor1.level2
-1.3189206  0.0018920 -697.091  < 2e-16 ***

individual.predictor2.level1                                                                   
0.0187660  0.0011768   15.946  < 2e-16 ***
individual.predictor2.level2
0.0544561  0.0012773   42.635  < 2e-16 ***
individual.predictor2.level3
-0.4276550  0.0014786 -289.226  < 2e-16 ***

结果显示,对(区域)上层预测因子有显著但微弱的负面影响。但是,通过预测变量在区域水平上绘制因变量将表明正相关关系。将估计值转换为比值比会得到接近 1 (0.95) 的值,这表明我可能在定义模型的方式上做错了什么。(均值和最小值将区域预测变量居中产生几乎相同的结果)。

各个水平预测变量的显著性、方向和值符合预期。

模拟的区域随机效应解释了一些差异,并且看起来“合理”且理论上是合理的。包括年份的随机效应以解释调查年内的时间自相关,但大样本量意味着这些效应接近于零。

我的问题是:

  1. 这是在应用于调查响应的汇总横截面的两级模型中包含区域级预测因子的正确方法,还是我忽略了某些内容?

我的理解是,在我预计未观察到的区域异质性和预测变量之间存在交互效应的情况下,我应该只对预测变量的随机斜率和随机效应进行建模,并且 - 虽然可能有一些理论案例 - 我真的希望这种关系在某种程度上是普遍的。(region.level.predictor||region)

  1. 鉴于合并(或“重复”)横截面中似乎存在较低的时间自相关,是否有另一种方法可以将此类数据的时间元素包含在混合模型中?

我希望这是一个定义明确的问题。我使用了经济地理学中的术语来描述数据,如果有任何不清楚的地方,可以提供替代定义。提前感谢您提供任何建议,以理解这个令人困惑的结果!

R GLM 混合模型 多层次 分析

评论


答: 暂无答案