我确实有一个由姓,年和值y组成的数据集。我的目的是分析值y是否取决于上一代的相应值y。不幸的是,我没有每一代中每个姓氏的值y。
作为示例数据集,您可以执行以下操作:
set.seed(700)
df_1 <- data.frame(year = c(1700,1700,1730,1760,1790,1820,1820),generation = c(1,1,2,3,4,5,5),surname = c("Miller","NA","Smith","Garcia","Miller","Jordan","Garcia"),y=runif(20))
我运行以下回归:
fitted_models = df_1 %>% group_by(surname) %>% do(model = lm(y ~ lag(y,n=1,order_by = year),data = df_1))
现在,我有三个相关的问题:
(1)如何考虑非特定于群体的效应(例如特定于世代的固定效应)?
(2)我应该如何对待NA值?
(3)回归是否将所有观测值与上一代的相应观测值一起考虑,还是仅将第一代与第二代之间的比较考虑在内?