La regresión se hizo para las elecciones presidenciales de los años 2016-2020.
Variables:
dif_PRM_PLD_pc
: brecha porcentaje de votos PRM - porcentaje de votos del PLD, en puntos porcentualesabstencion
: nivel de abstenciónd2020
: dummy igual a 1 cuando el año es 2020 y 0 cuando noVALOR_PROM
: valor promedio del m2. En la regresión entra como logaritmo.PRIVADO
: número de escuelas privadas por barrioPUBLICO
: número de escuelas públicas por barrioSEMIOFICIAL
: número de escuelas semioficiales por barrio##
## Call:
## lm(formula = dif_PRM_PLD_pc ~ abstencion + d2020 + log(VALOR_PROM) +
## PRIVADO + PUBLICO + SEMIOFICIAL, data = resultados)
##
## Residuals:
## Min 1Q Median 3Q Max
## -0.136583 -0.038753 -0.004315 0.043774 0.135938
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -0.661566 0.071125 -9.301 1.56e-15 ***
## abstencion -0.472434 0.110636 -4.270 4.16e-05 ***
## d2020 0.449881 0.013886 32.398 < 2e-16 ***
## log(VALOR_PROM) 0.066366 0.007290 9.104 4.41e-15 ***
## PRIVADO 0.006346 0.001804 3.518 0.000633 ***
## PUBLICO -0.004494 0.001960 -2.293 0.023752 *
## SEMIOFICIAL 0.014325 0.008729 1.641 0.103647
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.06228 on 110 degrees of freedom
## (5 observations deleted due to missingness)
## Multiple R-squared: 0.9335, Adjusted R-squared: 0.9298
## F-statistic: 257.2 on 6 and 110 DF, p-value: < 2.2e-16
Claramente, hay varios outliers que podrían introducir sesgos y otros problemas.
La relación brecha-valor promedio m2 es evidentemente no-lineal (logarítmica).
##
## studentized Breusch-Pagan test
##
## data: model2
## BP = 8.3501, df = 6, p-value = 0.2136
Una rápida inspección de los errores y un alto p-value en un BP test apuntan a que no hay fuerte evidencia de heteroscedasticidad.
No hice tests de endogeneidad, y al ser una regresión con tan pocas variables explicativas, y que estás, posiblemente, están relacionadas con el error, la endogeneidad podría ser un problema mayor. Sin embargo, como 1) las agrupaciones por barrios suelen reducir la influencia de otras variables que determinan el voto, como ideología o preferencias personales, y 2) las variables explicativas recogen gran parte de la variación en y
, intuyo que la endogeneidad no debería ser tan grave.