3.3 Métodos

Para responder a los objetivos de esta investigación se ha decidido utilizar una estrategia de investigación cuantitativa, principalmente por dos motivos. Por un lado, debido a que actualmente existen datos secundarios disponibles que abordan toda la información que requiero analizar, en la población de interés (jóvenes en edad escolar). Estos datos se encuentran disponibles en el estudio ICCS 2016, una prueba estandarizada a nivel internacional que fue construida por un equipo de investigadores expertos en la temática de educación cívica. En este estudio se incorporan preguntas que permiten caracterizar al estudiante tanto a nivel individual, como a nivel del establecimiento educativo al que asiste el estudiante, abarcando todas las características que son de interés en la presente investigación. Es posible afirmar que los datos producidos en este estudio internacional son de buena calidad debido a que se utiliza un diseño muestral probabilístico en dos etapas⁵ y se utiliza un cuestionario validado internacionalmente a partir de dos estudios anteriores (CIVED 1999 y ICCS 2009), por lo que la construcción de este tercer estudio se ha servido de la experiencia recopilada en las investigaciones anteriores y se han realizado las mejoras que se consideraron necesarias. Por otro lado, he considerado que la estrategia cuantitativa es la más adecuada para responder al objetivo general de este estudio debido a que a través de técnicas estadísticas como las regresiones es posible estimar efectos de interacción entre las variables. La estimación de efectos de interacción entre variables me permite evaluar con precisión si alguna/s de la/s característica/s de la escuela que se incorporan en el análisis posee/n la capacidad de moderar la relación existente entre las características adscritas del estudiante y sus actitudes hacia la igualdad de derechos.

La propuesta de investigación, junto con el plan de análisis y las hipótesis a testear fueron pre registradas en la plataforma Open Science Framework del Centro de Ciencia Abierta (OSF, Center for Open Science). Puede acceder al documento en el siguiente enlace. El análisis estadístico de esta investigación fue realizado mediante el software libre R versión 4.1.1.

Para testear las hipótesis el modelamiento será multinivel. Esta decisión se fundamenta en que, como las encuestas se realizan a más de un estudiante de cada escuela, no es posible suponer la existencia de independencia entre los casos⁶, siendo lo más apropiado que el análisis se realice agrupando a los estudiantes por escuela.

Originalmente se formularon dos alternativas de análisis estadístico, siendo el criterio para la elección entre estos la intención de privilegiar ante todo realizar un análisis que sea transparente y reproducible, utilizando para ello el software libre R.

La primera alternativa consistía en estimar modelos de ecuaciones estructurales (SEM) multinivel debido a que la variable dependiente en este estudio no es una variable observada, sino que es una variable latente (es decir, fue medida a partir de varios indicadores) y esta técnica estadística está específicamente diseñada para el análisis de variables latentes. En esta línea, un estudio de simulación Monte Carlo (Rdz-Navarro & Asún, 2016) establece que, al trabajar con variables latentes, emplear esta forma de estimación estadística permite reducir el error de medida, en comparación a utilizar otras técnicas que buscan dar cuenta de una puntuación observada (ya sea a partir de un índice sumatorio, puntuaciones factoriales o estimaciones derivadas de la teoría de respuesta al ítem). Por lo tanto, la propuesta original era privilegiar el uso de esta alternativa en caso de que se desarrollara una actualización de la librería “lavaan” (la cual permite estimar modelos de ecuaciones estructurales multinivel en R) donde se incorporase la posibilidad de estimar SEM de dos niveles con pendientes aleatorias. Sin embargo, el creador de “lavaan” ha señalado que, pese a ser parte de sus planes futuros para el desarrollo de la librería, no le es posible estimar cuánto tiempo tardará en implementar dicha función y efectivamente a la fecha aún no se ha implementado la función en R.

En consecuencia, se ha optado por otra alternativa. Se testearon las hipótesis a través de la estimación de modelos de regresiones multinivel utilizando la librería “lme4” (Bates, Mächler, Bolker & Walker, 2015). Se asume como limitación al tomar esta decisión metodológica que, probablemente , los resultados del estudio tengan más error de medida en comparación a si se utilizara una técnica especialmente diseñada para el análisis de variables latentes, pero esta decisión nos permite hacer un análisis que sigue los principios de reproducibilidad de la ciencia abierta.

Previo al proceso de testeo de las hipótesis, se evaluó la validez de constructo de las variables latentes utilizadas en los análisis a través de la estimación de modelos de Análisis Factorial Confirmatorio utilizando la librería “lavaan” (Rosseel, 2012). Todas las variables latentes presentaron un ajuste adecuado según los criterios de Brown (2015), por lo que se crearon nuevas variables a partir de puntuaciones factoriales.

Para testear las hipótesis se estimaron distintos modelos de regresión multinivel utilizando la librería “lme4” (Bates et al., 2015). Luego de estimar los modelos de regresión multinivel, se evaluaron las pendientes aleatorias y los efectos de interacción entre variables siguiendo las recomendaciones de Aguinis, Gottfredson y Culpepper (2013). En la presente investigación se testearon tres tipos de hipótesis:

Hipótesis de efectos directos a nivel individual: Este tipo de hipótesis fue testeada estimando una serie de modelos que incorporan las respectivas variables independientes de nivel individual (controlando los efectos por las variables independientes de nivel agregado) y se evaluó su significancia estadística.
Hipótesis de efectos directos a nivel agregado: Este tipo de hipótesis fue testeada estimando una serie de modelos que incorporan las respectivas variables independientes de nivel escuela (controlando los efectos por las variables independientes de nivel individual) y se evaluó su significancia estadística.
Hipótesis de moderación entre niveles: se estimaron modelos de regresión multinivel con interacción cruzada entre niveles. Esto implicó, previo a la estimación de modelos con efectos de interacción, aleatorizar las pendientes para evaluar cómo variaba entre escuelas los efectos de las variables independientes de nivel individual.

Con el objetivo de asumir un compromiso con el desarrollo de una ciencia social abierta, además de subir el pre-registro de las hipótesis a la plataforma Open Science Framework (OSF) (Center for Open Science, s.f.), se creó un repositorio en la plataforma GitHub para subir los códigos de análisis estadístico con sus respectivos resultados, al cual se puede acceder en el siguiente enlace, y se ha puesto a libre disposición esta investigación, pudiendo acceder en este enlace.

En la primera etapa se muestrean las escuelas con una probabilidad proporcional al tamaño de esta (definido en función del número de estudiantes) y en la segunda se seleccionó al azar un curso del grado objetivo.↩︎
La independencia entre los casos es un supuesto de la regresión por mínimos cuadrados ordinarios.↩︎