Evaluación de la clasificación mediante de la técnica estadística Regresión Logística en datos simulados bajo distintos escenarios, para distintos tamaños de muestra

Fecha

2022-03-01

Título de la revista

ISSN de la revista

Título del volumen

Editor

GRUPO IANUS
Resumen
En esta investigación se propone el estudio de la técnica estadística multivariada de clasificación, Regresión Logística, donde se quiere evaluar el desempeño de la misma cuando es utilizada en datos simulados bajo distintos escenarios y bajo distintos tamaños de muestra. Se generaron mediante simulación 500 archivos de datos para cada uno de los siguientes tamaños de muestra: 30, 75, 200, 400, 600, 1000. Cada conjunto contiene 6 columnas (variables) bajo distintas condiciones o escenarios. En cada muestra se “marcó” el 20% de las observaciones para ser utilizadas como grupo de test y el restante 80% para la estimación de los modelos evaluados en cada caso. Quedaron definidos un total de 12000 conjuntos de datos simulados, con 6 tamaños de muestra diferentes y 4 escenarios con las siguientes características definidos por la estructura de la matriz de correlaciones. El escenario 1 corresponde a datos provenientes de una población en la que los predictores están fuertemente correlacionados con la respuesta pero no entre ellos. El escenario 2 plantea una simulación a partir de una población con poca correlación de la respuesta con las variables predictoras pero éstas correlacionadas entre sí. En el escenario 3, la correlación presente en la población origen de la simulación es importante tanto entre las predictoras como entre éstas y la respuesta. Por último, el escenario 4 corresponde a una población original en la que no existe ningún tipo de correlación de magnitud importante entre las variables, ni de los predictores con la respuesta ni entre ellos. De este análisis se concluye que, en condiciones donde las variables predictoras están altamente correlacionadas con la respuesta (escenarios 1 y 3), sin importar la correlación entre las predictoras, la técnica de Regresión Logística funciona satisfactoriamente. Sin embargo, como se puede observar en el gráfico 1, cuando las predictoras están poco correlacionadas con la respuesta (escenarios 2 y 4) el porcentaje de clasificación correcta es bastante más bajo. Esta diferencia entre los dos grupos de escenarios en cuanto a la correlación de la respuesta con las predictoras se va acentuando a medida que el tamaño de muestra se hace más grande. Como conclusión final se puede decir que, sin importar el tamaño de muestra, cuando la variable respuesta está poco correlacionada con las variables predictoras la técnica de Regresión Logística no tiene una buena clasificación de las observaciones.

Palabras clave

Regresión logística, Simulación, Clasificación

Citación