Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares

Resumen
La presencia de no respuesta es una de las principales dificultades que se presentan en las encuestas. La no respuesta puede ser total o parcial, existiendo una variedad de soluciones dependiendo de la situación. Si la no respuesta es parcial, la imputación de los valores perdidos es una opción usualmente utilizada. En el año 2018, se propuso en el Instituto Nacional de Estadística y Censos (INDEC), una revisión de los métodos de imputación aplicados a la Encuesta Nacional de Gastos de los Hogares (ENGHo). El método missForest (Stekhoven y Bühlmann, 2012) es un método de imputación no paramétrico cuyo algoritmo consiste en un proceso iterativo que asigna valores iniciales a los datos perdidos, construye un Forest ajustado el cual permite predecir nuevos datos imputados para cada una de las variables involucradas, y repite este procedimiento hasta su convergencia. En este trabajo se compara este método de imputación con otros métodos sugeridos en la bibliografía aplicados a los datos obtenidos en la ENGHo 2017-2018. Los métodos incluidos en la comparación son: Random Hot Deck (RHD), Vecino más cercano (VMC), Algoritmo Expectation-Maximization (EM), Amelia y Mice. Se determinó que la pérdida podía ser considerada completamente al azar, siendo este patrón uno de los escenarios planteados. Por otra parte, se consideró otro esquema de pérdida en la variable de interés basado en la variable estrato de áreas. Bajo ambos patrones de pérdida, se consideraron distintos porcentajes de valores perdidos. En todos los escenarios planteados, el método iterativo missForest presentó valores de Error Cuadrático Medio Normalizado (NRMSE) inferiores a los competidores, siendo el método Mice el que obtuvo valores similares, si bien en todos los casos levemente superiores. Con respecto a los tiempos de procesamiento, este último método presentó tiempos promedios muy superiores al resto de los métodos, siendo el missForest claramente el segundo método con tiempos promedios de cómputo más altos, pero aun así notablemente inferiores a los del Mice.

Palabras clave

Encuesta de Gastos de los Hogares, imputación, MissForest

Citación