Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares
dc.citation.title | Vigésimoterceras Jornadas "Investigaciones en la Facultad" de Ciencias Económicas y Estadística de la Universidad Nacional de Rosario | es |
dc.contributor.organizer | Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario | es |
dc.creator | Bussi, Javier | |
dc.creator | Hernández, Lucia Noelia | |
dc.creator | Marí, Gonzalo Pablo Domingo | |
dc.creator | Méndez, Fernanda | |
dc.creator | Mitas, Gerardo | |
dc.date.accessioned | 2019-02-18T14:58:07Z | |
dc.date.available | 2019-02-18T14:58:07Z | |
dc.date.issued | 2018-12-11 | |
dc.description.abstract | La presencia de no respuesta es una de las principales dificultades que se presentan en las encuestas. La no respuesta puede ser total o parcial, existiendo una variedad de soluciones dependiendo de la situación. Si la no respuesta es parcial, la imputación de los valores perdidos es una opción usualmente utilizada. En el año 2018, se propuso en el Instituto Nacional de Estadística y Censos (INDEC), una revisión de los métodos de imputación aplicados a la Encuesta Nacional de Gastos de los Hogares (ENGHo). El método missForest (Stekhoven y Bühlmann, 2012) es un método de imputación no paramétrico cuyo algoritmo consiste en un proceso iterativo que asigna valores iniciales a los datos perdidos, construye un Forest ajustado el cual permite predecir nuevos datos imputados para cada una de las variables involucradas, y repite este procedimiento hasta su convergencia. En este trabajo se compara este método de imputación con otros métodos sugeridos en la bibliografía aplicados a los datos obtenidos en la ENGHo 2017-2018. Los métodos incluidos en la comparación son: Random Hot Deck (RHD), Vecino más cercano (VMC), Algoritmo Expectation-Maximization (EM), Amelia y Mice. Se determinó que la pérdida podía ser considerada completamente al azar, siendo este patrón uno de los escenarios planteados. Por otra parte, se consideró otro esquema de pérdida en la variable de interés basado en la variable estrato de áreas. Bajo ambos patrones de pérdida, se consideraron distintos porcentajes de valores perdidos. En todos los escenarios planteados, el método iterativo missForest presentó valores de Error Cuadrático Medio Normalizado (NRMSE) inferiores a los competidores, siendo el método Mice el que obtuvo valores similares, si bien en todos los casos levemente superiores. Con respecto a los tiempos de procesamiento, este último método presentó tiempos promedios muy superiores al resto de los métodos, siendo el missForest claramente el segundo método con tiempos promedios de cómputo más altos, pero aun así notablemente inferiores a los del Mice. | es |
dc.description.abstract | The Non-Response in surveys is one of their major issues. Non-Response could be total or partial, with a variety of solutions depending on each situation in particular. If the Non-Response is partial, imputation of missing data is a method widely used. In 2018, the National Institute of Statistics and Censuses (INDEC) proposed a revision of the methods applied to the Household Expenditure Survey (ENGHo). The missForest is a nonparametric method of imputation in which the algorithm used is an iterative process that assigns initial values to the missing data, fits a random forest for each variable based on the observed values predicting new imputed observations until convergence. In this work, this method is compared to other methods reccomended for imputation in the bibliography. These methods are applied to data from the ENGHo 2017-1018. The methods considered for the comparison were: Random Hot Deck (RHD), Nearest Neighbor (NN), Expectation-Maximization Algorithm (EM), Amelia and Mice. It was determined that the values could be missing completely at random, and this type of pattern was one of the two scenarios considered for the comparison. In the second scenario considered, the probability of missing data depends on the stratum where the unit belongs. In both scenarios the Normal Root Square Mean Error (NRSME) for the missForest method was lower in comparison to all the competitors, being the Mice method the one that produced similar values but always slightly higher. With respect to computational processing times, the Mice method presented much higher average values in comparison to the other methods, being the missForest the second method with higher average processing times, but nonetheless, notably lower than those of Mice. | es |
dc.description.fil | Bussi, Javier; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario | es |
dc.description.fil | Hernández, Lucía Noelia; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario | es |
dc.description.fil | Fil: Marí, Gonzalo Pablo Domingo; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario | es |
dc.description.fil | Méndez, Fernanda; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario | es |
dc.description.fil | Mitas, Gerardo; Facultad de Ciencias Económicas y Estadística, Universidad Nacional de Rosario | es |
dc.format | application/pdf | |
dc.identifier.issn | 1668-5008 | es |
dc.identifier.uri | http://hdl.handle.net/2133/14011 | |
dc.language.iso | spa | es |
dc.relation.publisherversion | https://www.fcecon.unr.edu.ar/web-nueva/investigacion/actas-de-las-jornadas-anuales | es |
dc.rights | openAccess | es |
dc.rights.holder | Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario | es |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/ar/ | * |
dc.subject | Encuesta de Gastos de los Hogares | es |
dc.subject | imputación | es |
dc.subject | MissForest | es |
dc.title | Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares | es |
dc.type | conferenceObject | |
dc.type | documento de conferencia | |
dc.type.collection | comunicaciones |
Archivos
Bloque original
1 - 1 de 1
Cargando...
- Nombre:
- Bussi, Mari, Mendez_el desafio del Big Data.pdf
- Tamaño:
- 140.08 KB
- Formato:
- Adobe Portable Document Format
- Descripción:
Bloque de licencias
1 - 1 de 1
- Nombre:
- license.txt
- Tamaño:
- 3.59 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción: