Examinando por Autor "Bussi, Javier"
Mostrando 1 - 19 de 19
Resultados por página
Opciones de ordenación
Ítem Acceso Abierto Bootstrap rápido y robusto para datos dependientes: estimador de la función de autocorrelación en modelos ar(1) con múltiples outliers(2016-11) Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioLos métodos de replicaciones para la estimación de la FAC de un modelo de serie de tiempo AR(1) presentaron resultados diversos cuando se presentan ciertos porcentajes de contaminación. El estimador basado en el método FRB parece ser una buena alternativa al estimador altamente robusto MG ya que resulta tener un comportamiento similar en los casos simulados. Los restantes estimadores parecieran ser inferiores tanto en sesgo como en error cuadrático medio y mediano, en particular los estimadores Jackknife.Ítem Acceso Abierto Bootstrap robusto en regresión lineal: el caso de tres predictores(2013-11) Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto El ciclo del PIB y su relación con otras variables económicas en Argentina(2008-11-24) Blaconá, María Teresa; Bussi, Javier; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto Componentes principales esféricas y matriz de covariancia de determinante mínimo: una aplicación sobre indicadores de carencias críticas(2016-11) Ciccioli, Patricia; Bussi, Javier; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioEn este trabajo se presentan dos técnicas robustas para el análisis de componentes principales: Matriz de Covariancia de Determinante Mínimo (MCD) y Componentes Principales Esféricas (SPC) y se las compara con el Análisis de Componentes Principales (ACP) clásico en una aplicación sobre indicadores de carencias críticas. Para poder resumir las diferencias sociales y económicas existentes entre las ciudades y comunas de Santa Fe es necesario retener más componentes principales en los métodos robustos (MCD y SPC) que en el método clásico. Se observa que para el método clásico solo una componente principal es suficiente mientras que, para los métodos robustos MCD y SPC se necesitan al menos dos componentes principales para poder resumir las diferencias presentes en los datos. Puede notarse que las variables que más aportan en la conformación de la primera componente principal en el método clásico son aquellas que contienen una mayor variabilidad en los datos con una gran cantidad de outliers dispersos, los cuales toman valores altos. De esta manera, se puede observar que el método clásico está influenciado por valores extremos, dando resultados e interpretaciones que pueden estar alejados del comportamiento del conjunto central de datos que representa la gran mayoría de ellosÍtem Acceso Abierto Componentes principales robustas: una aplicación a localidades de la provincia de santa fe(2014-11) Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioEn este trabajo se presentó un análisis de componentes principales robusto a partir de los estimadores MM. Por otro lado, se consideró el método Bootstrap Rápido y Robusto para estimar intervalos de confianza para la proporción de variancia explicada de las componentes, y para calcular los límites de confianza de las cargas de las componentes principales robustas. Se desarrolló una aplicación de estos métodos a datos correspondientes a indicadores de carencias de comunas de la provincia de Santa Fe provenientes del Censo Nacional de Población, Hogares y Viviendas 2010, con el objetivo de lograr una estratificación de las mismas para un futuro marco de muestreo. A partir de la primera componente robusta se construyó un Índice de carencias, a partir del cual se estratificó a las comunas en cinco estratos a partir del método geométrico, el cual es apropiado para poblaciones asimétricas. Se observó que el estrato al cual pertenecen las comunas está relacionado con el nodo donde se encuentran ubicadas, encontrándose que a medida que uno se mueve de sur a norte en la provincia, las comunas tienden a tener mayores carenciasÍtem Acceso Abierto Comportamiento de la serie de tiempo tasa de desocupación Del gran rosario en el período 1974-2005(2005-11) Blaconá, María Teresa; Bussi, Javier; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto Consideraciones metodológicas sobre la estimación econométrica de las ecuaciones de ingresos de los integrantes de la pareja conyugal(2001-11) Blaconá, María Teresa; García, María del Carmen Eva; Borgognone, María Gabriela; Bussi, Javier; Ventroni, Nora Isabel; Pellegrini, José Luis; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto El desafío del big data en estadísticas oficiales en Argentina(2017-11-22) Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioLa generación de datos de todo tipo se ha incrementado en los últimos años, ya sea en cuanto a cantidad, frecuencia y disponibilidad, lo que ha dado lugar a la incorporación del término Big Data. La abundancia de estas fuentes de datos representa un desafío y una oportunidad extremadamente interesante en el terreno de las Estadísticas Oficiales. Muchas agencias nacionales de estadística de distintos países han implementado divisiones dedicadas específicamente al tema y la Organización de las Naciones Unidas a través de su Comisión de Estadística creó el Grupo de Trabajo Mundial en el año 2014. Las recomendaciones sobre el uso de Big Data en esta área se centran en varios aspectos y se han vuelto más específicas con el avance de los años, pero pueden resumirse en los siguientes puntos: a) el acceso a datos que pertenecen a otros organismos b) establecimiento de una asociación exitosa y colaborativa con los proveedores de datos, c) desarrollo de actividades prácticas a través de proyectos piloto y d) construcción de metodología apropiada para la utilización de Big Data en el proceso de generación de Estadísticas Oficiales. El Instituto Nacional de Estadística y Censos (INDEC) ha dado importantes primeros pasos en el área siguiendo estas recomendaciones a través de la firma del acuerdo sobre cooperación en temáticas de innovación estadística con el Central Bureau of Statistics (CBS) de los Países Bajos en el año 2017. Aun así, el desafío del uso del Big Data en Estadísticas Oficiales en Argentina sigue siendo inmenso. Demanda intenso trabajo metodológico y técnico, y debe atender temas tales como la capacitación de personal en las metodologías necesarias y la creación de puestos específicos para la incorporación de fuentes de Big Data en la producción de Estadísticas Oficiales.Ítem Acceso Abierto Distintos métodos para la estimación de ciclos económicos(2007-11-27) Blaconá, María Teresa; Bussi, Javier; Méndez, Fernanda; Sigal, Facundo; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto Estimación de la función de autocorrelación en modelos AR(1) con Métodos de Replicaciones.(2015-11-18) Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioLa función de autocorrelación (FAC) es una herramienta fundamental en el análisis de series de tiempo lineales, entre otras muchas cuestiones, para la identificación del modelo. La estimación muestral de la FAC es altamente sensible a la presencia de observaciones extremas. El objetivo del presente trabajo es comparar distintos estimadores de la FAC propuestos en la literatura con cinco estimadores basados en métodos de replicaciones a través del sesgo y el Error Cuadrático Medio (ECM). Cuatro de estos estimadores son variaciones basadas en la técnica Jackknife para series de tiempo con bloques móviles. El restante es una adaptación del estimador a través del método Bootstrap Rápido y Robusto (FRB) con el fin de estimar la FAC. Se compararon las estimaciones para el rezago de orden 1 de la FAC de un modelo AR(1). El estimador basado en el método FRB parece ser un serio competidor del estimador altamente robusto MG ya que es superior en cuanto a sesgo y ECM en los casos de ausencia de outliers y resulta tener un comportamiento similar en los casos simulados con un outlier con Φ=±0,9; ±0,6. Lo mismo ocurre si se lo compara con el estimador Trun2, el cual tiene un buen comportamiento cuando existen outliers. Para los casos en donde el valor de Φ en valor absoluto es 0,3, el desempeño del método FRB decae notablemente. Los estimadores basados en el método Jackknife se comportan razonablemente bien en presencia de observaciones extremas pero no logran en ningún caso superar el desempeño logrado por el estimador MG.Ítem Acceso Abierto la estimación máximo verosímil como alternativa para el tratamiento de la falta de información en encuestas(2001-11) Badler, Clara Elisabeth; Alsina, Sara María; Beltrán, Celina; Bussi, Javier; Puigsubirá, Cristina; Vitelleschi, María Susana; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto Estudio multivariado de las series de tiempo tasa de desocupación de gran Buenos Aires y gran Rosario, 1974-2005(2005-11) Blaconá, María Teresa; Bussi, Javier; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto Indicadores de calidad de la información en la anonimización de bases de datos de estadísticas oficiales(2021-04-26) Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioLos operativos estadísticos tienen por objetivo recolectar datos de unidades de observación que pueden estar constituidas por personas, hogares, empresas u otros objetos. Estos datos proveen información que, para el caso de las estadísticas oficiales, proporcionan elementos importantes para la evaluación de políticas implementadas y para la toma de decisiones a futuro. Si bien este es el objetivo primario, no puede desconocerse que existe una marcada tendencia en aumento a la difusión de la información a la sociedad para que la misma utilice los datos para analizarlos y poder obtener sus propias conclusiones. De esta forma, en los últimos tiempos, el término datos abiertos tuvo una expansión significativa, al punto tal que existen portales oficiales que contienen datos a los cuales el público en general puede acceder. Por otra parte, la Ley N° 17.622 menciona la obligación de respetar el secreto estadístico en la divulgación de los operativos que se llevan a cabo. De esta forma, existe una contraposición entre ambas posturas, datos abiertos versus secreto estadístico, que es importante a tener en cuenta para buscar soluciones que permitan brindar información sin violar el secreto estadístico. Es por este motivo, que se estudian distintas alternativas que se engloban dentro del término anonimización. Se propone utilizar métodos de anonimización perturbadores, los cuales modifican los datos observados de las unidades para evitar que un intruso pueda detectar, con información secundaria, la identidad de la misma, lo que provocaría que el organismo que difunde la información violase la ley mencionada. Se evalúan las técnicas de perturbación que adicionan un ruido aleatorio a los datos y la de microagregación, que asignan un valor representativo a todas las unidades que forman parte de un grupo de unidades determinado por la cercanía de las mismas. Se comparan los métodos propuestos a través de medidas que dan cuenta de la distorsión que producen en las estimaciones de ciertos parámetros la aplicación de los métodos de perturbación a los datos originales. En el presente trabajo, se evalúan ciertos escenarios de anonimización sobre la base usuario de la ENGHO publicada por el INDEC, utilizando las bases de pesos replicados para la estimación de ciertos parámetros que cuantifican el error muestral. En general, los métodos que adicionan un ruido aleatorio no correlacionado presentan mejores resultados que sus competidores, y más consistentes que los que produce el método de microagregación.Ítem Acceso Abierto Método de Anonimización de Bases de Datos en Estadísticas Oficiales(2019-11-27) Bussi, Javier; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioEn Argentina, la Ley Nº 17.622 del año 1968, establece que la información que se suministre a los organismos integrantes del Sistema Estadístico Nacional está protegida por el secreto estadístico, el cual asegura que los datos deberán ser publicados de forma tal que no pueda individualizarse a las unidades a quienes se refieran los mismos. Es por este motivo, que los organismos oficiales de estadística establecen una serie de medidas tendientes a asegurar el anonimato de los informantes. Estas acciones, en muchos operativos, se reducen a la no publicación de las bases de datos, siendo las estadísticas que se publican la única información disponible para los mismos. De esta forma, no existe la posibilidad que los usuarios desarrollen sus propios análisis sobre los conjuntos de datos. Otra situación se presenta en el caso de las encuestas por muestreo, donde una práctica habitual es la difusión de bases de datos de usuarios, las cuales contienen las variables que fueron medidas durante el operativo, pero carecen de aquellas referidas al diseño muestral, que permitiría, en un hipotético caso, identificar a las unidades a las cuales se refiere la información. Esta decisión posee la desventaja de que sin esa información no es posible llevar a cabo análisis adicionales apropiados sobre las bases de datos debido a que no es posible considerar las características del diseño muestral empleado, que, en la mayoría de los casos, es complejo y no emplear la información del mismo en el análisis de los datos conlleva a que los resultados no sean válidos. En ambas situaciones la anonimización de las unidades de análisis está garantizada, si bien la pérdida de información es demasiado importante, en un caso por la ausencia total de la misma y en el segundo caso por la imposibilidad de poder emplear el diseño muestral en los análisis posteriores. De esta forma, debe existir un balance entre la pérdida o distorsión de la información que se publica y la anonimización de las unidades que brindaron los datos, de tal forma que no exista riesgo de divulgación de la identidad, pero con una mínima perdida de información que permita que la base de datos protegida continúe siendo útil. En el presente trabajo se estudian distintos métodos de anonimización de bases de datos, tanto para variables categóricas como cuantitativas, y se evalúan los mismos considerando medidas relacionadas con el riesgo de divulgación y la pérdida de información que ocasionan las metodologías consideradas.Ítem Acceso Abierto Una revisión de los distintos métodos robustos para el análisis de componentes principales(2015-11-18) Bussi, Javier; Ciccioli, Patricia; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioEn este trabajo se presenta una revisión de algunos de los métodos robustos más difundidos desarrollados hasta la actualidad para el análisis de componentes principales (ACP). Se analizan sus características, sus coincidencias y diferencias. Se presentan además las funciones que se encuentran programadas en el paquete estadístico R de algunos de estos métodos.Ítem Acceso Abierto Tópicos recientes de series de tiempo multivariadas aplicados en la economía(2004-11) Blaconá, María Teresa; Bussi, Javier; Ventroni, Nora Isabel; Beltrán, Celina; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto Un estudio comparativo de la potencia de los Tests de Kolmogorov-Smirnov y Wald-wolfowitz para dos muestras independientes en el caso de la distribución normal(Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosario, 2023-09-20) Bussi, Javier; Prunello, Marcos; Toledo, PaulinaEl Test de Kolmogorov-Smirnov (K-S) y el Test de Rachas de Wald-Walfowitz (W-W) para dos muestras independientes sirven para ensayar la misma prueba de hipótesis que evalúa si ambas poblaciones cuentan con igual función de distribución de probabilidad. Si bien son pruebas muy difundidas, no se han encontrado antecedentes en la revisión bibliográfica que determinen cuál de las dos pruebas es más potente. En este trabajo se realizó un estudio de simulación en donde se seleccionaron distintos valores para los parámetros de las dos poblaciones normales a comparar. Se determinaron diversos tamaños muestrales, tanto iguales como diferentes. En total se plantearon 1.032 escenarios y se realizaron 1.000 repeticiones de cada uno de ellos. En cada simulación se computó una estimación empírica de la potencia para ambas pruebas. El test de K-S resultó ser más potente cuando las distribuciones normales difieren solo en posición. En el caso de que las muestras provengan de distribuciones normales que difieran solo en dispersión, el test de W-W resultó ser más potente. Cuando las poblaciones difieren en localización y en dispersión, K-S presenta mayores potencias en la mayoría de los casos. En términos generales, en este estudio, se puede concluir que K-S es superior en cuanto a potencia que el Test de Rachas, en el caso que las muestras provengan de distribuciones normales (71% de los escenarios simulados).Ítem Acceso Abierto Uso de modelos de sistemas de ecuaciones para datos de panel con información de la EPH(2000-11) Blaconá, María Teresa; García, María del Carmen Eva; Borgognone, María Gabriela; Bussi, Javier; Ventroni, Nora Isabel; Pellegrini, José Luis; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de Rosarion.d.Ítem Acceso Abierto Visualización y métodos de imputación de datos faltantes en la Encuesta de Gasto en los Hogares(2018-12-11) Bussi, Javier; Hernández, Lucia Noelia; Marí, Gonzalo Pablo Domingo; Méndez, Fernanda; Mitas, Gerardo; Secretaría de Ciencia y Tecnología. Facultad de Ciencias Económicas y Estadística. Universidad Nacional de RosarioLa presencia de no respuesta es una de las principales dificultades que se presentan en las encuestas. La no respuesta puede ser total o parcial, existiendo una variedad de soluciones dependiendo de la situación. Si la no respuesta es parcial, la imputación de los valores perdidos es una opción usualmente utilizada. En el año 2018, se propuso en el Instituto Nacional de Estadística y Censos (INDEC), una revisión de los métodos de imputación aplicados a la Encuesta Nacional de Gastos de los Hogares (ENGHo). El método missForest (Stekhoven y Bühlmann, 2012) es un método de imputación no paramétrico cuyo algoritmo consiste en un proceso iterativo que asigna valores iniciales a los datos perdidos, construye un Forest ajustado el cual permite predecir nuevos datos imputados para cada una de las variables involucradas, y repite este procedimiento hasta su convergencia. En este trabajo se compara este método de imputación con otros métodos sugeridos en la bibliografía aplicados a los datos obtenidos en la ENGHo 2017-2018. Los métodos incluidos en la comparación son: Random Hot Deck (RHD), Vecino más cercano (VMC), Algoritmo Expectation-Maximization (EM), Amelia y Mice. Se determinó que la pérdida podía ser considerada completamente al azar, siendo este patrón uno de los escenarios planteados. Por otra parte, se consideró otro esquema de pérdida en la variable de interés basado en la variable estrato de áreas. Bajo ambos patrones de pérdida, se consideraron distintos porcentajes de valores perdidos. En todos los escenarios planteados, el método iterativo missForest presentó valores de Error Cuadrático Medio Normalizado (NRMSE) inferiores a los competidores, siendo el método Mice el que obtuvo valores similares, si bien en todos los casos levemente superiores. Con respecto a los tiempos de procesamiento, este último método presentó tiempos promedios muy superiores al resto de los métodos, siendo el missForest claramente el segundo método con tiempos promedios de cómputo más altos, pero aun así notablemente inferiores a los del Mice.