Método de Anonimización de Bases de Datos en Estadísticas Oficiales

Fecha

2019-11-27

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

En Argentina, la Ley Nº 17.622 del año 1968, establece que la información que se suministre a los organismos integrantes del Sistema Estadístico Nacional está protegida por el secreto estadístico, el cual asegura que los datos deberán ser publicados de forma tal que no pueda individualizarse a las unidades a quienes se refieran los mismos. Es por este motivo, que los organismos oficiales de estadística establecen una serie de medidas tendientes a asegurar el anonimato de los informantes. Estas acciones, en muchos operativos, se reducen a la no publicación de las bases de datos, siendo las estadísticas que se publican la única información disponible para los mismos. De esta forma, no existe la posibilidad que los usuarios desarrollen sus propios análisis sobre los conjuntos de datos. Otra situación se presenta en el caso de las encuestas por muestreo, donde una práctica habitual es la difusión de bases de datos de usuarios, las cuales contienen las variables que fueron medidas durante el operativo, pero carecen de aquellas referidas al diseño muestral, que permitiría, en un hipotético caso, identificar a las unidades a las cuales se refiere la información. Esta decisión posee la desventaja de que sin esa información no es posible llevar a cabo análisis adicionales apropiados sobre las bases de datos debido a que no es posible considerar las características del diseño muestral empleado, que, en la mayoría de los casos, es complejo y no emplear la información del mismo en el análisis de los datos conlleva a que los resultados no sean válidos. En ambas situaciones la anonimización de las unidades de análisis está garantizada, si bien la pérdida de información es demasiado importante, en un caso por la ausencia total de la misma y en el segundo caso por la imposibilidad de poder emplear el diseño muestral en los análisis posteriores. De esta forma, debe existir un balance entre la pérdida o distorsión de la información que se publica y la anonimización de las unidades que brindaron los datos, de tal forma que no exista riesgo de divulgación de la identidad, pero con una mínima perdida de información que permita que la base de datos protegida continúe siendo útil. En el presente trabajo se estudian distintos métodos de anonimización de bases de datos, tanto para variables categóricas como cuantitativas, y se evalúan los mismos considerando medidas relacionadas con el riesgo de divulgación y la pérdida de información que ocasionan las metodologías consideradas.

Descripción

Palabras clave

estadísticas oficiales, riesgos de divulgación, anonimización

Citación