Utilidad de los datos y su relación con distintos Métodos de Anonimización utilizando el Propensity Score

Fecha

2023-09-18

Título de la revista

ISSN de la revista

Título del volumen

Editor

Facultad de Ciencias Económicas y Estadística. Secretaría de Ciencia y Tecnología.
Resumen
En los últimos años ha crecido la idea de que los datos deben estar disponibles, de manera accesible y rápida, al conjunto de la sociedad. En la Argentina, existe la obligación de respetar el secreto estadístico de las unidades de información y por lo tanto es necesario desarrollar alternativas que permitan satisfacer ambas metas: publicar los datos y mantener el secreto estadístico. Es por este motivo que se estudian distintos métodos de anomización que se engloban dentro de lo que se denomina el Control Estadístico de Divulgación. El objetivo de los métodos de anonimización es minimizar el riesgo de divulgación de la identidad de las unidades de información manteniendo la utilidad de los datos, evaluada a través de distintas medidas basadas en la distancia entre los datos originales y perturbados. En este trabajo se presentan dos medidas que utilizan el Propensity Score y se muestran sus desempeños en un conjunto de datos provenientes de Estadísticas Oficiales. Se realizó un estudio de simulación considerando la combinación de dos métodos de anonimización (microagregación y ruido corelacionado), las dos medidas de utilidad propuestas y 3 niveles de riesgo de divulgación. Este estudio muestra que ambas medidas son sensibles a distintos grados de anonimización: sus valores crecen a medida que la utilidad de los datos disminuye. Las mismas proveen una medida global de utilidad apropiada para evaluar la pérdida de información.

Palabras clave

Control Estadístico de Divulgación, Estadísticas Oficiales, Propensity Score

Citación