Utilidad de los datos y su relación con distintos Métodos de Anonimización utilizando el Propensity Score

Bussi, Daniel; Wojdyla, Daniel

Utilidad de los datos y su relación con distintos Métodos de Anonimización utilizando el Propensity Score

dc.citation.title	Resumen Ampliado Actas Anuales Investigaciones en la Facultad de Ciencias Económicas y Estadística de la U.N.R.
dc.citation.volume	1-8
dc.creator	Bussi, Daniel
dc.creator	Wojdyla, Daniel
dc.date.accessioned	2024-02-26T14:36:03Z
dc.date.available	2024-02-26T14:36:03Z
dc.date.issued	2023-09-18
dc.description.abstract	En los últimos años ha crecido la idea de que los datos deben estar disponibles, de manera accesible y rápida, al conjunto de la sociedad. En la Argentina, existe la obligación de respetar el secreto estadístico de las unidades de información y por lo tanto es necesario desarrollar alternativas que permitan satisfacer ambas metas: publicar los datos y mantener el secreto estadístico. Es por este motivo que se estudian distintos métodos de anomización que se engloban dentro de lo que se denomina el Control Estadístico de Divulgación. El objetivo de los métodos de anonimización es minimizar el riesgo de divulgación de la identidad de las unidades de información manteniendo la utilidad de los datos, evaluada a través de distintas medidas basadas en la distancia entre los datos originales y perturbados. En este trabajo se presentan dos medidas que utilizan el Propensity Score y se muestran sus desempeños en un conjunto de datos provenientes de Estadísticas Oficiales. Se realizó un estudio de simulación considerando la combinación de dos métodos de anonimización (microagregación y ruido corelacionado), las dos medidas de utilidad propuestas y 3 niveles de riesgo de divulgación. Este estudio muestra que ambas medidas son sensibles a distintos grados de anonimización: sus valores crecen a medida que la utilidad de los datos disminuye. Las mismas proveen una medida global de utilidad apropiada para evaluar la pérdida de información.
dc.description.abstract	In recent years, the idea that data must be available to the general public easily and quickly has gained momentum. In Argentina, there is an obligation to respect the confidentiality of the information units and therefore it is essential to develop methods that allow both goals to be met: publishing the data and maintaining statistical secrecy. It is for this reason that different anomization methods are studied that are included within what is called Statistical Disclosure Control. The objective of the anonymization methods is to minimize the risk of disclosure of the identity of the units of information while maintaining the utility of the data that is evaluated through different measures that consider the distance between the original and the modified data. In this work, two of the measures based on the Propensity Score are presented and their performance is shown in a dataset from Official Statistics. A simulation study was carried out considering the combination of two anonymization methods (microaggregation and correlated noise), the two proposed utility measures and 3 levels of disclosure risk. This study shows that both measures presented are sensitive to different degrees of anonymization, since their values
dc.description.fil	Bussi, Javier. Universidad Nacional de Rosario. Facultad de Ciencias Económicas y Estadística. Argentina
dc.description.fil	Wojdyla, Daniel M. Universidad Nacional de Rosario. Facultad de Ciencias Económicas y Estadística. Argentina
dc.identifier.issn	2718-6636
dc.identifier.uri	https://hdl.handle.net/2133/26721
dc.language.iso	es
dc.publisher	Facultad de Ciencias Económicas y Estadística. Secretaría de Ciencia y Tecnología.
dc.relation.publisherversion	https://www.fcecon.unr.edu.ar/seccion/investigacion/jornadas-de-investigacion
dc.rights	openAccess
dc.rights.holder	Universidad Nacional de Rosario
dc.rights.text	Attribution-NonCommercial-NoDerivs 2.5 Argentina	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/2.5/ar/
dc.subject	Control Estadístico de Divulgación
dc.subject	Estadísticas Oficiales
dc.subject	Propensity Score
dc.title	Utilidad de los datos y su relación con distintos Métodos de Anonimización utilizando el Propensity Score
dc.type	articulo
dc.type.version	publishedVersion
lom.educational.context	grado
lom.educational.difficulty	sencillo
lom.educational.interactivity	activa
lom.educational.typicalAgeRange	adultos

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Bussi, Wojdyla - Utilidad de los datos.pdf
Tamaño:: 669.04 KB
Formato:: Adobe Portable Document Format

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 3.87 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

FCEyE 2023 - Resúmenes Ampliados Jornadas Anuales - Vigesimoséptimas: 18, 19 y 20-09-2023