Utilidad de los datos y su relación con distintos Métodos de Anonimización utilizando el Propensity Score
dc.citation.title | Resumen Ampliado Actas Anuales Investigaciones en la Facultad de Ciencias Económicas y Estadística de la U.N.R. | |
dc.citation.volume | 1-8 | |
dc.creator | Bussi, Daniel | |
dc.creator | Wojdyla, Daniel | |
dc.date.accessioned | 2024-02-26T14:36:03Z | |
dc.date.available | 2024-02-26T14:36:03Z | |
dc.date.issued | 2023-09-18 | |
dc.description.abstract | En los últimos años ha crecido la idea de que los datos deben estar disponibles, de manera accesible y rápida, al conjunto de la sociedad. En la Argentina, existe la obligación de respetar el secreto estadístico de las unidades de información y por lo tanto es necesario desarrollar alternativas que permitan satisfacer ambas metas: publicar los datos y mantener el secreto estadístico. Es por este motivo que se estudian distintos métodos de anomización que se engloban dentro de lo que se denomina el Control Estadístico de Divulgación. El objetivo de los métodos de anonimización es minimizar el riesgo de divulgación de la identidad de las unidades de información manteniendo la utilidad de los datos, evaluada a través de distintas medidas basadas en la distancia entre los datos originales y perturbados. En este trabajo se presentan dos medidas que utilizan el Propensity Score y se muestran sus desempeños en un conjunto de datos provenientes de Estadísticas Oficiales. Se realizó un estudio de simulación considerando la combinación de dos métodos de anonimización (microagregación y ruido corelacionado), las dos medidas de utilidad propuestas y 3 niveles de riesgo de divulgación. Este estudio muestra que ambas medidas son sensibles a distintos grados de anonimización: sus valores crecen a medida que la utilidad de los datos disminuye. Las mismas proveen una medida global de utilidad apropiada para evaluar la pérdida de información. | |
dc.description.abstract | In recent years, the idea that data must be available to the general public easily and quickly has gained momentum. In Argentina, there is an obligation to respect the confidentiality of the information units and therefore it is essential to develop methods that allow both goals to be met: publishing the data and maintaining statistical secrecy. It is for this reason that different anomization methods are studied that are included within what is called Statistical Disclosure Control. The objective of the anonymization methods is to minimize the risk of disclosure of the identity of the units of information while maintaining the utility of the data that is evaluated through different measures that consider the distance between the original and the modified data. In this work, two of the measures based on the Propensity Score are presented and their performance is shown in a dataset from Official Statistics. A simulation study was carried out considering the combination of two anonymization methods (microaggregation and correlated noise), the two proposed utility measures and 3 levels of disclosure risk. This study shows that both measures presented are sensitive to different degrees of anonymization, since their values | |
dc.description.fil | Bussi, Javier. Universidad Nacional de Rosario. Facultad de Ciencias Económicas y Estadística. Argentina | |
dc.description.fil | Wojdyla, Daniel M. Universidad Nacional de Rosario. Facultad de Ciencias Económicas y Estadística. Argentina | |
dc.identifier.issn | 2718-6636 | |
dc.identifier.uri | https://hdl.handle.net/2133/26721 | |
dc.language.iso | es | |
dc.publisher | Facultad de Ciencias Económicas y Estadística. Secretaría de Ciencia y Tecnología. | |
dc.relation.publisherversion | https://www.fcecon.unr.edu.ar/seccion/investigacion/jornadas-de-investigacion | |
dc.rights | openAccess | |
dc.rights.holder | Universidad Nacional de Rosario | |
dc.rights.text | Attribution-NonCommercial-NoDerivs 2.5 Argentina | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/2.5/ar/ | |
dc.subject | Control Estadístico de Divulgación | |
dc.subject | Estadísticas Oficiales | |
dc.subject | Propensity Score | |
dc.title | Utilidad de los datos y su relación con distintos Métodos de Anonimización utilizando el Propensity Score | |
dc.type | articulo | |
dc.type.version | publishedVersion | |
lom.educational.context | grado | |
lom.educational.difficulty | sencillo | |
lom.educational.interactivity | activa | |
lom.educational.typicalAgeRange | adultos |