Resolución de ambigüedades en el etiquetado de un texto mediante un modelo de regresión logística

2019-03-222019-03-2220091851-1996http://hdl.handle.net/2133/14275En este trabajo se busca resolver mediante modelos estadísticos algunas de las ambigüedades observadas con frecuencia durante el proceso de etiquetado de un texto. El modelo estadístico planteado es el de regresión logística. Es estimado a partir de un texto de entrenamiento etiquetado y supervisado manualmente. Las variables explicativas utilizadas para predecir la etiqueta correcta, y así resolver la ambigüedad, serán la etiqueta observada en la palabra anterior y la etiqueta observada en la palabra siguiente. Se estiman modelos para resolver las ambigüedades: determinante/clítico (DET/CL) y nombre/verbo (NOM/V). Los modelos son luego evaluados en un nuevo texto. Para la ambigüedad DET/CL, el porcentaje de clasificación correcta es 98.8%. El modelo otorga mayor probabilidad a la etiqueta DET cuando la etiqueta anterior es verbo o preposición. Con respecto a la información de la etiqueta posterior, el modelo asigna una probabilidad de CL mayor si le sigue un verbo que si le sigue otra etiqueta. En la resolución de la ambigüedad NOM/V, el modelo resultante asigna una probabilidad mayor de NOM cuando la etiqueta anterior es determinante o preposición y si la etiqueta siguiente es un adjetivo. El porcentaje de clasificación correcta es 86.8%.application/pdf27-36spaopenAccessRregresiónLogísticaAmbigüedadesResolución de ambigüedades en el etiquetado de un texto mediante un modelo de regresión logísticaarticle