El repositorio ya se encuentra disponible para continuar trabajando. Disculpen las molestias.

 

AGR228 MODELIZACIÓN ESTADÍSTICA EN LA CLASIFICACIÓN DE TEXTOS: CIENTÍFICOS Y NO CIENTÍFICOS

Fecha

2018-09-01

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen
Respecto a los resultados encontrados en la clasificación según el género de los textos se pueden enumerar los siguientes resultados: Los resultados del análisis morfológico de los textos se analizaron teniendo en cuenta simultáneamente todas las mediciones realizadas sobre ellos. El desempeño de las técnicas fue medido con la tasa de mala clasificación (TMC), la precisión (PR) y la cobertura (CO), calculadas sobre una muestra de textos no incluidos en la estimación de los modelos. En la comparación entre Regresión logística y árboles de clasificación, el árbol presentó una TMC inferior a la del modelo logístico logrando clasificar con mayor precisión los textos científicos. Para el AC la TMC, PR y CO resultaron 4%, 84% y 96% para los textos científicos y 28%, 92% y 72% para los textos no científicos, respectivamente. Para el modelo de RL la TMC, PR y CO resultaron 14%, 83% y 86% para los textos científicos y 26%, 77% y 74% para los textos no científicos, respectivamente. La diferencia en la tasa de mala clasificación sólo se diferenció en el corpus de textos científicos para el cual con el árbol se obtuvo un 4% de mala clasificación versus un 14% para el modelo de regresión logística. En ambos tipos de análisis, las diferencias entre los dos tipos de textos están centradas principalmente en el porcentaje de adverbios, adjetivos, nombres y preposiciones presentes. Sin embargo, en el modelo de regresión logística han intervenido otras variables en la discriminación como los determinantes y conjunciones copulativas; mientras que el árbol de clasificación utiliza el porcentaje de verbos, categoría morfológica no utilizada en la regresión. Una ventaja observada en el árbol de clasificación es la adaptación para recoger el comportamiento no aditivo de las variables predictoras, de manera que las interacciones se incluyen de manera automática. Sin embargo, en esta técnica se pierde información al tratar a las variables predictoras continuas como variables dicotómicas. Mediante la utilización de la herramienta Weka se ha logrado comprobar la utilidad que tiene el uso de las Redes Neuronales Artificiales, en este caso específico el modelo Perceptrón Multicapa (MLP), para predecir el género correspondiente a un texto. Las clasificaciones realizadas evidencian que la aplicación de este modelo es adecuada para predecir el género. La arquitectura y características de la red MLP, que brindan mejores resultados y hacen que la red tenga un comportamiento estable por lo que logra la habilidad de generalizar fueron los siguientes: • Número de capas: 3 • Número de neuronas: 9 en la capa de entrada, 7 en la capa oculta y 2 en la capa de salida • Los atributos corresponden a las proporciones de categorías morfológicas en el texto. En este trabajo se observa que no se clasifican correctamente todos los registros, aunque el porcentaje de las clasificaciones incorrectas es muy bajo. Esto evidencia un buen desempeño de la red para discriminar los textos por su género. Se compararon los métodos Vector Machine (SVM), Sequential Minimal Optimization (SMO), Regresión Logística, Análisis Discriminante Lineal (ADL) y Cuadrático (ADC). De todos los métodos de clasificación considerados, el que presentó el menor porcentaje de mala clasificación fue el ADC (16.67%). Tanto el ADL como el ADC dieron buenos resultados al clasificar los textos en Científicos y No Científicos, presentando un 18% y 16.67% de mala clasificación respectivamente. En cuanto a los métodos de aprendizaje de máquina, el que presenta mejores resultados es el SVM con kernel lineal y constante de penalización C= 0.1 o 0.2 (19.33%). Del resto de los métodos aplicados, el que presenta peores resultados es SVM con kernel RBF, arrojando valores de porcentaje de error de mala clasificación que van del 34% al 40%. Si bien el método SMO presentó porcentajes bajos de mala clasificación para valores altos de C (18%), no es considerado uno de los mejores debido a la variabilidad que presenta en sus resultados al considerar distintos valores de la constante C, dando indicios de cierta inestabilidad del método para clasificar bien. De los métodos aplicados el del Vecino más Cercano presenta el mejor desempeño (13% de mala clasificación) teniendo como principales ventajas la simpleza de su aplicación y la estabilidad de su comportamiento. También presentaron desempeños aceptables los métodos Árboles de Clasificación (14% de mala clasificación) y Análisis Discriminante Cuadrático (17 % de mala clasificación). Cabe destacar, que debido que los grupos presentan estructuras de covariancias distintas, es de esperar que el Análisis Discriminante Cuadrático clasifique mejor que el Análisis Discriminante Lineal (18% de mala clasificación). Por otro lado, no es posible conocer en de qué manera afecta la presencia de estructuras de covariancias distintas entre los grupos para los métodos restantes. Se utilizó el algoritmo AdaBoost, y se evaluó su desempeño en los métodos de clasificación Regresión Logística y SMO (Sequential minimal optimization. Se observó que al aplicar AdaBoost teniendo en cuenta como algoritmo de base el método de Regresión Logística no se presentó una reducción en el porcentaje de mala clasificación. En cambio, para el caso del método SMO como algoritmo de base, el porcentaje de mala clasificación bajó un 8,67%.

Palabras clave

Clasificación de textos, Sequential Minimal Optimization, Regresión logística, Árboles de clasificación, Análisis discriminante

Citación