Análisis de regresión logística aplicado a la clasificación textos académicos: Biometría y Filosofía

Resumen
Este trabajo pretende continuar la aplicación del análisis estadístico multivariado llevada a cabo en Beltrán (2010). En este artículo se utiliza la información resultante del análisis automático de textos académicos provenientes de distintas áreas científicas (Biometría y Filosofía) para conformar una base de datos sobre la cual se aplica la técnica de regresión logística. Esta aplicación presenta diferencias respecto al análisis discriminante aplicado en un trabajo anterior principalmente en los supuestos requeridos sobre las distribuciones de las variables y en la información resultante del modelo estimado. El estudio permite un análisis en el cual se evidencian aquellas características que discriminan los corpus de textos analizados trabajando con las frecuencias absolutas de las distintas categorías morfosintácticas. Las variables significativas que conforman el modelo propuesto corresponden a dos categorías: adverbios y clíticos. Los odds ratio estimados evidencian que la chance de clasificar a un texto dentro del corpus de Biometría se incrementa en un 62% al aumentar en número de clíticos en una unidad, mientras que la chance de clasificarlo en el corpus de Filosofía aumenta un 41% al incrementarse en una unidad el número de adverbios. La tasa de error global estimada por validación cruzada es del 19%.

Palabras clave

regresión logística multivariada, clasificación de textos, análisis automático de textos

Citación