AGR145 ANALISIS ESTADISTICO MULTIVARIADO EN EL ESTUDIO Y COMPARACION DE DISTINTOS TIPOS DE TEXTOS ACADEMICOS: CIENCIAS BIOLOGICAS Y CIENCIAS SOCIALES

Fecha

2014-09-01

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen
Respecto a los resultados encontrados en la clasificación según la disciplina de los textos se pueden enumerar los siguientes resultados: -Los resultados del análisis morfológico de los textos se analizaron teniendo en cuenta simultáneamente todas las mediciones realizadas sobre ellos. -El análisis de regresión logística aplicado presenta una modalidad de análisis estadístico para discriminar grupos no muy habitual en la investigación lingüística y permitió hallar las categorías gramaticales cuyas frecuencias observadas en los textos permiten discriminar los grupos definidos por la disciplina a la que pertenecen. Las diferencias entre los textos de BIOMETRÍA y FILOSOFÍA está centrada principalmente en el número de clíticos y de adverbios presentes. Los odds ratio estimados evidencian que la chance de clasificar a un texto dentro del corpus de Biometría se incrementa en un 62% al aumentar en número de clíticos en una unidad, mientras que la chance de clasificarlo en el corpus de Filosofía aumenta un 41% al incrementarse en una unidad el número de adverbios. Similares resultados se hallaron utilizando un análisis discriminante sobre las variables transformadas. Este resultado puede deberse a que, en los textos de biometría/estadística hay más clíticos que en los humanísticos por la frecuencia de expresiones impersonales o pasivas con el clítico “se” del tipo: “se ajusta un modelo cuadrático”, “se estima la variancia poblacional”; mientras en los textos de filosofía se manifiesta la presencia de mayor proporción de adverbios. -Respecto a la metodología basada en Árboles de Clasificación, si bien el número de unidades utilizadas en el entrenamiento y evaluación no era elevado, el árbol obtenido mostró un buen desempeño frente al modelo de regresión logística. La diferencia en la tasa de mala clasificación sólo se diferenció en el área de Filosofía. -En los clasificadores basados en Regresión Logística y en el Análisis Discriminante, las diferencias entre los dos tipos de textos se basa principalmente en el porcentaje de clíticos y de adverbios presentes. Sin embargo, en el clasificador basado en Árboles de Clasificación han intervenido otras variables en la separación como el porcentaje de preposiciones y adjetivos. Estas variables intervienen determinando una interacción entre las categorías gramaticales que no se alcanza a observar en el modelo de regresión logística. -La técnica de Regresión Logística se generalizó a un número mayor de disciplinas, de las cuales provienen los textos, mediante una extensión del modelo para variable respuesta multinomial. El análisis de Regresión Logística Multinomial aplicado permitió hallar las categorías gramaticales cuyas frecuencias observadas en los textos permiten discriminar los tres grupos definidos.

Palabras clave

Árboles de clasificación, Regresión logística, Clasificación de textos

Citación