Árboles de clasificación y su comparación con análisis de regresión logística aplicado a la clasificación de textos académicos

Fecha

2012

Título de la revista

ISSN de la revista

Título del volumen

Editor

Grupo Infosur
Resumen
El problema de la clasificación de unidades en grupos o poblaciones conocidas es de gran interés en estadística, por esta razón se han desarrollado varias técnicas para cumplir este propósito. En este trabajo se presenta la comparación de la técnica de Árboles de Clasificación y Regresión logística para la clasificación de textos según la disciplina a la que pertenecen (BIOMETRIA y FILOSOFIA). El desempeño de las técnicas fue medido con la Tasa de Mala Clasificación calculada sobre una muestra de textos no incluidos en la estimación del modelo y construcción del árbol. El árbol de clasificación presentó una TMC inferior a la del modelo logístico logrando clasificar con mayor precisión los textos humanísticos. La TMC obtenida con el árbol de clasificación fue de 10% (17% dentro del corpus de Biometría y 3% en Filosofía) mientras que con el modelo de regresión logística fie de 20% en forma global y 17% y 23% respectivamente dentro de los corpus de Biometría y Filosofía.

Palabras clave

árboles_de_clasificación, Regresión_logística, Multivariado

Citación