Comparación de dos técnicas multivariadas en la categorización de textos: Sistema de clasificación Bagging y Método del vecino más cercano

Fecha

2015

Título de la revista

ISSN de la revista

Título del volumen

Editor

Grupo IANUS
Resumen
En este trabajo se comparan dos técnicas multivariadas cuyo objetivo es la clasificación de unidades en categorías definidas previamente. En este caso se evalúan los desempeños del Sistema de Clasificación Bagging (SCB) y el Método del Vecino más Cercano (MVC) para clasificar textos. El criterio de clasificación es el género al que pertenece el texto (Científico / No Científico) y la caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. En el SCB se halló una tasa de error global de 26%, siendo 21% para los textos científicos y 33% para los no científicos. Respecto a la precisión y cobertura fueron de 78% y 79% para el género CIENTÍFICO y de 68% y 67% para los textos NO CIENTÍFICOS, respectivamente. Para el MVC el error global en la predicción resultó ser del 13%, correspondiendo un 9% para el género Científico y un 20% para el No Científico y respecto a la precisión y cobertura fueron de 87% y 91% para el género CIENTÍFICO y de 86% y 80% para los textos NO CIENTÍFICOS, respectivamente.

Palabras clave

bagging, vecinomascercano, clasificación

Citación