El RepHip UNR fue actualizado el 02/05/24, en el sitio de Ayuda -->+INFO-->Actualizaciones , encontrarán un listado de los cambios realizados. Ante cualquier duda y/o problema por favor escribirnos a rephip@unr.edu.ar
 

Aplicación del algoritmo Boosting Adaptativo (ADABOOST) a un problema de clasificación automática de textos

Fecha

2018

Título de la revista

ISSN de la revista

Título del volumen

Editor

Grupo IANUS
Resumen
Boosting es un método que pretende mejorar el desempeño de cualquier algoritmo de aprendizaje supervisado mediante la combinación de los resultados de varios clasificadores débiles o de base para obtener un clasificador final robusto. Una de las técnicas más populares de Boosting es el algoritmo Boosting Adaptativo (AdaBoost). Este algoritmo, mediante un entrenamiento iterativo de los clasificadores débiles o de base, le asigna mayor importancia a los datos mal clasificados anteriormente, y de esta manera obtiene un nuevo clasificador. Logra, de esta forma, adaptarse y obtener mejores resultados aumentando la precisión del algoritmo. En el presente trabajo, con el objetivo de evaluar el desempeño del algoritmo AdaBoost, se aplican los métodos de clasificación Regresión Logística y SMO (Sequential minimal optimization), con y sin el algoritmo AdaBoost a un conjunto de textos. Luego, se comparan los resultados obtenidos de los métodos de clasificación al considerarse solos, con los resultados al considerarlos como algoritmo de base para AdaBoost. El criterio de clasificación utilizado fue el género al que pertenece el texto (Científico / No Científico). La caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. Los resultados finales de los distintos clasificadores considerados se evalúan mediante porcentajes de mala clasificación. Se observó que al aplicar AdaBoost teniendo en cuenta como algoritmo de base el método de Regresión Logística no se presentó una reducción en el porcentaje de mala clasificación. En cambio, para el caso del método SMO como algoritmo de base, el porcentaje de mala clasificación bajó un 8,67%.

Palabras clave

support, vector, machine, learning

Citación