Comparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logística

dc.citation.titleINFOSUR REVISTAes
dc.creatorBeltrán, Celina
dc.creatorBarbona, Ivana
dc.date.accessioned2021-08-23T02:16:05Z
dc.date.available2021-08-23T02:16:05Z
dc.date.issued2020-12-01
dc.descriptionEn este trabajo se compara el desempeño de dos métodos de clasificación: Árboles de Clasificación (AC) y Regresión Logística (RL). Dicha comparación se realiza 1) sobre una aplicación en categorización de textos y 2) una evaluación sobre datos simulados bajo distintos escenarios. 1) Para ambos métodos se evalúa la funcionalidad y desempeño en la clasificación de textos describiendo cómo es posible utilizarlos para categorizar y eventualmente caracterizar los textos. En este caso, el criterio de clasificación es el género al que pertenece el texto (Científico / No Científico). La caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. Los textos se clasificaron teniendo en cuenta simultáneamente las mediciones realizadas sobre ellos. El desempeño de las técnicas fue medido con la tasa de mala clasificación (TMC) calculada sobre una muestra de textos no incluidos en la estimación del modelo y construcción del árbol. El árbol de clasificación presentó una TMC inferior a la del modelo logístico logrando clasificar con mayor precisión los textos científicos. Para el AC la TMC resultó 4% para los textos científicos y 28% para los textos no científicos. Para el modelo de RL la TMC resultó 14% para los textos científicos y 26% para los textos no científicos. 2) En el estudio por simulación, se observó como resultado principal, que en condiciones donde las variables predictoras están altamente correlacionadas con la respuesta, si bien los AC mostraron un porcentaje de error significativamente menor en la clasificación, ambas metodologías funcionan satisfactoriamente. Sin embargo, cuando las condiciones para obtener una clasificación satisfactoria son desfavorables (predictores poco correlacionados con la respuesta) los AC logran un porcentaje de clasificación correcta notablemente superior a la RL, con la desventaja de obtener un árbol con numerosos nodos terminales utilizando la información de prácticamente todas las variables explicativas. En el caso desbalanceado, la clase mayoritaria presenta un porcentaje de clasificación correcta superior en la regresión logística a costa de un peor desempeño en la clase minoritaria. Este comportamiento es más marcado en RL que en los AC.es
dc.description.filFil: Beltrán, Celina. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentina.es
dc.description.filFil: Barbona, Ivana. Universidad Nacional de Rosario. Facultad de Ciencias Agrarias; Argentina.es
dc.formatapplication/pdf
dc.format.extent1-15es
dc.identifier.issn1851-1996es
dc.identifier.urihttp://hdl.handle.net/2133/21728
dc.language.isospaes
dc.publisherINFOSURes
dc.rightsopenAccesses
dc.subjectClasificación supervisadaes
dc.subjectClasificación de textoses
dc.subjectÁrboles de clasificaciónes
dc.subjectRegresión logísticaes
dc.subjectEstadísticaes
dc.titleComparación de dos técnicas de clasificación supervisada en la categorización de textos y evaluación en datos simulados: Árboles de clasificación y Regresión Logísticaes
dc.typearticle
dc.typeartículo
dc.typepublishedVersion
dc.type.collectionarticulo
dc.type.versionpublishedVersiones

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
INFOSUR 2020 PDF CELINA BELTRAN - IVANA BARBONA.pdf
Tamaño:
384.13 KB
Formato:
Adobe Portable Document Format
Descripción:
Bloque de licencias
Mostrando 1 - 1 de 1
Nombre:
license.txt
Tamaño:
3.59 KB
Formato:
Item-specific license agreed upon to submission
Descripción: