Método de clasificación supervisada support vector machine: una aplicación a la clasificación automática de textos

Fecha

2016

Título de la revista

ISSN de la revista

Título del volumen

Editor

Grupo IANUS
Resumen
Support Vector Machine (SVM) es un método de clasificación supervisada que permite determinar la frontera óptima entre dos grupos que pueden ser linealmente separables o no. Mediante la utilización de vectores soporte se encuentra un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad que puede llegar a ser infinita. Luego, mediante una trasformación inversa se obtiene la frontera que separa a esos dos grupos en el espacio original. En el caso de clasificar en 2 categorías, se busca el hiperplano que tenga la máxima distancia o margen con los puntos más cercanos a él. Los puntos pertenecientes a una categoría estarán a un lado del hiperplano mientras que los casos que pertenezcan a la otra categoría estarán al otro lado. En este trabajo se realiza una aplicación del método SVM para clasificar un conjunto de textos. El criterio de clasificación utilizado fue el género al que pertenece el texto (Científico / No Científico). La caracterización de los textos está basada en la distribución de frecuencias de las categorías morfo-sintácticas. Los resultados finales representan porcentajes de mala clasificación en una grilla para el método SVM variando la constante de penalización C y otros parámetros dentro de varios kernel considerados. El mejor desempeño se obtuvo para SVM con kernel lineal y C= 0.1 y 0.2 (19.33%)

Palabras clave

support, vector, machine, learning

Citación