Comparación de sistemas para la detección de límites de oraciones

Fecha

2007

Título de la revista

ISSN de la revista

Título del volumen

Editor

Grupo Infosur
Resumen
Se plantea la obtención de límites de oraciones (LO) mediante tres sistemas: -Mx terminator: modela las decisiones que se toman al recorrer un texto y clasificar los elementos de S{., ?, !} en LO o no (sistema estadístico). -SMORPH/MPS: distingue la separación de párrafos y de oraciones y la separación entre párrafos de la separación dada por nueva línea cuando no hay LO. -XFST/Tokenize: agrega la detección de títulos a las funcionalidades del anterior. Para evaluar los tres sistemas se utilizó un corpus de 277 oraciones. Con el primero se obtiene 100% de cobertura y 96.9% de precisión en límite de oración (no discrimina final de párrafo y final de oración no final de párrafo). Con el segundo se obtiene 100% y 98,8% para precisión y cobertura de límites de párrafo, y 100% para precisión y cobertura de límites de oración que no finalizan párrafo. Con el tercero se detecta final de párrafo, final de oración no final de párrafo y títulos. Los valores de cobertura y precisión son 100% y 100% respectivamente para títulos, 100% y 100% para finales de párrafos y 100% y 99.5% para finales de oración no finales de párrafos.

Palabras clave

oraciones, limites, estadístico

Citación