Análisis y aprovechamiento de bases de datos agronómicas recurriendo al proceso “Knowledge discovery in databases” (KDD) y algoritmos de “data mining”(DM). Una Aplicación al pronóstico de producción de frutas de pepita en los Valles de Río Negro y Neuquén

Fecha

2020

Título de la revista

ISSN de la revista

Título del volumen

Editor

FCA-UNR
Resumen
Una de las principales actividades económicas en las provincias de Río Negro y Neuquén, es la producción de peras y manzanas. En dicha zona se ha llevado a cabo el pronóstico de producción desde el año 1992 durante 23 años. El pronóstico de producción de frutas de pepita ha sido una herramienta importante para planificar la cosecha y mejorar estrategias de mercado. El método de predicción de la producción, con antelación a la cosecha de los principales cultivares, se basó en curvas de crecimiento. La curvas de crecimiento no sólo permitieron estimar la producción sino que, conjuntamente con la relación diámetro-peso de los frutos, los tamaños comerciales. Toda esta información ha generado un volumen de datos que resulta difícil procesar y aprovechar con los métodos estadísticos habituales. Una opción para estos casos es utilizar una técnica de extracción de conocimientos en bases de datos también llamado proceso KDD (Knowledge Discovery in Data Bases). El proceso KDD consta de tres etapas: preprocesamiento, análisis de datos aplicando técnicas de minería de datos y extracción de conocimiento. El objetivo principal de esta tesis fue aplicar el proceso KDD y algoritmos de “Data Mining” como el SVM o máquina de soporte vectorial aplicados al pronóstico de producción. Otro objetivo de este trabajo fue diseñar una base de datos que pudiera preservar la información generada. Además, se aplicaron técnicas de preprocesamiento y visualización para detectar datos faltantes y con errores de registro; se buscaron relaciones entre variables como peso y diámetro. Para esto fue esencial programar nuevas funciones y algoritmos en R. Una vez sistematizados los datos de crecimiento se ajustó un modelo estadístico y se estimaron los efectos del mismo destacándose el efecto de la parcela. A partir de la estimación del modelo se simularon curvas de crecimiento para calibrar y entrenar el SVM. Aprovechando las curvas simuladas se verificó que el SVM mejoró el ajuste de las curvas de crecimiento observando un error cuadrativo medio menor que utilizando modelos estadísticos. La utilización del SVM como clasificador multiclase permitió predecir con antelación a la cosecha los tamaños comerciales de los frutos. La ventaja de aplicar el SVM residió principalmente en procesar mayor volumen de datos y lograr mayor precisión en el pronóstico. El alcance de las predicciones del SVM fue evaluado con una experiencia a campo donde se realizó una predicción 14 días posteriores a la cosecha comercial y se comparó con los tamaños de los frutos recolectados. La precisión expresada en tamaños comerciales correctamente clasificados fue de 30% pero al reagrupar las clases productivas en frutos pequeños, medianos y grandes se logró una precisión de 70%. Mediante esta tesis se logró sistematizar, procesar y analizar un gran volumen conformando una base de datos de 17 tablas y 160.000 registros. La aplicación del proceso KDD y de algoritmos de DM permitió obtener predicciones de gran precisión.

Palabras clave

Fruticultura, Modelos No Lineales, Máquina de soporte de vectores, Pronóstico, Precisión

Citación