Métodos predictivos de data Mining en el control de procesos industriales

Resumen

Entre los objetivos principales del análisis de datos en contextos industriales, aparece la predicción, es decir, identificar una función que permita predecir el valor de una respuesta de interés a partir de los valores que toman otras variables consideradas como potenciales predictores de esa respuesta. Los grandes volúmenes de datos que la tecnología actual permite generar y almacenar han hecho necesario el desarrollo de técnicas de análisis alternativas a las tradicionales para lograr este objetivo, que permitan procesar y predecir la respuesta en tiempo real. Englobados bajo la denominación de Data Mining, muchos de estos nuevos métodos están basados en algoritmos automáticos originados mayormente en el ámbito informático. No obstante, la calidad de la información que alimenta a estos procedimientos sigue siendo un factor clave para asegurar la confiabilidad de los resultados. Con esta premisa es que en este trabajo se aborda el estudio del efecto que la presencia de fallas en los dispositivos de medición que originan la información, pueden causar sobre la capacidad predictiva de uno de los métodos disponibles, los árboles de decisión. Las medidas de eficiencia se definen a partir de la comparación con una técnica estadística tradicional, la regresión lineal múltiple. Los resultados señalan que la existencia de errores de medida tiene un efecto diferenciado sobre la capacidad predictiva de los árboles de decisión, según la naturaleza del error
One of the main objectives of data analysis in industrial contexts is prediction, that is, to identify a function that allows predicting the value of a response from the values of other variables considered as potential predictors of this outcome. The large volumes of data that current technology allows to generate and store have made it necessary to develop methods of analysis alternative to the traditional ones to achieve this objective, which allow mainly to process these large amounts of information and to predict the response in real time. Enclosed under the name of Data Mining, many of these new methods are based on automatic algorithms mostly originated in the computer field. However, the quality of the information that feeds these procedures remains a key factor in ensuring the reliability of the results. With this premise, in this work we deal with the study of the effect that the presence of faults in the measurement devices that originate the information to be analyzed, can cause on the predictive ability of one of the predictive methods of data mining, the decision trees. The results are compared with those obtained using one of the traditional statistical techniques: multiple linear regression. The results obtained indicate that the effect of measurement related errors on the predictive ability of decision trees, compared to traditional regression models, depends on the nature of the measurement error

Descripción

Palabras clave

Árboles de decisión CART, Regresión lineal, Error de medición, Error de predicción, CART decision trees, Linear regression, Measurement error, Prediction Error

Citación