Evaluación de modelos de machine learning para la predicción de fenotipos mediante la composición de la microbiota intestinal: un enfoque para la identificación de biomarcadores
dc.contributor.advisor | Pesoa, Susana | |
dc.contributor.coadvisor | Arce, Débora | |
dc.creator | Portela, Néstor Denis | |
dc.date.accessioned | 2024-03-20T15:09:33Z | |
dc.date.available | 2024-03-20T15:09:33Z | |
dc.date.issued | 2023-03-12 | |
dc.description.abstract | En los últimos tiempos, los modelos de aprendizaje automático (ML) han surgido como una herramienta eficaz para comprender la variación interpersonal del microbioma y explorar su posible relación con el desarrollo de enfermedades. A diferencia de los enfoques tradicionales, los modelos de ML consideran la abundancia relativa de cada población bacteriana en el contexto de otras poblaciones, lo que permite una explicación más efectiva. No obstante, es crucial abordar los desafíos relacionados con la estandarización de los modelos, las metodologías y la estructura de datos utilizados, a fin de garantizar la robustez y aplicabilidad clínica de dichos modelos. En este contexto, llevamos a cabo una evaluación exhaustiva de 10 modelos de ML diferentes para la clasificación de fenotipos basados en la composición de la microbiota intestinal. Nuestro enfoque se centró en analizar el impacto de la escala taxonómica y la efectividad de la estrategia de selección de características en el rendimiento de los modelos. Los análisis revelaron diferencias significativas en el rendimiento de los modelos de predicción al evaluarlos en diferentes niveles taxonómicos, obteniéndose mejores resultados en la exactitud y el área bajo la curva en niveles más específicos, como género y especie. Asimismo, encontramos que no todos los métodos de selección de características son igualmente eficaces para mejorar el rendimiento de las predicciones de los modelos. En general, la aplicación de estos métodos tuvo un impacto positivo y significativo en los niveles de familia, género y especie, en la mayoría de los modelos. Mediante el análisis Hold-out, encontramos que el modelo de Random Forest con el método de selección de características SAFS.rf, aplicado a nivel de especie, mantuvo un alto rendimiento consistente en todas las etapas de evaluación, mostrando una menor influencia por la composición y estructura de los conjuntos de datos utilizados. Por último, nuestras estrategias de análisis nos permitieron identificar posibles biomarcadores microbianos asociados al fenotipo delgado/obeso. Estos resultados respaldan la aplicabilidad de las técnicas de ML en el estudio de microbiomas, al demostrar su capacidad para descubrir relaciones no lineales y generar perfiles clasificatorios con mayor precisión. Además, subrayan la importancia de considerar los niveles taxonómicos más específicos, como género y especie, y la implementación de técnicas de selección de características como una estrategia recomendada para mejorar el rendimiento de los métodos de predicción. Estos hallazgos brindan información relevante sobre la robustez de las técnicas de ML en la predicción de fenotipos relacionados con enfermedades a partir de información metagenómica, y pueden proporcionar nuevos indicios sobre la relevancia de ciertos microorganismos en el desarrollo de diversas patologías | |
dc.description.abstract | In recent times, machine learning (ML) models have emerged as an effective tool for understanding the interpersonal variation of the microbiome and exploring its possible relationship with disease development. Unlike traditional approaches, ML models take into account the relative abundance of each bacterial population in the context of other populations, allowing for a more effective explanation. However, it is crucial to address the challenges related to model standardization, methodologies, and data structure to ensure the robustness and clinical applicability of these models. In this context, we conducted a comprehensive evaluation of 10 different ML models for the classification of phenotypes based on the composition of the intestinal microbiota. Our focus was on analyzing the impact of taxonomic scale and the effectiveness of feature selection strategies on model performance. The analyses revealed significant differences in the predictive performance of the models when evaluated at different taxonomic levels, with improved accuracy and area under the curve achieved at more specific levels such as genus and species. Additionally, we found that not all feature selection methods are equally effective in improving the predictive performance of the models. Overall, the application of these methods had a positive and significant impact on the family, genus, and species levels in most models. Through the Hold-out analysis, we found that the Random Forest model with the SAFS.rf feature selection method, applied at the species level, maintained consistently high performance across all evaluation stages, showing less influence from the composition and structure of the datasets used. Lastly, our analysis strategies allowed us to identify potential microbial biomarkers associated with the lean/obese phenotype. This evidence supports the applicability of ML techniques in microbiome studies, demonstrating their ability to uncover non-linear relationships and generate more accurate classification profiles. They also emphasize the importance of considering more specific taxonomic levels such as genus and species, and implementing feature selection techniques as a recommended strategy to improve the performance of prediction methods. These findings provide relevant information on the robustness of ML techniques in predicting disease-related phenotypes from metagenomic information and can provide new insights into the relevance of certain microorganisms in the development of various pathologies. | |
dc.description.fil | Fil.: Portela, Néstor David. Facultad de Ciencias Agrarias. Universidad Nacional de Rosario | |
dc.identifier.uri | https://hdl.handle.net/2133/26813 | |
dc.language.iso | es | |
dc.publisher | Facultad de Ciencias Agrarias. UNR | |
dc.rights | openAccess | |
dc.rights.holder | El autor | |
dc.rights.text | Attribution-NonCommercial-ShareAlike 4.0 International | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ | |
dc.subject | Métodos de aprendizaje | |
dc.subject | Microbiota intestinal | |
dc.subject | Biomarcadores | |
dc.subject | Técnicas de selección de caracterísiticas | |
dc.subject | Automático | |
dc.title | Evaluación de modelos de machine learning para la predicción de fenotipos mediante la composición de la microbiota intestinal: un enfoque para la identificación de biomarcadores | |
dc.type | tesis | |
dc.type.collection | tesis | |
dc.type.other | tesis de doctorado | |
dc.type.version | acceptedVersion | |
lom.educational.context | superior_no_universitario | |
lom.educational.context | grado | |
lom.educational.context | posgrado | |
lom.educational.difficulty | dificil | |
lom.educational.interactivity | expositiva | |
lom.educational.typicalAgeRange | adultos |