Evaluación de modelos de machine learning para la predicción de fenotipos mediante la composición de la microbiota intestinal: un enfoque para la identificación de biomarcadores

dc.contributor.advisorPesoa, Susana
dc.contributor.coadvisorArce, Débora
dc.creatorPortela, Néstor Denis
dc.date.accessioned2024-03-20T15:09:33Z
dc.date.available2024-03-20T15:09:33Z
dc.date.issued2023-03-12
dc.description.abstractEn los últimos tiempos, los modelos de aprendizaje automático (ML) han surgido como una herramienta eficaz para comprender la variación interpersonal del microbioma y explorar su posible relación con el desarrollo de enfermedades. A diferencia de los enfoques tradicionales, los modelos de ML consideran la abundancia relativa de cada población bacteriana en el contexto de otras poblaciones, lo que permite una explicación más efectiva. No obstante, es crucial abordar los desafíos relacionados con la estandarización de los modelos, las metodologías y la estructura de datos utilizados, a fin de garantizar la robustez y aplicabilidad clínica de dichos modelos. En este contexto, llevamos a cabo una evaluación exhaustiva de 10 modelos de ML diferentes para la clasificación de fenotipos basados en la composición de la microbiota intestinal. Nuestro enfoque se centró en analizar el impacto de la escala taxonómica y la efectividad de la estrategia de selección de características en el rendimiento de los modelos. Los análisis revelaron diferencias significativas en el rendimiento de los modelos de predicción al evaluarlos en diferentes niveles taxonómicos, obteniéndose mejores resultados en la exactitud y el área bajo la curva en niveles más específicos, como género y especie. Asimismo, encontramos que no todos los métodos de selección de características son igualmente eficaces para mejorar el rendimiento de las predicciones de los modelos. En general, la aplicación de estos métodos tuvo un impacto positivo y significativo en los niveles de familia, género y especie, en la mayoría de los modelos. Mediante el análisis Hold-out, encontramos que el modelo de Random Forest con el método de selección de características SAFS.rf, aplicado a nivel de especie, mantuvo un alto rendimiento consistente en todas las etapas de evaluación, mostrando una menor influencia por la composición y estructura de los conjuntos de datos utilizados. Por último, nuestras estrategias de análisis nos permitieron identificar posibles biomarcadores microbianos asociados al fenotipo delgado/obeso. Estos resultados respaldan la aplicabilidad de las técnicas de ML en el estudio de microbiomas, al demostrar su capacidad para descubrir relaciones no lineales y generar perfiles clasificatorios con mayor precisión. Además, subrayan la importancia de considerar los niveles taxonómicos más específicos, como género y especie, y la implementación de técnicas de selección de características como una estrategia recomendada para mejorar el rendimiento de los métodos de predicción. Estos hallazgos brindan información relevante sobre la robustez de las técnicas de ML en la predicción de fenotipos relacionados con enfermedades a partir de información metagenómica, y pueden proporcionar nuevos indicios sobre la relevancia de ciertos microorganismos en el desarrollo de diversas patologías
dc.description.abstractIn recent times, machine learning (ML) models have emerged as an effective tool for understanding the interpersonal variation of the microbiome and exploring its possible relationship with disease development. Unlike traditional approaches, ML models take into account the relative abundance of each bacterial population in the context of other populations, allowing for a more effective explanation. However, it is crucial to address the challenges related to model standardization, methodologies, and data structure to ensure the robustness and clinical applicability of these models. In this context, we conducted a comprehensive evaluation of 10 different ML models for the classification of phenotypes based on the composition of the intestinal microbiota. Our focus was on analyzing the impact of taxonomic scale and the effectiveness of feature selection strategies on model performance. The analyses revealed significant differences in the predictive performance of the models when evaluated at different taxonomic levels, with improved accuracy and area under the curve achieved at more specific levels such as genus and species. Additionally, we found that not all feature selection methods are equally effective in improving the predictive performance of the models. Overall, the application of these methods had a positive and significant impact on the family, genus, and species levels in most models. Through the Hold-out analysis, we found that the Random Forest model with the SAFS.rf feature selection method, applied at the species level, maintained consistently high performance across all evaluation stages, showing less influence from the composition and structure of the datasets used. Lastly, our analysis strategies allowed us to identify potential microbial biomarkers associated with the lean/obese phenotype. This evidence supports the applicability of ML techniques in microbiome studies, demonstrating their ability to uncover non-linear relationships and generate more accurate classification profiles. They also emphasize the importance of considering more specific taxonomic levels such as genus and species, and implementing feature selection techniques as a recommended strategy to improve the performance of prediction methods. These findings provide relevant information on the robustness of ML techniques in predicting disease-related phenotypes from metagenomic information and can provide new insights into the relevance of certain microorganisms in the development of various pathologies.
dc.description.filFil.: Portela, Néstor David. Facultad de Ciencias Agrarias. Universidad Nacional de Rosario
dc.identifier.urihttps://hdl.handle.net/2133/26813
dc.language.isoes
dc.publisherFacultad de Ciencias Agrarias. UNR
dc.rightsopenAccess
dc.rights.holderEl autor
dc.rights.textAttribution-NonCommercial-ShareAlike 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectMétodos de aprendizaje
dc.subjectMicrobiota intestinal
dc.subjectBiomarcadores
dc.subjectTécnicas de selección de caracterísiticas
dc.subjectAutomático
dc.titleEvaluación de modelos de machine learning para la predicción de fenotipos mediante la composición de la microbiota intestinal: un enfoque para la identificación de biomarcadores
dc.typetesis
dc.type.collectiontesis
dc.type.othertesis de doctorado
dc.type.versionacceptedVersion
lom.educational.contextsuperior_no_universitario
lom.educational.contextgrado
lom.educational.contextposgrado
lom.educational.difficultydificil
lom.educational.interactivityexpositiva
lom.educational.typicalAgeRangeadultos

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
PORTELA, Néstor - Tesis Bioinformática.pdf
Tamaño:
4.55 MB
Formato:
Adobe Portable Document Format
Bloque de licencias
Mostrando 1 - 1 de 1
Nombre:
license.txt
Tamaño:
3.87 KB
Formato:
Item-specific license agreed upon to submission
Descripción: