FCA - Especialización en Bioinformática - Trabajos Finales
URI permanente para esta colección
Examinar
Examinando FCA - Especialización en Bioinformática - Trabajos Finales por Fecha de publicación
Mostrando 1 - 19 de 19
Resultados por página
Opciones de ordenación
Ítem Acceso Abierto Estudios in silico de la expresión génica relativa a factores protectores frente al daño por frío en duraznos(FCA-UNR, 2016) Gismondi, Mauro; Daurelio, Lucas; Esteban, LuisÍtem Acceso Abierto Diseño de una arquitectura en pipeline para la descarga y análisis de secuencias de promotores en Solanum lycopersicum(2016) Pistilli Neri, Alejandro Damián; Arce, DéboraÍtem Acceso Abierto Análisis de la distribución de potenciales cuádruplex de Guanina (PQS) en el genoma de tripanosomátidos y su posible relación con el control de la expresión génica.(2017) Andino, Diego Leonardo; Cribb, PamelaÍtem Acceso Abierto Análisis y modelado estructural de los dominios catalíticos de DCL1 de Arabidopsis thaliana(2017) Mascali, Florencia Carla; Rasia, Rodolfo M.Ítem Acceso Abierto Anotación genómica y análisis comparativo entre bacteriófagos de Staphylococcus aureus(FCA-UNR, 2018) Carrasco, Soledad Telma; Suárez, Cristian A.Ítem Acceso Abierto Estudio de la expresión génica mediada por Brasinoesteroides en plantas de Arabidopsis thaliana(FCA-UNR, 2018-03-27) Grisolia, Mauricio Javier; Daurelio, Lucas; Esteban, LuisÍtem Acceso Abierto Alineado y comparación de secuencias genómicas obtenidas de grupos discrepantes para la detención de regiones cromosómicas que controlan caracteres de frutos de tomate(2019) Vazquez, Dana Valeria; Cambiaso, Vladimir; Rodríguez, Gustavo R.Ítem Acceso Abierto Metabarcording de comunidades bacterianas asociadas a poblaciones amazónicas de Drosophilia afectados por la perturbación de la selva primaria por prácticas agrícolas(2019) Lorenzi, Lucía; Krsticevic, FlaviaÍtem Acceso Abierto Análisis in-silico de la expresión de genes sHSPs en frutos de tomate Solanum lycopersicum.(FCA-UNR, 2020) Arce, Débora Pamela; Krsticevic, Flavia J.Ítem Acceso Abierto EURECA (Eukaryote DNA Repair Capacity) una plataforma web con una base de datos sobre sistemas de reparación indirecta del ADN en eucariotas y con herramientas bioinformáticas(Universidad Nacional de Rosario. Facultad de Ciencias Agrarias, 2021) Chirinos Arias, Michelle Christine; Dotto, Marcela ClaudiaÍtem Acceso Abierto Transcriptómica en diferentes condiciones de madurez del fruto de genotipos de tomate (Solanum lycopersicum) que discrepan para la vida poscosecha de los frutos(2021) Souza Canada, Eduardo Daniel; Pereira da Costa, Javier H.El tomate Solanum lycopersicum L., por su genoma pequeño, un ciclo de vida corto, mutantes de maduración bien caracterizados, ricos recursos genómicos e importancia comercial ha sido utilizado como modelo en estudios de maduración de frutos climatéricos, así como para dilucidar las bases genéticas y epigenética de numerosos caracteres de interés agronómico. Varios mutantes de maduración importantes, incluidos CNR, RIN y NOR han proporcionado nuevos conocimientos sobre el control de los procesos de maduración. Estos genes, que bloquean o alargan el proceso de la madurez, confieren larga vida poscosecha a los frutos, pero producen efectos indeseados sobre la calidad debido a su acción pleiotrópica sobre las vías metabólicas que brindan un adecuado sabor, aroma, textura, etc. Se ha demostrado que los frutos de las formas silvestres S. lycopersicum var. cerasiforme y S. pimpinellifolium tienen mayor vida poscosecha que los cultivares comerciales de tomate pero menor que los genotipos homocigotas para los mutantes de madurez del fruto nor y rin de S. lycopersicum y que esta prolongación de la vida poscosecha se logra sin detrimentos de otros caracteres de calidad organoléptica. A pesar de que S. lycopersicum y S. pimpinellifolium tienen diferencias fenotípicas extremas, existen relativamente pocas diferencias entre las especies de tomates silvestres y cultivadas a nivel de secuencia del genoma (cercanas al 0,6%). De acuerdo con esto, se ha postulado que las diferencias fenotípicas se deben a las funciones de las proteínas y, en consecuencia a la regulación del transcriptoma. Muchos de los procesos bioquímicos y metabólicos asociados con la maduración de los frutos requieren cambios en la expresión de cientos a miles de genes. Los estudios de expresión diferencial ayudan a comprender el control del crecimiento y desarrollo de las plantas y a identificar puntos de control específicos del metabolismo. La técnica denominada ADNc-AFLP (Polimorfismo de longitud de fragmento amplificado basado en ADNc), ha sido ya utilizada como una primera aproximación transcriptómica a los procesos moleculares asociados a la madurez del fruto. La regulación de la expresión génica es un proceso complejo que puede ocurrir en varios niveles, principalmente a nivel transcripcional con la acción coordinada los elementos cis-regulatorios presentes en los promotores y que son reconocidas por los factores que actúan en trans. En el presente trabajo se pretende: 1- Identificar genes con expresión diferencial en frutos que maduran en planta y en estantería en genotipos discrepantes para la vida poscosecha de tomate y 2- Describir y analizar in silico el rol de los promotores y los elementos reguladores que actúan en cis en la regulación de la expresión. Para ello se utilizaron los siguientes genotipos de S. lycopersicum: el cv Caimanta, (madurez normal) y el cv Nor (entrada 804627, mutante para el gen nor). Los genotipos silvestres: S. lycopersicum var cerasiforme (entrada LA1385) y S. pimpinellifolium (entrada LA722) con genes que prolongan la vida poscosecha. Al comparar, los perfiles de expresión obtenidos por ADNc-AFLP se observó menor cantidad de fragmentos derivados de transcriptos (FDTs) totales en todos los genotipos cuando los frutos maduran en estantería (2481), en comparación con aquellos que lo hacen en planta (2660). Además, se evidenció que la cantidad total de genes, como así también los genes específicos que se activan o reprimen, dependen del genotipo, en particular cuando el fruto madura en estantería. Por el contrario, durante la maduración del fruto en la planta, la cantidad total y específica de genes que se expresan es independiente del genotipo, indicando que dicho proceso parece ser similar entre ellos. El genotipo NOR, contrariamente a lo esperado, mostró la mayor cantidad de FDTs (fragmentos derivados de un transcripto) totales y específicos del sitio de maduración, lo que evidenciaría que otros genes que se encuentran activos escapan a la modulación del factor de transcripción codificado por el gen nor. Se logró identificar y validar por RT-qPCR genes que evidenciaron expresión diferencial detectados por ADNc-AFLP. El análisis funcional de estos genes mostró que la respuesta a estrés fue la función con más representación en los frutos que maduraron en planta. El análisis in silico de los elementos cis-regulatorios de la región promotora de los genes con expresión diferencial en planta y estantería, evidenció diferencias estructurales. La localización de los motivos cis en genes expresados en frutos que maduran en estantería sugiere que estos genes podrían estar regulados en la región proximal. Por el contrario, en planta un 48,8% de los elementos cis-regulatorios se localizaron más alejados del codon ATG, lo que dejaría suponer una regulación en la región distal. Estos resultados permitieron un acercamiento a los posibles mecanismos de control, vinculando la maduración de los frutos con la respuesta a estrés. Además, estos resultados reforzarían por un lado, las diferencias fenotípicas existente entre los genotipos y por otro la influencia del sitio de maduración (planta o estantería), sobre la expresión génica en frutos de tomate.Ítem Acceso Abierto Variantes microsatélites humanas: creación de una base de datos (local y remota) con acceso web, y el aporte de datos de secuenciación de segunda generación(2021) Velez, Pablo Sebastián; Arce, DéboraÍtem Acceso Abierto Ensamblado y análisis comparativo de metagenomas de rumen vacuno(Facultad de Ciencias Agrarias-Universidad Nacional de Rosario, 2022) Ricardi, Laura Lis; Blancato, VíctorLos rumiantes pueden transformar la energía almacenada en las plantas en productos alimenticios que pueden ser utilizados por los humanos, como la carne y la leche. La microbiota del rumen está compuesta por protozoos, bacterias, hongos y arqueas, que son responsables de la degradación del material vegetal. A pesar del fuerte interés industrial y científico, el rumen sigue siendo un hábitat poco conocido, con muchas especies y cepas microbianas no cultivadas. La secuenciación metagenómica del rumen produce secuencias muy novedosas, que pueden ser de gran interés para las industrias de biocombustibles, alimentos y biotecnología. En este trabajo, los metagenomas de muestras de rumen fueron obtenidos de vacas regionales jóvenes y adultas alimentadas con una dieta rica o pobre con el objetivo de ensamblar nuevos genomas. El ADN fue extraído y secuenciado por WGS. Luego, las lecturas se filtraron por calidad y se ensamblaron con Megahit. La calidad de los contigs se evaluó con el software QUAST, y BWA MEM se usó para asignar lecturas a los ensamblajes. El binning se realizó con Metabat2 usando los contigs obtenidos, y archivos BAM correspondientes a alineaciones de lecturas. Se recuperaron de 12 a 31 bins por muestra, y se evalúo su integridad y contaminación mediante CheckM. El filtrado de estos por completitud ≥80% y contaminación ≤10%, generó entre tres y cinco genomas ensamblados de metagenomas (MAGs) por muestra. La asignación taxonómica se llevó a cabo utilizando el servidor MiGA, lo cual permitió identificar organismos asociados al tracto gastrointestinal y la degradación de material vegetal. La predicción de genes se llevó a cabo mediante Prodigal. Con esta información, se determinó el perfil metabólico utilizando el programa Genomaple, el cual permitió obtener un análisis global de las principales vías presentes en los metagenomas. Debido a la importancia de las enzimas activas sobre carbohidratos (CAZymas) en el rumen, se realizó un estudio de las CAZymas presentes en las muestras, identificándose posteriormente aquellas enzimas no ortólogas a la base de datos de proteínas ruminales RumiRef, lo cual sugeriría que estas proteínas son únicas en las muestras analizadasÍtem Acceso Abierto Uso de datos de transcriptómica para la anotación de genes en el genoma de pacú (Piaractus mesopotamicus)(Facultad de Ciencias Agrarias. Universidad Nacional de Rosario, 2022) Posner, Victoria María; Mascali, Florencia VictoriaEn Argentina, la producción de pacú (Piaractus mesopotamicus) ocupa el primer lugar dentro de las producciones por piscicultura de especies nativas. A pesar de la importancia de la misma, existe poca información genómica sobre esta especie, lo cual limita el desarrollo de tecnología y de programas de mejoramiento genético. En el Laboratorio Mixto de Biotecnología Acuática fueron ensamblados recientemente un genoma de referencia para hembra y uno para macho a partir de la tecnología de secuenciación corta de Illumina. Sin embargo, los mismos aún no han sido anotados. Profundizar el análisis de dichos genomas permitirá no solo aumentar el conocimiento sobre diferentes aspectos de la biología del pacú, sino que también dará lugar al diseño y desarrollo de nuevos proyectos. Es por ello que el objetivo de este trabajo fue contribuir a la anotación de dichos genomas utilizando datos de transcriptómica disponibles para esta especie. En el presente trabajo se utilizaron secuencias de un transcriptoma de músculo de pacú provenientes de un repositorio público. Se realizó un análisis de calidad de las secuencias crudas y luego se ensamblaron de manera conjunta usando el programa Trinity. El análisis del ensamblado indicó que el mismo es de alta calidad, con un alto aprovechamiento de las secuencias crudas (98.84 %) y alta presencia (81.4%) de ortólogos de ciertos genes que son universales, se expresan persistentemente y se presentan casi exclusivamente como copias únicas en el genoma. Para la anotación funcional se combinaron datos de predicción de secuencias proteicas, análisis de homologías de secuencias y predicción de dominios, de péptidos señales y de familias. Al anotar el transcriptoma se encontraron 64.111 genes e isoformas, indicando una perspectiva de alta utilidad en el uso de estas secuencias para anotar los genomas. Los genomas obtenidos para un macho y una hembra de pacú a partir de tecnología Illumina se encuentran altamente fragmentados. Esto trajo como consecuencia una gran dificultad computacional en el proceso de anotación de los mismos, a pesar de trabajar en un servidor con un alto poder de cómputo. Por esto, solo se llevó a cabo una prueba de anotación de un fragmento de cada genoma. El genoma de la hembra se procesó en un 38%, anotando 5.970 genes, con un largo promedio de 4.660,44 bases. El genoma del macho, en cambio, se procesó en un 23%, anotando 4.182 genes, con un largo promedio de 3.953,42 bases A pesar de ser resultados preliminares los mismos son alentadores, ya que presentan altos niveles de calidad según el parámetro AED.Ítem Acceso Abierto Mejora y actualización del paquete de R: CleanBSequences(Facultad de Ciencias Agrarias. UNR, 2022) Pozzi, Florencia I.; Felitti, SilvinaEste trabajo presenta un nuevo método y herramienta mejorada y actualizada para resolver un problema común de los biólogos moleculares y genetistas que utilizan marcadores moleculares en sus investigaciones y desarrollos científicos: la curación de secuencias. Los estudios ómicos realizados por biólogos moleculares y genetistas suelen implicar el uso de marcadores moleculares. AFLP, cDNA-AFLP y MSAP son ejemplos de marcadores que brindan información a nivel de genómica, transcriptómica y epigenómica, respectivamente. Estos tres tipos de marcadores moleculares usan adaptadores que son la plantilla para la amplificación por PCR. Las secuencias de los adaptadores tienen que ser eliminadas para el análisis de los resultados. Dado que en estos estudios se suele obtener un gran número de secuencias, esta limpieza de los datos podría demandar mucho tiempo y trabajo. Para automatizar este trabajo, previamente se creó un paquete R, llamado CleanBSequences cuya versión inicial fue 0.4.0, que permitía curar las secuencias de forma masiva, rápida, sin errores y que se pueden usar sin conexión. La curación se realizaba alineando los primers forward y/o reverse o los extremos de los vectores de clonación con las secuencias a eliminar. Después del alineamiento, se generaban nuevas subsecuencias sin fragmentos biológicos no deseados por el usuario, es decir, secuencias necesarias para las técnicas. A partir del uso de dicha herramienta se detectaron ciertos errores y mejoras a ser incluidos en una nueva versión del paquete. Se planteó como objetivo de trabajo mejorar y actualizar el paquete CleanBSequences en CRAN, con lo cual, los errores fueron subsanados y las mejoras incluidas en una nueva versión del paquete, para ello se trabajó sobre las funciones preexistentes (OnePrimerRemove y TwoPrimersRemove) y se generaron nuevas funciones (DNAStringSetOPR y DNAStringSetTPR). La nueva versión del paquete pasó por todos los chequeos correspondientes y fue publicada en CRAN como CleanBSequences 1.4.0. En conclusión, se logró mejorar y actualizar el paquete CleanBSequences en CRAN.Ítem Acceso Abierto Identificación de variante genética causal para síndromes de cáncer colorrectal hereditario; secuenciación masiva en paralelo y aplicación de herramientas bioinformáticas(Facultad de Ciencias Agrarias-Universidad Nacional de Rosario, 2023) Mayordomo, Andrea Constanza; Turjaski, Adrián; Murillo, JavierEl cáncer colorrectal (CCR) tiene una elevada incidencia y mortalidad a nivel mundial y en Argentina es la segunda causa de muerte por cáncer (10,6%). Los Síndromes de CCR hereditario se dividen en Cáncer Colorrectal Hereditario No Polipósico (CCHNP) y síndromes de Poliposis, siendo el síndrome de Lynch (SL) y la Poliposis Adenomatosa Familiar (PAF) las formas de CCR hereditario más comunes. La utilización de las técnicas de secuenciación de nueva generación (NGS) para guiar la prevención, el diagnóstico y el tratamiento de enfermedades basadas en los genes individuales de una persona o una familia, su medio ambiente y su estilo de vida, se conoce con el nombre de medicina de precisión. A pesar de este nuevo paradigma de la Medicina de Precisión son pocos los reportes y la aplicación de estas técnicas en América Latina. Particularmente, el grupo de investigación REM-ProCanHe del cual formo parte, lleva adelante desde 1996 el desarrollo de investigación clínica para la identificación temprana de CCR en pos de alcanzar la medicina de precisión. La vinculación internacional de este grupo con especialistas en la temática de la universidad de Helsinki (Finlandia) ha permitido realizar técnicas de secuenciación masiva en paralelo en muestras argentinas. El objetivo general del presente trabajo fue aplicar herramientas bioinformáticas para realizar un análisis preciso y rápido con el objetivo de identificar a nivel germinal la variante causal asociada con aumento de susceptibilidad a desarrollar CCR hereditario, partiendo de resultados genómicos derivados de secuenciación de nueva generación. Se estudiaron 21 casos de pacientes clínicamente diagnosticados con síndrome de Poliposis provenientes del Registro de Poliposis Adenomatosa Familiar del Hospital de Gastroenterología Dr. Carlos Bonorino Udaondo. Se analizaron de manera secuencial por i) secuenciación con el método de Sanger del exón 15 del gen APC (directamente relacionado con PAF); ii) luego con la técnica de MLPA para evaluar presencia de grandes rearreglos; iii) finalmente, para aquellas muestras aun negativas sin alteración genética-causal identificada (mediante métodos i y ii) se realizó la secuenciación del exoma completo. Como resultado, a través de la técnica de secuenciación por Sanger, en 6 casos identificamos la variante genético causal en el gen APC, siendo todas variantes novel, las cuales podrían ser verificadas a nivel funcional por otras técnicas o incorporar mayor información genética ya sea de muestras de la familia en estudio u otras muestras independientes que presenten la misma variante. Además, para otros 4 casos y mediante la secuenciación del exoma completo pudimos identificar la variante genético-causal candidata para predisposición en genes con asociación establecida para la patología. Específicamente, 2 casos presentaron alteración en genes relacionados con la patología, pero por el fenotipo clínico no pudieron confirmarse como genético-causal. Los otros 2 casos presentaron variantes en dos genes que se relacionan con el funcionamiento homeostático del intestino por lo cual necesitamos mayor evidencia sobre los mismos para poder adjudicarlos como genético-causal. Po otra parte, no encontramos genes que se relacionan directamente con el fenotipo en 7 casos los cuales todavía siguen en estudio. A partir de los datos obtenidos en este trabajo, se evidenciaron los parámetros, los pasos a seguir para llevar el resultado obtenido desde el secuenciador hasta el archivo VCF, como así también el diseño de un pipeline para la priorización de variante. Se espera que las herramientas y procedimientos obtenidos en el presente trabajo contribuyan de manera significativa en la medicina de precisión posibilitando el desarrollo de nuevas estrategias para el estudio del Síndrome de CCR hereditario.Ítem Acceso Abierto Anotación automática GO de productos génicos en SARS-CoV-2(Facultad de Ciencias Agrarias. UNR, 2023) Chiacchiera, Elizabeth; Spetale, Flavio E.La anotación de funcionalidades biológicas de productos génicos, RNA y proteí nas, es una tarea crítica en el desarrollo de proyectos de secuenciación genómica. En el caso de proyectos de genomas virales, estas anotaciones infieren el rol molecular de estos productos virales de interés durante la infección a sus células diana, indi cando aquellos procesos biológicos en los que están involucrados y constituyen una herramienta útil para el desarrollo y mejoramiento de tratamientos antivirales. La velocidad actual a la que se generan nuevas secuencias de RNA y proteínas a partir de proyectos de secuenciación genómica genera un cuello de botella para los méto dos de anotación tradicionales, basados en estudios experimentales exhaustivos. Este cuello de botella puede resolverse parcialmente mediante métodos computacionales de anotación. Es de interés global el estudio de virus y en particular, SARS-CoV-2, que causa la enfermedad COVID-19 y representa aún una amenaza para la salud mundial. Los esfuerzos para desarrollar medicamentos y vacunas eficaces frente a nuevas variantes se ven obstaculizados por el conocimiento limitado de los detalles moleculares de cómo el SARS-CoV-2 infecta y se propaga. En particular, en es te trabajo se aborda el problema de anotación funcional automática de productos génicos para SARS-CoV-2 a través de ontologías y aprendizaje computacional. La ontología funcional de genes utilizada es Gene Ontology (GO) y el método de apren dizaje computacional utilizado se llama Factor Graph GO Annotation (FGGA). Este método de clasificación jerárquico toma como entrada un conjunto de atributos, ca racterísticas, extraídos desde las secuencias y devuelve un grafo consistente en los tres subdominios de GO. El proceso de extracción de atributos desde las secuencias se lo denomina caracterización. En este trabajo, se considera una caracterización básica que consiste en propiedades fisicoquímicas y una caracterización enriquecida, desarrollada en este proyecto, que agrega atributos virales. La incorporación de es tos contribuye a mejorar la especificidad de predicción de las funcionalidades GO. Finalmente, se evalúa el rendimiento de las predicciones GO obtenidas y se compara los resultados obtenidos sobre 31 productos génicos anotados en forma experimental en Jungreis et al. (2021). Estos resultados validaron de forma exitosa las anotaciones existentes curadas manualmente y también generaron nuevas anotaciones in-silico que fueron avaladas por diversas fuentes bibliográficas disponibles en la actualidadÍtem Acceso Abierto Análisis computacional de la expresión de proteínas Vav en melanoma cutáneo(Facultad de Ciencias Agrarias, 2023) Avila, Aylén; Menacho Márquez, Mauricio; Anselmino, LucianoLas proteínas VAV son factores de intercambio de nucleótidos guanina (GEFs) que desempeñan roles esenciales en diversos procesos fisiológicos y patológicos. Esta familia está compuesta por tres miembros que normalmente muestran redundancia funcional y están asociados con funciones proactivas en el cáncer. Sin embargo, el papel de estas proteínas en el melanoma ha sido poco explorado. Nuestro objetivo fue caracterizar, mediante enfoques bioinformáticos, los procesos regulados específicamente por cada miembro de esta familia de proteínas en el melanoma. En primer lugar, se descargaron datos de expresión génica de personas con melanoma cutáneo de la base de datos “ Atlas del Genoma del Cáncer” (TCGA) utilizando el paquete del entorno de programación R, TCGABiolinks. Las personas fueron divididas según la expresión alta o baja de Vav1, Vav2 y Vav3, y se construyeron gráficos de supervivencia utilizando el estimador de Kaplan-Meier. Se encontró asociación entre una alta expresión de Vav2 con un peor pronóstico (p=0.045), mientras que la alta expresión de Vav1 y Vav3 se correlacionó con una mayor probabilidad de supervivencia de las personas (p=0.0022 y 0.0019 respectivamente). Luego, se identificaron genes diferencialmente expresados (DEGs) entre los grupos utilizando el paquete edgeR que aplica el método de máxima verosimilitud condicional ajustada por cuantiles. Los DEGs fueron seleccionados para valores de |FC|>1 y de FDR<0.01. Se realizó un análisis de enriquecimiento funcional para cada grupo de DEGs utilizando el paquete ReactomePA y el software GSEA. Para estimar la infiltración de células inmunes y estromales en los tejidos tumorales, se calculó el Puntaje Inmune y el Puntaje de Pureza Tumoral basados en perfiles de expresión génica de células inmunológicas del microambiente tumoral, utilizando los algoritmos estimate y xCell. Luego, las firmas de infiltración de células inmunes se evaluaron mediante ocho algoritmos diferentes utilizando la aplicación estimate y TIMER2.0. Se encontró una fuerte correlación positiva entre la expresión de Vav1 y las firmas de células inmunes (p=2.2E-16). No se observó correlación para la expresión de Vav2 o Vav3. Sin embargo, las Puntuaciones Inmune y de Microambiente estuvieron fuerte y positivamente asociadas con las expresiones de Vav1 (valor de p<3E-16) y Vav3 (valor de p<3E-9). En conjunto, nuestros resultados sugieren que altas expresiones de Vav1 y Vav3, combinadas con una baja expresión de Vav2, resultan en un mejor pronóstico en el contexto del melanoma. Este pronóstico puede estar relacionado por la influencia de Vav1 sobre la comunicación entre las células tumorales y su microambiente, mientras que la alta expresión de Vav3 podría regular la activación de vías de señalización de la célula tumoral, promoviendo una mayor inmunogenicidad. Palabras Clave: Bioinformática, Melanoma, Vav.Ítem Acceso Abierto Evaluación de modelos de machine learning para la predicción de fenotipos mediante la composición de la microbiota intestinal: un enfoque para la identificación de biomarcadores(Facultad de Ciencias Agrarias. UNR, 2023-03-12) Portela, Néstor Denis; Pesoa, Susana; Arce, DéboraEn los últimos tiempos, los modelos de aprendizaje automático (ML) han surgido como una herramienta eficaz para comprender la variación interpersonal del microbioma y explorar su posible relación con el desarrollo de enfermedades. A diferencia de los enfoques tradicionales, los modelos de ML consideran la abundancia relativa de cada población bacteriana en el contexto de otras poblaciones, lo que permite una explicación más efectiva. No obstante, es crucial abordar los desafíos relacionados con la estandarización de los modelos, las metodologías y la estructura de datos utilizados, a fin de garantizar la robustez y aplicabilidad clínica de dichos modelos. En este contexto, llevamos a cabo una evaluación exhaustiva de 10 modelos de ML diferentes para la clasificación de fenotipos basados en la composición de la microbiota intestinal. Nuestro enfoque se centró en analizar el impacto de la escala taxonómica y la efectividad de la estrategia de selección de características en el rendimiento de los modelos. Los análisis revelaron diferencias significativas en el rendimiento de los modelos de predicción al evaluarlos en diferentes niveles taxonómicos, obteniéndose mejores resultados en la exactitud y el área bajo la curva en niveles más específicos, como género y especie. Asimismo, encontramos que no todos los métodos de selección de características son igualmente eficaces para mejorar el rendimiento de las predicciones de los modelos. En general, la aplicación de estos métodos tuvo un impacto positivo y significativo en los niveles de familia, género y especie, en la mayoría de los modelos. Mediante el análisis Hold-out, encontramos que el modelo de Random Forest con el método de selección de características SAFS.rf, aplicado a nivel de especie, mantuvo un alto rendimiento consistente en todas las etapas de evaluación, mostrando una menor influencia por la composición y estructura de los conjuntos de datos utilizados. Por último, nuestras estrategias de análisis nos permitieron identificar posibles biomarcadores microbianos asociados al fenotipo delgado/obeso. Estos resultados respaldan la aplicabilidad de las técnicas de ML en el estudio de microbiomas, al demostrar su capacidad para descubrir relaciones no lineales y generar perfiles clasificatorios con mayor precisión. Además, subrayan la importancia de considerar los niveles taxonómicos más específicos, como género y especie, y la implementación de técnicas de selección de características como una estrategia recomendada para mejorar el rendimiento de los métodos de predicción. Estos hallazgos brindan información relevante sobre la robustez de las técnicas de ML en la predicción de fenotipos relacionados con enfermedades a partir de información metagenómica, y pueden proporcionar nuevos indicios sobre la relevancia de ciertos microorganismos en el desarrollo de diversas patologías