Uso de datos de transcriptómica para la anotación de genes en el genoma de pacú (Piaractus mesopotamicus)

Mascali, Florencia Victoria2023-07-122023-07-122022http://hdl.handle.net/2133/26076En Argentina, la producción de pacú (Piaractus mesopotamicus) ocupa el primer lugar dentro de las producciones por piscicultura de especies nativas. A pesar de la importancia de la misma, existe poca información genómica sobre esta especie, lo cual limita el desarrollo de tecnología y de programas de mejoramiento genético. En el Laboratorio Mixto de Biotecnología Acuática fueron ensamblados recientemente un genoma de referencia para hembra y uno para macho a partir de la tecnología de secuenciación corta de Illumina. Sin embargo, los mismos aún no han sido anotados. Profundizar el análisis de dichos genomas permitirá no solo aumentar el conocimiento sobre diferentes aspectos de la biología del pacú, sino que también dará lugar al diseño y desarrollo de nuevos proyectos. Es por ello que el objetivo de este trabajo fue contribuir a la anotación de dichos genomas utilizando datos de transcriptómica disponibles para esta especie. En el presente trabajo se utilizaron secuencias de un transcriptoma de músculo de pacú provenientes de un repositorio público. Se realizó un análisis de calidad de las secuencias crudas y luego se ensamblaron de manera conjunta usando el programa Trinity. El análisis del ensamblado indicó que el mismo es de alta calidad, con un alto aprovechamiento de las secuencias crudas (98.84 %) y alta presencia (81.4%) de ortólogos de ciertos genes que son universales, se expresan persistentemente y se presentan casi exclusivamente como copias únicas en el genoma. Para la anotación funcional se combinaron datos de predicción de secuencias proteicas, análisis de homologías de secuencias y predicción de dominios, de péptidos señales y de familias. Al anotar el transcriptoma se encontraron 64.111 genes e isoformas, indicando una perspectiva de alta utilidad en el uso de estas secuencias para anotar los genomas. Los genomas obtenidos para un macho y una hembra de pacú a partir de tecnología Illumina se encuentran altamente fragmentados. Esto trajo como consecuencia una gran dificultad computacional en el proceso de anotación de los mismos, a pesar de trabajar en un servidor con un alto poder de cómputo. Por esto, solo se llevó a cabo una prueba de anotación de un fragmento de cada genoma. El genoma de la hembra se procesó en un 38%, anotando 5.970 genes, con un largo promedio de 4.660,44 bases. El genoma del macho, en cambio, se procesó en un 23%, anotando 4.182 genes, con un largo promedio de 3.953,42 bases A pesar de ser resultados preliminares los mismos son alentadores, ya que presentan altos niveles de calidad según el parámetro AED.In Argentina, the production of pacú (Piaractus mesopotamicus) occupies the first place within the productions by fish farming of native species. Despite its importance, there is little genomic information on this species, which limits the development of technology and breeding programs. A female and a male reference genome were recently assembled at the Joint Aquatic Biotechnology Laboratory using Illumina short sequencing technology. However, they have not yet been annotated. Deepening the analysis of these genomes will allow not only to increase knowledge about different aspects of the biology of the pacú, but will also lead to the design and development of new projects. That is why the aim of this work was to contribute to In the present work, sequences of a pacú muscle transcriptome from a public repository were used. Quality analysis of the raw sequences was performed and these were then assembled together using the Trinity program. The analysis of the assembly indicated that it is of high quality, with a high use of raw sequences (98.84%) and a high presence (81.4%) of orthologs of certain genes that are universal, are persistently expressed and are presented almost exclusively as unique copies in the genome. Data from protein sequence prediction, sequence homology analysis, and domain, signal peptide, and family prediction were combined for functional annotation. Annotating the transcriptome found 64,111 genes and isoforms, indicating a prospect of high utility in using these sequences to annotate genomes. Genomes obtained for one male and one female pacú from Illumina technology are highly fragmented. This resulted in great computational difficulty in the annotation process, despite working on a server with high computing power. For this reason, only one annotation test of a fragment of each genome was carried out. The female genome was 38% processed, scoring 5,970 genes, with an average length of 4,660.44 bases. The male genome, on the other hand, was processed in 23%, annotating 4,182 genes, with an average length of 3,953.42 bases. Despite being preliminary results, they are encouraging, since they present high levels of quality according to the AED parameter.application/pdfspaopenAccessTranscriptomasGenomasAnotación de datosArgentinaUso de datos de transcriptómica para la anotación de genes en el genoma de pacú (Piaractus mesopotamicus)bachelorThesisEl autorAtribución-NoComercial-CompartirIgual 2.5 Argentina (CC BY-NC-SA 2.5 Argentina)