Variantes microsatélites humanas: creación de una base de datos (local y remota) con acceso web, y el aporte de datos de secuenciación de segunda generación

Fecha

2021

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen

Descripción

Los microsatélites son un tipo de variante ampliamente distribuidos en el genoma humano y otros organismos procariotas y eucariotas. Su elevado polimorfismo y tasa de mutación los ha convertido en candidatos predilectos como marcadores moleculares de uso en disciplinas como genética de poblaciones, en ciencias forenses y de la salud. Muchos microsatélites contenidos en STSs usados para crear los primeros mapas físicos del genoma humano quedaron registrados en las primeras bases de datos públicas, y que, al provenir de distintos grupos de trabajo, se generaron distintas nomenclaturas que apuntan a las mismas regiones, estableciéndose un elevado solapamiento. Además, la información para microsatélites de estas bases de datos originales solo contempló una pequeña proporción del total de variantes que asciende a casi 700.000 (320.000 MAF > 1%) según un amplio catálogo de microsatélites generado en el año 2014 y actualizado en el año 2020. A partir de estos datos y de los disponibles más antiguos en los sitios de UCSC y de Ensembl se construyó una base de datos con funcionamiento local y remoto, cuya finalidad es reunir datos de secuenciación con tecnologías de segunda generación junto con la información antigua y enriquecer todo lo que está disponible para microsatélites, y que se encuentra fragmentado en diferentes sitios. También se generó nueva información usando dos herramientas: StraitRazor y lobSTR que detectan microsatélites en archivos de secuenciación de segunda generación de 27 genomas disponibles del Proyecto 1000 Genomas, con un total de 323 marcadores más usados en ciencias forenses y de la salud, entre otros elegidos según posean elevada heterocigosidad o pertenezcan a cromosomas involucrados en aneuploidías. A lo sumo un 12,8 % de la información de STSs contienen STRs, lo que implica que aquellos datos de STSs en sitios como Ensembl y UCSC, que provienen originalmente de UniSTS, son insuficientes aunque complementarios para describir STRs. Además, se evidencia que hay poco más de 5% de las secuencias de cebadores que tienen errores respecto del fragmento blanco. Esto significa que es necesario hacer correcciones para muchos STRs incluidos en STSs, y generar nueva información de casi la totalidad de los STRs humanos. Hasta ahora se ha conseguido un catálogo de variantes ambicioso de casi 700.000, pero se necesita aun un mejor detalle de cada variante: nomenclatura y descripción general de la estructura del STR y de cada variante alélica. Los STRs se encuentran homogéneamente distribuidos, por esa razón encontramos un 56,12% del total en regiones génicas (99,4 % en intrones), lo que fue útil para nombrar muchos marcadores y no usar la notación de SNPs. Sin embargo, los SNPs modifican las regiones STRs y deben ser tenidas en cuenta en la nomenclatura, configuración de la estructura del nucleo STR y parámetros de herramientas bioinformáticas. Otro evento genómico incluido en este estudio e incorporado a la base de datos son los segmentos múltiples. Hemos visto más del 40 % STRs del cromosoma Y que son múltiples intra y inter-cromosómicamente. Evento que explica porque el cromosoma Y posee tantos STRs con más de una alelo por individuo. También es útil para explicar inespecificidad del uso de herramientas bioinformáticas. El diseño para detectar una determinada región y usarlo como marcador también requiere el conocimiento y buen uso de estos segmentos. La especificidad depende de ese diseño. En el sitio http://arrobasistemas.com/humstrs2/index.html se muestran las características de los 319 STRs usados en este trabajo, y se contemplan aquellos usados en Ciencias Forenses y de la Salud, entre otros. En el detalle de cada marcador se reúne información proveniente de los sitios UCSC y Ensembl, además de datos generados con las herramientas lobSTR y StraitRazor sobre 27 genomas. El detalle de cada STR está comprendido entre los siguientes grupos: Nombres, Ubicación Genómica, Eventos Genómicos Asociados, Salida de Tándem Repeat Finder, Parámetros Poblacionales, Asignaciones Alélicas, Alineamientos, SNPs (+/- 100 pb alrededor del núcleo) y por último la Estructura del núcleo (190 estructuras fueron definidas). Se menciona el recurso usado para cada grupo. Se estableció el uso de dos herramientas para la detección de STRs debido principalmente al bajo número de lecturas (en promedio de 11 a 15) hallados en los genomas secuenciados e implicó establecer una doble asignación alélica. Las coincidencias de las herramientas dependieron del grado de complejidad de la estructura del STR, del número de secuencias detectadas por cada herramienta, del ajuste de parámetros teniendo en cuenta SNPs y segmentos múltiples, estas mismas variaciones también produjeron diferentes asignaciones alélicas en muchos casos, debido a situaciones individuales, otros cambios no tenidos en cuenta en los parámetros e incluso errores debido a una anotación incorrecta de algún SNP. Considerando el tartamudeo y habiendo establecido el grado de coincidencia de las herramientas se consiguió que un 76,9 % de asignaciones alélicas totales (8.710) sean idénticas entre ambas herramientas, o un 65,4 % en condiciones un poco más estrictas. El restante aún puede ser corregidas con la intervención del analista. Aquellas secuencias obtenidas con StraitRazor (cuyas asignaciones alélicas coincidieron con lobSTR) fueron usadas para establecer las estructuras. Aún faltan modificaciones o nuevas herramientas que detecten aquellos STRs de configuración del núcleo complejas, o mayor información de esas estructuras para el universo completo de STRs humanos. También se requiere que las herramientas (solas o en conjunto con otras) puedan calificar las detecciones y asignaciones alélicas que consiguen. La calidad de esas asignaciones dependerá de todo lo expuesto anteriormente, además de las condiciones de calidad y tecnologías usadas en la secuenciación. Se pudo chequear en un simple análisis (y algunos hallazgos con SNPs) que el ensamblaje de trabajo: HG19 y el vigente HG38 poseen errores de anotación respecto del alelo de referencia (el anotado no es el más frecuente) tanto para SNPs y como para STRs de estructuras simples. Esta situación no es fácilmente demostrable con STRs complejos. Superado esto se podrá tener la mejor descripción de la totalidad de los STRs humanos. Este planteo también aplica al resto de STRs de los seres vivos
Microsatellites are a type of variant widely distributed in the human genome and other prokaryotic and eukaryotic organisms. Their high polymorphism and mutation rate have made them favored candidates as molecular markers for use in disciplines such as population genetics, forensic and health sciences. Many microsatellites contained in STSs used to create the first physical maps of the human genome were registered in the first public databases, and that, coming from different work groups, different nomenclatures were generated that point to the same regions, establishing a high overlap. In addition, the information for microsatellites in these original databases only included a small proportion of the total variants, amounting to almost 700,000 (320,000 MAF > 1%) according to an extensive catalog of microsatellites generated in 2014 and updated in 2020. . From these data and from the oldest data available at the UCSC and Ensembl sites, a database with local and remote operation was built, whose purpose is to gather sequencing data with second generation technologies together with the old information and enrich everything that is available to microsatellites, and that is fragmented in different places. New information was also generated using two tools: StraitRazor and lobSTR that detect microsatellites in second-generation sequencing files of 27 genomes available from the 1000 Genomes Project, with a total of 323 markers most used in forensic and health sciences, among others chosen. depending on whether they have high heterozygosity or belong to chromosomes involved in aneuploidy. At most 12.8% of the information on STSs contain STRs, which implies that those data on STSs in sites such as Ensembl and UCSC, which originally come from UniSTS, are insufficient but complementary to describe STRs. In addition, it is evident that there is little more than 5% of the primer sequences that have errors with respect to the target fragment. This means that it is necessary to make corrections for many STRs included in STSs, and to generate new information for almost all human STRs. So far, an ambitious variant catalog of almost 700,000 has been achieved, but even better detail of each variant is needed: nomenclature and general description of the structure of the STR and of each allelic variant. The STRs are homogeneously distributed, for this reason we found 56.12% of the total in gene regions (99.4% in introns), which was useful for naming many markers and not using the SNP notation. However, the SNPs modify the STRs regions and must be taken into account in the nomenclature, configuration of the STR core structure and parameters of bioinformatics tools. Another genomic event included in this study and incorporated into the database is multiple segments. We have seen more than 40% STRs of the Y chromosome that are multiple intra- and interchromosomally. Event that explains why the Y chromosome has so many STRs with more than one allele per individual. It is also useful to explain the non-specificity of the use of bioinformatic tools. The design to detect a certain region and use it as a marker also requires the knowledge and good use of these segments. The specificity depends on that design. The site http://arrobasistemas.com/humstrs2/index.html shows the characteristics of the 319 STRs used in this work, and those used in Forensic and Health Sciences, among others, are considered. In the detail of each marker, information from the UCSC and Ensembl sites is gathered, in addition to data generated with the lobSTR and StraitRazor tools on 27 genomes. The detail of each STR is comprised of the following groups: Names, Genomic Location, Associated Genomic Events, Tandem Repeat Finder Output, Population Parameters, Allelic Assignments, Alignments, SNPs (+/- 100 bp around the nucleus) and finally the Core structure (190 structures were defined). The resource used for each group is mentioned. The use of two tools for the detection of STRs was established mainly due to the low number of reads (average 11 to 15) found in the sequenced genomes and involved establishing a double allelic assignment. The coincidences of the tools depended on the degree of complexity of the STR structure, the number of sequences detected by each tool, the adjustment of parameters taking into account SNPs and multiple segments, these same variations also produced different allelic assignments in many cases, due to to individual situations, other changes not taken into account in the parameters and even errors due to an incorrect annotation of some SNP. Considering stuttering and having established the degree of coincidence of the tools, 76.9% of total allelic assignments (8,710) were identical between both tools, or 65.4% under slightly more stringent conditions. The rest can still be corrected with the intervention of the analyst. Those sequences obtained with StraitRazor (whose allelic assignments coincided with lobSTR) were used to establish the structures. There is still a lack of modifications or new tools that detect those complex core configuration STRs, or more information on these structures for the entire universe of human STRs. The tools (alone or in conjunction with others) are also required to be able to qualify the allelic detections and assignments they achieve. The quality of these assignments will depend on all of the above, in addition to the quality conditions and technologies used in sequencing. It was possible to check in a simple analysis (and some findings with SNPs) that the working assemblage: HG19 and the current HG38 have annotation errors with respect to the reference allele (the annotated one is not the most frequent) for both SNPs and STRs. of simple structures. This situation is not easily demonstrable with complex STRs. Once this is overcome, it will be possible to have the best description of all the human STRs. This statement also applies to the rest of the STRs of living beings

Palabras clave

Microsatélites, Marcadores genéticos, Base de datos, Seres humanos, Género humano

Citación