Variantes microsatélites humanas: creación de una base de datos (local y remota) con acceso web, y el aporte de datos de secuenciación de segunda generación

Fecha

2021

Título de la revista

ISSN de la revista

Título del volumen

Editor

Resumen
Los microsatélites son un tipo de variante ampliamente distribuidos en el genoma humano y otros organismos procariotas y eucariotas. Su elevado polimorfismo y tasa de mutación los ha convertido en candidatos predilectos como marcadores moleculares de uso en disciplinas como genética de poblaciones, en ciencias forenses y de la salud. Muchos microsatélites contenidos en STSs usados para crear los primeros mapas físicos del genoma humano quedaron registrados en las primeras bases de datos públicas, y que, al provenir de distintos grupos de trabajo, se generaron distintas nomenclaturas que apuntan a las mismas regiones, estableciéndose un elevado solapamiento. Además, la información para microsatélites de estas bases de datos originales solo contempló una pequeña proporción del total de variantes que asciende a casi 700.000 (320.000 MAF > 1%) según un amplio catálogo de microsatélites generado en el año 2014 y actualizado en el año 2020. A partir de estos datos y de los disponibles más antiguos en los sitios de UCSC y de Ensembl se construyó una base de datos con funcionamiento local y remoto, cuya finalidad es reunir datos de secuenciación con tecnologías de segunda generación junto con la información antigua y enriquecer todo lo que está disponible para microsatélites, y que se encuentra fragmentado en diferentes sitios. También se generó nueva información usando dos herramientas: StraitRazor y lobSTR que detectan microsatélites en archivos de secuenciación de segunda generación de 27 genomas disponibles del Proyecto 1000 Genomas, con un total de 323 marcadores más usados en ciencias forenses y de la salud, entre otros elegidos según posean elevada heterocigosidad o pertenezcan a cromosomas involucrados en aneuploidías. A lo sumo un 12,8 % de la información de STSs contienen STRs, lo que implica que aquellos datos de STSs en sitios como Ensembl y UCSC, que provienen originalmente de UniSTS, son insuficientes aunque complementarios para describir STRs. Además, se evidencia que hay poco más de 5% de las secuencias de cebadores que tienen errores respecto del fragmento blanco. Esto significa que es necesario hacer correcciones para muchos STRs incluidos en STSs, y generar nueva información de casi la totalidad de los STRs humanos. Hasta ahora se ha conseguido un catálogo de variantes ambicioso de casi 700.000, pero se necesita aun un mejor detalle de cada variante: nomenclatura y descripción general de la estructura del STR y de cada variante alélica. Los STRs se encuentran homogéneamente distribuidos, por esa razón encontramos un 56,12% del total en regiones génicas (99,4 % en intrones), lo que fue útil para nombrar muchos marcadores y no usar la notación de SNPs. Sin embargo, los SNPs modifican las regiones STRs y deben ser tenidas en cuenta en la nomenclatura, configuración de la estructura del nucleo STR y parámetros de herramientas bioinformáticas. Otro evento genómico incluido en este estudio e incorporado a la base de datos son los segmentos múltiples. Hemos visto más del 40 % STRs del cromosoma Y que son múltiples intra y inter-cromosómicamente. Evento que explica porque el cromosoma Y posee tantos STRs con más de una alelo por individuo. También es útil para explicar inespecificidad del uso de herramientas bioinformáticas. El diseño para detectar una determinada región y usarlo como marcador también requiere el conocimiento y buen uso de estos segmentos. La especificidad depende de ese diseño. En el sitio http://arrobasistemas.com/humstrs2/index.html se muestran las características de los 319 STRs usados en este trabajo, y se contemplan aquellos usados en Ciencias Forenses y de la Salud, entre otros. En el detalle de cada marcador se reúne información proveniente de los sitios UCSC y Ensembl, además de datos generados con las herramientas lobSTR y StraitRazor sobre 27 genomas. El detalle de cada STR está comprendido entre los siguientes grupos: Nombres, Ubicación Genómica, Eventos Genómicos Asociados, Salida de Tándem Repeat Finder, Parámetros Poblacionales, Asignaciones Alélicas, Alineamientos, SNPs (+/- 100 pb alrededor del núcleo) y por último la Estructura del núcleo (190 estructuras fueron definidas). Se menciona el recurso usado para cada grupo. Se estableció el uso de dos herramientas para la detección de STRs debido principalmente al bajo número de lecturas (en promedio de 11 a 15) hallados en los genomas secuenciados e implicó establecer una doble asignación alélica. Las coincidencias de las herramientas dependieron del grado de complejidad de la estructura del STR, del número de secuencias detectadas por cada herramienta, del ajuste de parámetros teniendo en cuenta SNPs y segmentos múltiples, estas mismas variaciones también produjeron diferentes asignaciones alélicas en muchos casos, debido a situaciones individuales, otros cambios no tenidos en cuenta en los parámetros e incluso errores debido a una anotación incorrecta de algún SNP. Considerando el tartamudeo y habiendo establecido el grado de coincidencia de las herramientas se consiguió que un 76,9 % de asignaciones alélicas totales (8.710) sean idénticas entre ambas herramientas, o un 65,4 % en condiciones un poco más estrictas. El restante aún puede ser corregidas con la intervención del analista. Aquellas secuencias obtenidas con StraitRazor (cuyas asignaciones alélicas coincidieron con lobSTR) fueron usadas para establecer las estructuras. Aún faltan modificaciones o nuevas herramientas que detecten aquellos STRs de configuración del núcleo complejas, o mayor información de esas estructuras para el universo completo de STRs humanos. También se requiere que las herramientas (solas o en conjunto con otras) puedan calificar las detecciones y asignaciones alélicas que consiguen. La calidad de esas asignaciones dependerá de todo lo expuesto anteriormente, además de las condiciones de calidad y tecnologías usadas en la secuenciación. Se pudo chequear en un simple análisis (y algunos hallazgos con SNPs) que el ensamblaje de trabajo: HG19 y el vigente HG38 poseen errores de anotación respecto del alelo de referencia (el anotado no es el más frecuente) tanto para SNPs y como para STRs de estructuras simples. Esta situación no es fácilmente demostrable con STRs complejos. Superado esto se podrá tener la mejor descripción de la totalidad de los STRs humanos. Este planteo también aplica al resto de STRs de los seres vivos

Palabras clave

Microsatélites, Marcadores genéticos, Base de datos, Seres humanos, Género humano

Citación