Variantes microsatélites humanas: creación de una base de datos (local y remota) con acceso web, y el aporte de datos de secuenciación de segunda generación
Fecha
2021
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Resumen
Los microsatélites son un tipo de variante ampliamente distribuidos en el genoma humano
y otros organismos procariotas y eucariotas. Su elevado polimorfismo y tasa de mutación los ha
convertido en candidatos predilectos como marcadores moleculares de uso en disciplinas como
genética de poblaciones, en ciencias forenses y de la salud.
Muchos microsatélites contenidos en STSs usados para crear los primeros mapas físicos
del genoma humano quedaron registrados en las primeras bases de datos públicas, y que, al
provenir de distintos grupos de trabajo, se generaron distintas nomenclaturas que apuntan a las
mismas regiones, estableciéndose un elevado solapamiento.
Además, la información para microsatélites de estas bases de datos originales solo
contempló una pequeña proporción del total de variantes que asciende a casi 700.000 (320.000
MAF > 1%) según un amplio catálogo de microsatélites generado en el año 2014 y actualizado
en el año 2020.
A partir de estos datos y de los disponibles más antiguos en los sitios de UCSC y de
Ensembl se construyó una base de datos con funcionamiento local y remoto, cuya finalidad es
reunir datos de secuenciación con tecnologías de segunda generación junto con la información
antigua y enriquecer todo lo que está disponible para microsatélites, y que se encuentra
fragmentado en diferentes sitios.
También se generó nueva información usando dos herramientas: StraitRazor y lobSTR
que detectan microsatélites en archivos de secuenciación de segunda generación de 27
genomas disponibles del Proyecto 1000 Genomas, con un total de 323 marcadores más usados
en ciencias forenses y de la salud, entre otros elegidos según posean elevada heterocigosidad
o pertenezcan a cromosomas involucrados en aneuploidías.
A lo sumo un 12,8 % de la información de STSs contienen STRs, lo que implica que
aquellos datos de STSs en sitios como Ensembl y UCSC, que provienen originalmente de
UniSTS, son insuficientes aunque complementarios para describir STRs. Además, se evidencia
que hay poco más de 5% de las secuencias de cebadores que tienen errores respecto del
fragmento blanco. Esto significa que es necesario hacer correcciones para muchos STRs
incluidos en STSs, y generar nueva información de casi la totalidad de los STRs humanos. Hasta
ahora se ha conseguido un catálogo de variantes ambicioso de casi 700.000, pero se necesita
aun un mejor detalle de cada variante: nomenclatura y descripción general de la estructura del
STR y de cada variante alélica.
Los STRs se encuentran homogéneamente distribuidos, por esa razón encontramos un
56,12% del total en regiones génicas (99,4 % en intrones), lo que fue útil para nombrar muchos
marcadores y no usar la notación de SNPs. Sin embargo, los SNPs modifican las regiones STRs
y deben ser tenidas en cuenta en la nomenclatura, configuración de la estructura del nucleo STR
y parámetros de herramientas bioinformáticas.
Otro evento genómico incluido en este estudio e incorporado a la base de datos son los
segmentos múltiples. Hemos visto más del 40 % STRs del cromosoma Y que son múltiples intra
y inter-cromosómicamente. Evento que explica porque el cromosoma Y posee tantos STRs con
más de una alelo por individuo. También es útil para explicar inespecificidad del uso de
herramientas bioinformáticas. El diseño para detectar una determinada región y usarlo como
marcador también requiere el conocimiento y buen uso de estos segmentos. La especificidad
depende de ese diseño.
En el sitio http://arrobasistemas.com/humstrs2/index.html se muestran las características
de los 319 STRs usados en este trabajo, y se contemplan aquellos usados en Ciencias Forenses
y de la Salud, entre otros. En el detalle de cada marcador se reúne información proveniente de
los sitios UCSC y Ensembl, además de datos generados con las herramientas lobSTR y
StraitRazor sobre 27 genomas.
El detalle de cada STR está comprendido entre los siguientes grupos: Nombres,
Ubicación Genómica, Eventos Genómicos Asociados, Salida de Tándem Repeat Finder,
Parámetros Poblacionales, Asignaciones Alélicas, Alineamientos, SNPs (+/- 100 pb alrededor del
núcleo) y por último la Estructura del núcleo (190 estructuras fueron definidas). Se menciona el
recurso usado para cada grupo.
Se estableció el uso de dos herramientas para la detección de STRs debido
principalmente al bajo número de lecturas (en promedio de 11 a 15) hallados en los genomas
secuenciados e implicó establecer una doble asignación alélica. Las coincidencias de las
herramientas dependieron del grado de complejidad de la estructura del STR, del número de
secuencias detectadas por cada herramienta, del ajuste de parámetros teniendo en cuenta SNPs
y segmentos múltiples, estas mismas variaciones también produjeron diferentes asignaciones
alélicas en muchos casos, debido a situaciones individuales, otros cambios no tenidos en cuenta
en los parámetros e incluso errores debido a una anotación incorrecta de algún SNP.
Considerando el tartamudeo y habiendo establecido el grado de coincidencia de las
herramientas se consiguió que un 76,9 % de asignaciones alélicas totales (8.710) sean idénticas
entre ambas herramientas, o un 65,4 % en condiciones un poco más estrictas. El restante aún
puede ser corregidas con la intervención del analista. Aquellas secuencias obtenidas con
StraitRazor (cuyas asignaciones alélicas coincidieron con lobSTR) fueron usadas para establecer
las estructuras.
Aún faltan modificaciones o nuevas herramientas que detecten aquellos STRs de
configuración del núcleo complejas, o mayor información de esas estructuras para el universo
completo de STRs humanos. También se requiere que las herramientas (solas o en conjunto con
otras) puedan calificar las detecciones y asignaciones alélicas que consiguen. La calidad de esas
asignaciones dependerá de todo lo expuesto anteriormente, además de las condiciones de
calidad y tecnologías usadas en la secuenciación.
Se pudo chequear en un simple análisis (y algunos hallazgos con SNPs) que el
ensamblaje de trabajo: HG19 y el vigente HG38 poseen errores de anotación respecto del alelo
de referencia (el anotado no es el más frecuente) tanto para SNPs y como para STRs de
estructuras simples. Esta situación no es fácilmente demostrable con STRs complejos.
Superado esto se podrá tener la mejor descripción de la totalidad de los STRs humanos.
Este planteo también aplica al resto de STRs de los seres vivos
Palabras clave
Microsatélites, Marcadores genéticos, Base de datos, Seres humanos, Género humano