validamos Hapl-O-Mat comprobando la exactitud de sus frecuencias estimadas de haplotype. Como la traducción entre resoluciones de alelos y la resolución de ambigüedades de genotipado no son compatibles con otro software para la estimación de frecuencia de haplotipos, seguimos dos enfoques., En primer lugar, validamos Hapl-O-Mat contra datos de población de HLA artificiales que incluyen diferentes resoluciones de tipificación y ambigüedades de genotipado. Para tales poblaciones artificiales se conocían frecuencias de haplotipos por Construcción. Tomando los Datos Completos de la población como muestra de entrada, utilizamos Hapl-O-Mat para resolver los datos del genotipo y para reproducir las frecuencias del haplotipo. En segundo lugar, comparamos los resultados obtenidos de Hapl-O-Mat con los resultados del software Arlequin, fácil de usar y bien establecido ., Se utilizaron muestras reales de registros de mecanografía del centro de donantes de DKMS y datos de población artificial como entrada para ambas implementaciones. Además, se evaluó el rendimiento computacional de Hapl-O-Mat en general y en comparación con Arlequin. La resolución objetivo para todos los experimentos de validación son grupos g a menos que se indique lo contrario.

para observables para comparar frecuencias de haplotipos y para la construcción de poblaciones artificiales, ver Métodos En archivo adicional 3. Todos los resultados se resumen en la Tabla 2.,

primer modelo poblacional

la primera población artificial fue construida por Construcción combinatoria de genotipos a partir de todas las combinaciones posibles de los haplotipos alemanes \( 1.000 \) más frecuentes con reemplazo, como se explica en el archivo adicional 3. La población estaba en HWE casi perfecto como lo indica la estadística de tamaño del efecto \ ({W} _n = 6.65 \ times {10}^{-8} \). Para verificar las traducciones entre las resoluciones de escritura de Hapl-O-Mat, reemplazamos los resultados de escritura con resultados en una resolución de escritura más alta, incluido el resultado de escritura original, p. ej., cada aparición de C * 16:04 fue reemplazada aleatoriamente por C*16:04:01, C*16:04:03, O C*16:04P o se dejó sin cambios como C*16: 04. Utilizamos Hapl-O-Mat para traducir las resoluciones de tipificación modificadas a los grupos g y para estimar las frecuencias de haplotipos. La distancia entre las frecuencias de haplotipos estimadas y originales de la población fue \ (d = 1,3 \ veces {10}^{-4} \), la diferencia absoluta máxima fue \ (\Delta = 9.04 \ times {10}^{-7} \), y no se encontró ninguna desviación relativa mayor que 0.05. Estos resultados indicaron la reproducción de las frecuencias de los haplotipos de la población original., No se puede esperar una reproducción exacta, ya que la aproximación de las frecuencias de genotipo por números enteros en los datos de la población escapa a la precisión de punto flotante.

para validar la estimación de frecuencias de haplotipos a partir de datos genotípicos incluyendo ambigüedades de genotipado, se introdujeron, en una segunda prueba, códigos NMDP a los datos de población genotípica. Con este fin, reemplazamos aleatoriamente el 5% de los resultados de escritura con códigos NMDP. Los códigos se seleccionaron aleatoriamente, excepto por los requisitos de incluir la tipificación original y haber aparecido en los datos originales de la población real., Por ejemplo, todos los alelos tipeados como a*31:01 g fueron reemplazados por A*31:VSCB, que codifica A*31:01, a*31:41 y a*31:68 produciendo dos alelos adicionales (A*31:01 se traduce como a*31: 01 g). Hapl-O-Mat con su filtro de ambigüedad se utilizó para resolver estas ambigüedades, traducir los alelos resultantes a grupos g, y calcular frecuencias de haplotipos. Repetimos este procedimiento diez veces para calcular la media y la desviación estándar de los observables.

La comparación entre las frecuencias de haplotipos estimadas y originales de la población mostró una distancia promedio de \ (d = 0.11 \ pm 0.,02 \), y una diferencia absoluta máxima promedio de \( \Delta =\left(4\pm 1\right) \ times {10}^{-3} \). El rango promedio para el primer haplotipo con una desviación relativa mayor que 0.05 fue \( \rho =14\pm 6 \). En comparación con la primera prueba, estos valores mayores se explican por la aparición de códigos NMDP, que introducen alelos adicionales y, por lo tanto, enmascaran alelos reales., Esto oscurece la identificación de los haplotipos al aumentar el número de haplotipos no presentes en el conjunto poblacional original («haplotipos adicionales») y Haplotipos solo presentes en el conjunto poblacional original («haplotipos faltantes»). Se espera que el número de haplotipos adicionales sea mayor que el número de los que faltan, ya que un código NMDP reemplaza solo un alelo, pero puede producir varios otros cuando se decodifica., En los diez repeticiones de la segunda prueba, en promedio, \ ( 314\pm 98 \) (\( \left(25\pm 8\derecho)\% \)) haplotipos fueron «adicionales» y \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)), los «desaparecidos». Estos haplotipos hicieron la mayor contribución a la diferencia entre las frecuencias de haplotipos estimadas y poblacionales. Excluyendo haplotipos adicionales y faltantes del cálculo de la distancia obtenida \ (d = 0.028 \ pm 0.007 \).

la población Original y las frecuencias estimadas se muestran en la Fig. 2a., Como los haplotipos adicionales tienen una frecuencia de población original de \ ({H}_k = 0\) y los haplotipos faltantes tienen una frecuencia estimada de \( {H}_k=0\), los haplotipos adicionales y faltantes no se muestran en la Fig. 2A o en otras parcelas log-log por venir. Las principales desviaciones en las frecuencias de los haplotipos se debieron a la aparición de códigos NMDP. Si un haplotipo incluía un alelo enmascarado por un código NMDP, su frecuencia estimada se reducía. Si, por otro lado, un haplotipo incluía alelos adicionales de un código NMDP, su frecuencia estimada aumentaba., Solo en pocos casos la ganancia de frecuencia de alelos adicionales se transfiere a haplotipos ya presentes en los datos poblacionales originales. Por esta razón, casi no se sobreestiman las frecuencias de los haplotipos (frecuencia estimada mayor que la frecuencia de la población original) en la Fig. 2a. sin embargo, la pérdida de frecuencia de alelos enmascarados pertenecientes a haplotipos presentes en los datos poblacionales originales resulta en una subestimación como se encuentra en la Fig. 2a. los Haplotipos que no compartían alelos a través de códigos NMDP solo mostraron desviaciones menores entre la población original y las frecuencias estimadas.,

Fig. 2

frecuencias de haplotipos a partir de datos de población artificial. La gráfica a muestra las frecuencias de los haplotipos estimadas a través de Hapl-O-Mat en comparación con las frecuencias poblacionales originales del primer modelo poblacional, incluidas las ambigüedades del genotipado. Solo se ilustra una de las diez carreras. La gráfica b muestra una comparación entre las frecuencias de los haplotipos de la población original y las frecuencias estimadas a través de Arlequin y Hapl-O-Mat sobre la base del segundo modelo poblacional., Debido a las escalas logarítmicas, ambos gráficos no muestran haplotipos adicionales ni faltantes

el hecho de que algunas frecuencias estimadas de haplotipos tienen un desplazamiento constante con respecto a su frecuencia de población original se debe a compartir alelos encontrados en el mismo código NMDP. Las frecuencias se reducen en proporción al número de alelos adicionales que emergen del código NMDP. Como consecuencia, las frecuencias de los haplotipos que incluyen alelos del mismo código NMDP se reducen por el mismo factor.,

modelo de segunda población

la segunda población se construyó mediante la construcción de genotipos a partir de la combinación aleatoria de dos haplotipos de acuerdo con su distribución de frecuencia como se explica en el archivo adicional 3. La estadística del tamaño del efecto promediada sobre todos los loci para esta población fue \( {W}_n=3.0\times {10}^{-3} \) indicando que no hay una desviación significativa de HWE. Se calcularon frecuencias de haplotipos a partir de estos datos poblacionales utilizando Arlequin y Hapl-O-Mat. Las frecuencias de los haplotipos estimados y originales de la población se muestran en la Fig. 2b. los observables correspondientes figuran en el cuadro 2., Ambas implementaciones se desempeñaron igualmente bien demostrando la correcta implementación de Hapl-O-Mat. Sin embargo, en contraste con el primer modelo poblacional, las desviaciones entre las frecuencias poblacionales estimadas y originales fueron mucho mayores tanto para Arlequin como para Hapl-O-Mat. Esto resultó de aplicar el algoritmo EM A datos con una gran cantidad de diversidad genotípica. Como los datos consistían solo de \ (N=50,000\) individuos pero incluían \ (41,489\) diferentes genotipos, el algoritmo EM no fue capaz de reproducir exactamente la distribución de frecuencia de los haplotipos de la población original., Por esta razón Arlequin y Hapl-O-Mat, ambos basados en el algoritmo EM, mostraron desviaciones similares entre las frecuencias poblacionales estimadas y originales como las observadas en la Fig. 2b.

muestras de datos reales

Fig. 3

comparación de frecuencias de haplotipos estimadas a través de Arlequin y Hapl-O-Mat A partir de una muestra de datos de población real., Debido a las escalas logarítmicas, la gráfica no muestra haplotipos adicionales ni faltantes

rendimiento computacional

evaluamos Hapl-O-Mat en términos de rendimiento computacional midiendo su tiempo de ejecución para diferentes cantidades de datos de entrada y diferentes resoluciones de destino. Todos los cálculos se realizaron utilizando una computadora con Ubuntu Linux 14.04.5 con 768 GB de RAM (aunque esto nunca se agotó), y 32 núcleos Intel® Xeon® CPU E5-2630 v3 A 2.40 GHz., Sin embargo, Hapl-O-Mat no hace uso del paralelismo, por lo que todo el tiempo de ejecución se refiere a un solo núcleo.

el tiempo de ejecución para estimar las frecuencias de haplotipos por Hapl-O-Mat de N = 1.825.721 individuos con origen alemán autoevaluado fue \ (t \approx 11.4\) h con grupos g como resolución objetivo.

Fig., 4

tiempos de ejecución promedio con desviación estándar de Hapl-O-Mat para diferentes tamaños de muestra y diferentes grupos de alelos objetivo, incluidos los grupos G, P y g

para comparar el desempeño entre Arlequin y hapl-O-Mat, se repitió la estimación de la frecuencia de haplotipos a partir de datos de población real. Variamos el tamaño de la muestra entre \ (N = 5,000\), \ (N=20,000\) y \( N=50,000\) e incluimos de manera similar solo muestras con traducción inequívoca de 2 campos., Promediando ambas implementaciones más de diez corridas en la misma máquina se obtuvieron tiempos de ejecución como se indica en la Tabla 3. Especialmente en el caso de grandes tamaños de muestra, Hapl-O-Mat fue considerablemente más rápido demostrando su implementación eficiente.

Tabla 3 tiempos de ejecución promedio de Arlequin y Hapl-O-Mat para la estimación de frecuencias de haplotipos a partir de datos de población real

también evaluamos las capacidades de Hapl-O-Mat para hacer frente a la naturaleza heterogénea y ambigua de los registros de tipificación., Registramos el tiempo de ejecución y el uso de memoria en la máquina descrita anteriormente, ya que variamos la proporción de códigos NMDP que introdujimos en los datos de población de genotipos para el primer modelo de población de la misma manera que se describió anteriormente para una fracción variable de alelos enmascarados de 2,5% a 50%. Hapl-O-Mat con su filtro de ambigüedad se utilizó para resolver estas ambigüedades, traducir los alelos resultantes a grupos g, y calcular frecuencias de haplotipos. Repetimos este procedimiento diez veces para calcular la media y la desviación estándar de los usos de la memoria y los tiempos de ejecución. Los resultados se visualizan en la Fig. 5.,

Fig. 5

rendimiento de Hapl-O-Mat con respecto a la proporción variable de registros de mecanografía que contienen códigos NMDP. La gráfica a muestra el uso promedio de memoria con desviaciones estándar y la gráfica B tiempos de ejecución promedio con desviaciones estándar para ambos; preprocesamiento de datos y estimación de frecuencia de haplotipo

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *