Hapl-O-Mat: open-source software for HLA haplotype frequency estimation from ambiguous and heterogeneous data

validamos Hapl-O-Mat comprobando la exactitud de sus frecuencias estimadas de haplotype. Como la traducción entre resoluciones de alelos y la resolución de ambigüedades de genotipado no son compatibles con otro software para la estimación de frecuencia de haplotipos, seguimos dos enfoques., En primer lugar, validamos Hapl-O-Mat contra datos de población de HLA artificiales que incluyen diferentes resoluciones de tipificación y ambigüedades de genotipado. Para tales poblaciones artificiales se conocían frecuencias de haplotipos por Construcción. Tomando los Datos Completos de la población como muestra de entrada, utilizamos Hapl-O-Mat para resolver los datos del genotipo y para reproducir las frecuencias del haplotipo. En segundo lugar, comparamos los resultados obtenidos de Hapl-O-Mat con los resultados del software Arlequin, fácil de usar y bien establecido ., Se utilizaron muestras reales de registros de mecanografía del centro de donantes de DKMS y datos de población artificial como entrada para ambas implementaciones. Además, se evaluó el rendimiento computacional de Hapl-O-Mat en general y en comparación con Arlequin. La resolución objetivo para todos los experimentos de validación son grupos g a menos que se indique lo contrario.

para observables para comparar frecuencias de haplotipos y para la construcción de poblaciones artificiales, ver Métodos En archivo adicional 3. Todos los resultados se resumen en la Tabla 2.,

primer modelo poblacional

la primera población artificial fue construida por Construcción combinatoria de genotipos a partir de todas las combinaciones posibles de los haplotipos alemanes \( 1.000 \) más frecuentes con reemplazo, como se explica en el archivo adicional 3. La población estaba en HWE casi perfecto como lo indica la estadística de tamaño del efecto \ ({W} _n = 6.65 \ times {10}^{-8} \). Para verificar las traducciones entre las resoluciones de escritura de Hapl-O-Mat, reemplazamos los resultados de escritura con resultados en una resolución de escritura más alta, incluido el resultado de escritura original, p. ej., cada aparición de C * 16:04 fue reemplazada aleatoriamente por C*16:04:01, C*16:04:03, O C*16:04P o se dejó sin cambios como C*16: 04. Utilizamos Hapl-O-Mat para traducir las resoluciones de tipificación modificadas a los grupos g y para estimar las frecuencias de haplotipos. La distancia entre las frecuencias de haplotipos estimadas y originales de la población fue \ (d = 1,3 \ veces {10}^{-4} \), la diferencia absoluta máxima fue \ (\Delta = 9.04 \ times {10}^{-7} \), y no se encontró ninguna desviación relativa mayor que 0.05. Estos resultados indicaron la reproducción de las frecuencias de los haplotipos de la población original., No se puede esperar una reproducción exacta, ya que la aproximación de las frecuencias de genotipo por números enteros en los datos de la población escapa a la precisión de punto flotante.

para validar la estimación de frecuencias de haplotipos a partir de datos genotípicos incluyendo ambigüedades de genotipado, se introdujeron, en una segunda prueba, códigos NMDP a los datos de población genotípica. Con este fin, reemplazamos aleatoriamente el 5% de los resultados de escritura con códigos NMDP. Los códigos se seleccionaron aleatoriamente, excepto por los requisitos de incluir la tipificación original y haber aparecido en los datos originales de la población real., Por ejemplo, todos los alelos tipeados como a*31:01 g fueron reemplazados por A*31:VSCB, que codifica A*31:01, a*31:41 y a*31:68 produciendo dos alelos adicionales (A*31:01 se traduce como a*31: 01 g). Hapl-O-Mat con su filtro de ambigüedad se utilizó para resolver estas ambigüedades, traducir los alelos resultantes a grupos g, y calcular frecuencias de haplotipos. Repetimos este procedimiento diez veces para calcular la media y la desviación estándar de los observables.

La comparación entre las frecuencias de haplotipos estimadas y originales de la población mostró una distancia promedio de \ (d = 0.11 \ pm 0.,02 \), y una diferencia absoluta máxima promedio de \( \Delta =\left(4\pm 1\right) \ times {10}^{-3} \). El rango promedio para el primer haplotipo con una desviación relativa mayor que 0.05 fue \( \rho =14\pm 6 \). En comparación con la primera prueba, estos valores mayores se explican por la aparición de códigos NMDP, que introducen alelos adicionales y, por lo tanto, enmascaran alelos reales., Esto oscurece la identificación de los haplotipos al aumentar el número de haplotipos no presentes en el conjunto poblacional original («haplotipos adicionales») y Haplotipos solo presentes en el conjunto poblacional original («haplotipos faltantes»). Se espera que el número de haplotipos adicionales sea mayor que el número de los que faltan, ya que un código NMDP reemplaza solo un alelo, pero puede producir varios otros cuando se decodifica., En los diez repeticiones de la segunda prueba, en promedio, \ ( 314\pm 98 \) (\( \left(25\pm 8\derecho)\% \)) haplotipos fueron «adicionales» y \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)), los «desaparecidos». Estos haplotipos hicieron la mayor contribución a la diferencia entre las frecuencias de haplotipos estimadas y poblacionales. Excluyendo haplotipos adicionales y faltantes del cálculo de la distancia obtenida \ (d = 0.028 \ pm 0.007 \).

la población Original y las frecuencias estimadas se muestran en la Fig. 2a., Como los haplotipos adicionales tienen una frecuencia de población original de \ ({H}_k = 0\) y los haplotipos faltantes tienen una frecuencia estimada de \( {H}_k=0\), los haplotipos adicionales y faltantes no se muestran en la Fig. 2A o en otras parcelas log-log por venir. Las principales desviaciones en las frecuencias de los haplotipos se debieron a la aparición de códigos NMDP. Si un haplotipo incluía un alelo enmascarado por un código NMDP, su frecuencia estimada se reducía. Si, por otro lado, un haplotipo incluía alelos adicionales de un código NMDP, su frecuencia estimada aumentaba., Solo en pocos casos la ganancia de frecuencia de alelos adicionales se transfiere a haplotipos ya presentes en los datos poblacionales originales. Por esta razón, casi no se sobreestiman las frecuencias de los haplotipos (frecuencia estimada mayor que la frecuencia de la población original) en la Fig. 2a. sin embargo, la pérdida de frecuencia de alelos enmascarados pertenecientes a haplotipos presentes en los datos poblacionales originales resulta en una subestimación como se encuentra en la Fig. 2a. los Haplotipos que no compartían alelos a través de códigos NMDP solo mostraron desviaciones menores entre la población original y las frecuencias estimadas.,

primer modelo poblacional

modelo de segunda población

muestras de datos reales

rendimiento computacional

Deja una respuesta Cancelar la respuesta