Nous avons validé Hapl-o-Mat en vérifiant l’exactitude de ses fréquences d’haplotypes estimées. Comme la traduction entre les résolutions des allèles et la résolution des ambiguïtés de génotypage ne sont pas prises en charge par d’autres logiciels pour l’estimation de la fréquence des haplotypes, nous avons suivi deux approches., Tout d’abord, nous avons validé Hapl-o-Mat par rapport à des données de population HLA artificielles, y compris différentes résolutions de typage et ambiguïtés de génotypage. Pour ces populations artificielles, les fréquences d’haplotypes étaient connues par construction. En prenant les données complètes de population comme échantillon d’entrée, nous avons utilisé Hapl-o-Mat pour résoudre les données de génotype et reproduire les fréquences d’haplotype. Deuxièmement, nous avons comparé les résultats obtenus à partir de Hapl-o-Mat aux résultats du logiciel Arlequin facile à utiliser et bien établi ., Nous avons utilisé des échantillons réels d’enregistrements de frappe du DKMS donor center et des données de population artificielles comme entrée pour les deux implémentations. De plus, nous avons évalué les performances de calcul de Hapl-o-Mat en général et par rapport à Arlequin. La résolution cible pour toutes les expériences de validation est g groupes sauf indication contraire.
pour les observables permettant de comparer les fréquences des haplotypes et pour la construction de populations artificielles, voir Méthodes dans le fichier supplémentaire 3. Tous les résultats sont résumés au Tableau 2.,
premier modèle de population
la première population artificielle a été construite par construction combinatoire de génotypes à partir de toutes les combinaisons possibles des \( 1 000 \) haplotypes allemands les plus fréquents avec remplacement, comme expliqué dans le fichier supplémentaire 3. La population était en HWE presque parfaite comme l’indique la statistique de taille de l’effet \ ({W} _n=6,65 \ fois {10}^{-8} \). Pour vérifier les traductions entre les résolutions de frappe de Hapl-o-Mat, nous avons remplacé les résultats de frappe par des résultats avec une résolution de frappe plus élevée, y compris le résultat de frappe d’origine, par exemple., chaque occurrence de C*16:04 aléatoire a été remplacé par C*16:04:01, C*16:04:03, ou C*16:04P ou laissées inchangées car C*16:04. Nous avons utilisé Hapl-o-Mat pour traduire les résolutions de typage modifiées en groupes g et pour estimer les fréquences d’haplotype. La distance entre les fréquences d’haplotype estimées et les fréquences d’haplotype de la population originale était de \ (d=1,3\fois {10}^{-4} \), la différence absolue maximale était \ (\Delta =9,04 \ fois {10}^{-7} \), et aucun écart relatif supérieur à 0,05 n’a été trouvé. Ces résultats indiquent une reproduction des fréquences de l’haplotype de la population originale., On ne peut pas s’attendre à une reproduction exacte, car l’approximation des fréquences de génotype par des nombres entiers dans les données de population échappe à la précision en virgule flottante.
pour valider l’estimation des fréquences d’haplotypes à partir de données génotypiques, y compris les ambiguïtés de génotypage, nous avons introduit, dans un second test, des codes NMDP aux données de population de génotypes. À cette fin, nous avons remplacé au hasard 5% des résultats de frappe par des codes NMDP. Les codes ont été choisis au hasard, sauf pour les exigences d’inclure le Dactylographie originale et d’être apparus dans les données de population réelle originales., Par exemple, tous les allèles typés A*31:01 g ont été remplacés par A*31:VSCB, qui code A*31:01, A*31:41 et A*31:68 donnant deux allèles supplémentaires (A*31:01 se traduit par A*31:01 g). Hapl-o-Mat avec son filtre d’ambiguïté a été utilisé pour résoudre ces ambiguïtés, traduire les allèles résultants en groupes g et calculer les fréquences d’haplotype. Nous avons répété cette procédure dix fois pour calculer la moyenne et l’écart type des observables.
la comparaison entre les fréquences estimées et les fréquences originales des haplotypes de la population a montré une distance moyenne de \( d=0,11\pm 0.,02 \), et une différence absolue maximale moyenne de \ (\Delta =\left (4 \ pm 1 \ right) \ times {10}^{-3} \). Le rang moyen pour le premier haplotype avec un écart relatif supérieur à 0,05 était \ (\rho =14 \ pm 6\). Par rapport au premier test, ces valeurs plus importantes s’expliquent par l’apparition de codes NMDP, qui introduisent des allèles supplémentaires et masquent ainsi des allèles réels., Cela obscurcit l’identification des haplotypes en augmentant le nombre d’haplotypes non présents dans l’ensemble de population d’origine (« haplotypes supplémentaires”) et d’haplotypes uniquement présents dans l’ensemble de population d’origine (« haplotypes manquants”). On s’attend à ce que le nombre d’haplotypes supplémentaires soit supérieur au nombre d’haplotypes manquants, car un code NMDP remplace un seul allèle mais peut en produire plusieurs autres lorsqu’il est décodé., Dans les dix répétitions de la deuxième test, en moyenne \( 314\h 98 \) (\( \left(25\h 8\right)\% \)) haplotypes ont été « supplémentaires” et \( 50\h 18 \) (\( \left(4\pm 1\right)\% \)) « manquant”. Ces haplotypes ont grandement contribué à la différence entre les fréquences estimées et celles des haplotypes de population. L’exclusion des haplotypes supplémentaires et manquants du calcul de la distance a donné \ (d=0,028 \ pm 0,007 \).
la population originale et les fréquences estimées sont illustrées à la Fig. 2a., Comme les haplotypes supplémentaires ont une fréquence de population originale de \ ({H}_k=0 \) et que les haplotypes manquants ont une fréquence estimée de \( {H} _k=0 \), les haplotypes supplémentaires et manquants ne sont pas représentés sur la Fig. 2A ou dans d’autres parcelles de log-log à venir. Des écarts importants dans les fréquences des haplotypes étaient dus à l’apparition de codes NMDP. Si un haplotype comprenait un allèle masqué par un code NMDP, sa fréquence estimée était réduite. Si, par contre, un haplotype comprenait des allèles supplémentaires provenant d’un code NMDP, sa fréquence estimée augmentait., Ce n’est que dans quelques cas que le gain de fréquence des allèles supplémentaires est transféré aux haplotypes déjà présents dans les données de population originales. Pour cette raison, presque aucune surestimation des fréquences d’haplotype (fréquence estimée plus grande que la fréquence de la population originale) ne se produit dans la Fig. 2a. cependant, la perte de fréquence des allèles masqués appartenant à des haplotypes présents dans les données de population originales entraîne une sous-estimation, comme le montre la Fig. 2a. les Haplotypes qui ne partageaient pas d’allèles via les codes NMDP ne présentaient que des écarts mineurs entre la population originale et les fréquences estimées.,
le fait que certaines fréquences d’haplotypes estimées ont un décalage constant par rapport à leur fréquence de population d’origine résulte du partage d’allèles trouvés dans le même code NMDP. Les fréquences sont réduites proportionnellement au nombre d’allèles supplémentaires émergeant du code NMDP. En conséquence, les fréquences des haplotypes comprenant des allèles du même code NMDP sont réduites du même facteur.,
deuxième modèle de population
la deuxième population a été construite en construisant des génotypes à partir de la combinaison aléatoire de deux haplotypes en fonction de leur distribution de fréquence, comme expliqué dans le fichier supplémentaire 3. La moyenne de la statistique de la taille de l’effet sur tous les locus de cette population était de \( {W}_n=3,0\fois {10}^{-3}\), ce qui n’indique aucune dévation significative de HWE. Nous avons calculé les fréquences des haplotypes à partir de ces données de population en utilisant Arlequin et Hapl-O-Mat. Les fréquences estimées et originales de l’haplotype de la population sont illustrées à la Fig. 2b. les observables correspondants sont donnés dans le tableau 2., Les deux implémentations se sont également bien comportées démontrant l’implémentation correcte de Hapl-o-Mat. Cependant, contrairement au premier modèle de population, les écarts entre la fréquence estimée et la fréquence initiale de la population étaient beaucoup plus importants pour Arlequin et Hapl-O-Mat. Cela résulte de l’application de l’algorithme EM à des données présentant une grande diversité de génotypes. Comme les données ne concernaient que \ (N=50 000 \) individus mais incluaient \ (41 489 \) génotypes différents, l’algorithme EM n’a pas été en mesure de reproduire exactement la distribution de fréquence de l’haplotype original de la population., Pour cette raison, Arlequin et Hapl-o-Mat, tous deux basés sur L’algorithme EM, ont montré des écarts similaires entre les fréquences de population estimées et originales, comme observé à la Fig. 2b.
Réel des échantillons de données
performances de calcul
Nous avons évalué Hapl-o-Mat en termes de performances de calcul en mesurant son temps d’exécution pour différentes quantités de données d’entrée et différentes résolutions cibles. Tous les calculs ont été effectués à l’aide d’un ordinateur exécutant Ubuntu Linux 14.04.5 avec 768 Go de RAM (bien que cela n’ait jamais été épuisé) et 32 cœurs Intel® Xeon® CPU E5-2630 v3 à 2,40 GHz., Cependant, Hapl-o-Mat n’utilise pas le parallélisme, donc tous les runtime sont en référence à un seul cœur.
le temps d’exécution pour estimer les fréquences d’haplotype par Hapl-o-Mat À partir de N=1 825 721 individus d’origine allemande auto-évaluée était \( T\environ 11,4 \)h avec les groupes g comme résolution cible.