Nous avons validé Hapl-o-Mat en vérifiant l’exactitude de ses fréquences d’haplotypes estimées. Comme la traduction entre les résolutions des allèles et la résolution des ambiguïtés de génotypage ne sont pas prises en charge par d’autres logiciels pour l’estimation de la fréquence des haplotypes, nous avons suivi deux approches., Tout d’abord, nous avons validé Hapl-o-Mat par rapport à des données de population HLA artificielles, y compris différentes résolutions de typage et ambiguïtés de génotypage. Pour ces populations artificielles, les fréquences d’haplotypes étaient connues par construction. En prenant les données complètes de population comme échantillon d’entrée, nous avons utilisé Hapl-o-Mat pour résoudre les données de génotype et reproduire les fréquences d’haplotype. Deuxièmement, nous avons comparé les résultats obtenus à partir de Hapl-o-Mat aux résultats du logiciel Arlequin facile à utiliser et bien établi ., Nous avons utilisé des échantillons réels d’enregistrements de frappe du DKMS donor center et des données de population artificielles comme entrée pour les deux implémentations. De plus, nous avons évalué les performances de calcul de Hapl-o-Mat en général et par rapport à Arlequin. La résolution cible pour toutes les expériences de validation est g groupes sauf indication contraire.

pour les observables permettant de comparer les fréquences des haplotypes et pour la construction de populations artificielles, voir Méthodes dans le fichier supplémentaire 3. Tous les résultats sont résumés au Tableau 2.,

premier modèle de population

la première population artificielle a été construite par construction combinatoire de génotypes à partir de toutes les combinaisons possibles des \( 1 000 \) haplotypes allemands les plus fréquents avec remplacement, comme expliqué dans le fichier supplémentaire 3. La population était en HWE presque parfaite comme l’indique la statistique de taille de l’effet \ ({W} _n=6,65 \ fois {10}^{-8} \). Pour vérifier les traductions entre les résolutions de frappe de Hapl-o-Mat, nous avons remplacé les résultats de frappe par des résultats avec une résolution de frappe plus élevée, y compris le résultat de frappe d’origine, par exemple., chaque occurrence de C*16:04 aléatoire a été remplacé par C*16:04:01, C*16:04:03, ou C*16:04P ou laissées inchangées car C*16:04. Nous avons utilisé Hapl-o-Mat pour traduire les résolutions de typage modifiées en groupes g et pour estimer les fréquences d’haplotype. La distance entre les fréquences d’haplotype estimées et les fréquences d’haplotype de la population originale était de \ (d=1,3\fois {10}^{-4} \), la différence absolue maximale était \ (\Delta =9,04 \ fois {10}^{-7} \), et aucun écart relatif supérieur à 0,05 n’a été trouvé. Ces résultats indiquent une reproduction des fréquences de l’haplotype de la population originale., On ne peut pas s’attendre à une reproduction exacte, car l’approximation des fréquences de génotype par des nombres entiers dans les données de population échappe à la précision en virgule flottante.

pour valider l’estimation des fréquences d’haplotypes à partir de données génotypiques, y compris les ambiguïtés de génotypage, nous avons introduit, dans un second test, des codes NMDP aux données de population de génotypes. À cette fin, nous avons remplacé au hasard 5% des résultats de frappe par des codes NMDP. Les codes ont été choisis au hasard, sauf pour les exigences d’inclure le Dactylographie originale et d’être apparus dans les données de population réelle originales., Par exemple, tous les allèles typés A*31:01 g ont été remplacés par A*31:VSCB, qui code A*31:01, A*31:41 et A*31:68 donnant deux allèles supplémentaires (A*31:01 se traduit par A*31:01 g). Hapl-o-Mat avec son filtre d’ambiguïté a été utilisé pour résoudre ces ambiguïtés, traduire les allèles résultants en groupes g et calculer les fréquences d’haplotype. Nous avons répété cette procédure dix fois pour calculer la moyenne et l’écart type des observables.

la comparaison entre les fréquences estimées et les fréquences originales des haplotypes de la population a montré une distance moyenne de \( d=0,11\pm 0.,02 \), et une différence absolue maximale moyenne de \ (\Delta =\left (4 \ pm 1 \ right) \ times {10}^{-3} \). Le rang moyen pour le premier haplotype avec un écart relatif supérieur à 0,05 était \ (\rho =14 \ pm 6\). Par rapport au premier test, ces valeurs plus importantes s’expliquent par l’apparition de codes NMDP, qui introduisent des allèles supplémentaires et masquent ainsi des allèles réels., Cela obscurcit l’identification des haplotypes en augmentant le nombre d’haplotypes non présents dans l’ensemble de population d’origine (« haplotypes supplémentaires”) et d’haplotypes uniquement présents dans l’ensemble de population d’origine (« haplotypes manquants”). On s’attend à ce que le nombre d’haplotypes supplémentaires soit supérieur au nombre d’haplotypes manquants, car un code NMDP remplace un seul allèle mais peut en produire plusieurs autres lorsqu’il est décodé., Dans les dix répétitions de la deuxième test, en moyenne \( 314\h 98 \) (\( \left(25\h 8\right)\% \)) haplotypes ont été « supplémentaires” et \( 50\h 18 \) (\( \left(4\pm 1\right)\% \)) « manquant”. Ces haplotypes ont grandement contribué à la différence entre les fréquences estimées et celles des haplotypes de population. L’exclusion des haplotypes supplémentaires et manquants du calcul de la distance a donné \ (d=0,028 \ pm 0,007 \).

la population originale et les fréquences estimées sont illustrées à la Fig. 2a., Comme les haplotypes supplémentaires ont une fréquence de population originale de \ ({H}_k=0 \) et que les haplotypes manquants ont une fréquence estimée de \( {H} _k=0 \), les haplotypes supplémentaires et manquants ne sont pas représentés sur la Fig. 2A ou dans d’autres parcelles de log-log à venir. Des écarts importants dans les fréquences des haplotypes étaient dus à l’apparition de codes NMDP. Si un haplotype comprenait un allèle masqué par un code NMDP, sa fréquence estimée était réduite. Si, par contre, un haplotype comprenait des allèles supplémentaires provenant d’un code NMDP, sa fréquence estimée augmentait., Ce n’est que dans quelques cas que le gain de fréquence des allèles supplémentaires est transféré aux haplotypes déjà présents dans les données de population originales. Pour cette raison, presque aucune surestimation des fréquences d’haplotype (fréquence estimée plus grande que la fréquence de la population originale) ne se produit dans la Fig. 2a. cependant, la perte de fréquence des allèles masqués appartenant à des haplotypes présents dans les données de population originales entraîne une sous-estimation, comme le montre la Fig. 2a. les Haplotypes qui ne partageaient pas d’allèles via les codes NMDP ne présentaient que des écarts mineurs entre la population originale et les fréquences estimées.,

Fig. 2

la fréquence des Haplotypes artificiels de données sur la population. Le graphique a montre les fréquences d’haplotypes estimées par Hapl-O-Mat par rapport aux fréquences de population originales du premier modèle de population, y compris les ambiguïtés de génotypage. Une seule des dix pistes est illustrée. Le graphique b montre une comparaison entre les fréquences de l’haplotype de la population originale et les fréquences estimées par Arlequin et Hapl-o-Mat sur la base du deuxième modèle de population., En raison des échelles logarithmiques, les deux placettes ne montrent ni haplotypes supplémentaires ni manquants

le fait que certaines fréquences d’haplotypes estimées ont un décalage constant par rapport à leur fréquence de population d’origine résulte du partage d’allèles trouvés dans le même code NMDP. Les fréquences sont réduites proportionnellement au nombre d’allèles supplémentaires émergeant du code NMDP. En conséquence, les fréquences des haplotypes comprenant des allèles du même code NMDP sont réduites du même facteur.,

deuxième modèle de population

la deuxième population a été construite en construisant des génotypes à partir de la combinaison aléatoire de deux haplotypes en fonction de leur distribution de fréquence, comme expliqué dans le fichier supplémentaire 3. La moyenne de la statistique de la taille de l’effet sur tous les locus de cette population était de \( {W}_n=3,0\fois {10}^{-3}\), ce qui n’indique aucune dévation significative de HWE. Nous avons calculé les fréquences des haplotypes à partir de ces données de population en utilisant Arlequin et Hapl-O-Mat. Les fréquences estimées et originales de l’haplotype de la population sont illustrées à la Fig. 2b. les observables correspondants sont donnés dans le tableau 2., Les deux implémentations se sont également bien comportées démontrant l’implémentation correcte de Hapl-o-Mat. Cependant, contrairement au premier modèle de population, les écarts entre la fréquence estimée et la fréquence initiale de la population étaient beaucoup plus importants pour Arlequin et Hapl-O-Mat. Cela résulte de l’application de l’algorithme EM à des données présentant une grande diversité de génotypes. Comme les données ne concernaient que \ (N=50 000 \) individus mais incluaient \ (41 489 \) génotypes différents, l’algorithme EM n’a pas été en mesure de reproduire exactement la distribution de fréquence de l’haplotype original de la population., Pour cette raison, Arlequin et Hapl-o-Mat, tous deux basés sur L’algorithme EM, ont montré des écarts similaires entre les fréquences de population estimées et originales, comme observé à la Fig. 2b.

Réel des échantillons de données

Fig. 3

comparaison des fréquences d’haplotypes estimées par Arlequin et Hapl-O-Mat À partir d’un échantillon de données de population réelle., En raison des échelles logarithmiques, le graphique ne montre ni haplotypes supplémentaires ni manquants

performances de calcul

Nous avons évalué Hapl-o-Mat en termes de performances de calcul en mesurant son temps d’exécution pour différentes quantités de données d’entrée et différentes résolutions cibles. Tous les calculs ont été effectués à l’aide d’un ordinateur exécutant Ubuntu Linux 14.04.5 avec 768 Go de RAM (bien que cela n’ait jamais été épuisé) et 32 cœurs Intel® Xeon® CPU E5-2630 v3 à 2,40 GHz., Cependant, Hapl-o-Mat n’utilise pas le parallélisme, donc tous les runtime sont en référence à un seul cœur.

le temps d’exécution pour estimer les fréquences d’haplotype par Hapl-o-Mat À partir de N=1 825 721 individus d’origine allemande auto-évaluée était \( T\environ 11,4 \)h avec les groupes g comme résolution cible.

Fig., 4

temps d’exécution moyens avec écart type de Hapl-o-Mat pour différentes tailles d’échantillon et différents groupes d’allèles cibles, y compris les groupes g, P et G

Dans afin de comparer les performances entre Arlequin et hapl-o-mat, nous avons répété l’estimation de la fréquence des haplotypes à partir de données de population réelles. Nous avons fait varier la taille de l’échantillon entre \( N=5 000 \), \( N=20 000\) et \( N=50 000 \) et n’avons également inclus que des échantillons avec une traduction non ambiguë à 2 champs., La moyenne des deux implémentations sur dix exécutions sur la même machine a donné des temps d’exécution comme indiqué dans le tableau 3. En particulier dans le cas de grands échantillons, Hapl-o-Mat a été considérablement plus rapide démontrant sa mise en œuvre efficace.

Tableau 3 durées D’exécution moyennes D’Arlequin et D’Hapl-o-Mat pour l’estimation des fréquences d’haplotype à partir de données de population réelles

Nous avons également évalué les capacités d’Hapl-o-Mat à faire face à la nature hétérogène et ambiguë des enregistrements de typage., Nous avons enregistré le temps d’exécution et l’utilisation de la mémoire sur la machine décrite ci-dessus en faisant varier la part des codes NMDP que nous avons introduits dans les données de population de génotype pour le premier modèle de population de la même manière que décrite ci-dessus pour une fraction variable d’allèles masqués de 2,5% à 50%. Hapl-o-Mat avec son filtre d’ambiguïté a été utilisé pour résoudre ces ambiguïtés, traduire les allèles résultants en groupes g et calculer les fréquences d’haplotype. Nous avons répété cette procédure dix fois pour calculer la moyenne et l’écart type des utilisations de la mémoire et des temps d’exécution. Les résultats sont visualisés sur la Fig. 5.,

Fig. 5

Performance de Hapl-O-Mat en ce qui concerne la part variable des enregistrements de frappe contenant des codes NMDP. Le graphique a montre l’utilisation moyenne de la mémoire avec les écarts types et le graphique b les temps d’exécution moyens avec les écarts types pour les deux; prétraitement des données et estimation de la fréquence de l’haplotype

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *