Hapl-o-Mat: software open source per la aplotipo HLA stima della frequenza ambiguo e di dati eterogenei e | BMC Bioinformatics

Abbiamo convalidato Hapl-o-Mat, controllando la sua stima aplotipo frequenze per correttezza. Poiché la traduzione tra risoluzioni alleliche e la risoluzione delle ambiguità di genotipizzazione non sono supportate da altri software per la stima della frequenza dell’aplotipo, abbiamo seguito due approcci., In primo luogo, abbiamo convalidato Hapl-o-Mat contro i dati di popolazione HLA artificiali tra cui diverse risoluzioni di battitura e ambiguità di genotipizzazione. Per tali popolazioni artificiali erano note frequenze di aplotipo per costruzione. Prendendo i dati completi della popolazione come campione di input, abbiamo usato Hapl-o-Mat per risolvere i dati del genotipo e per riprodurre le frequenze dell’aplotipo. In secondo luogo, abbiamo confrontato i risultati ottenuti da Hapl-o-Mat con i risultati del software facile da usare e consolidato Arlequin ., Abbiamo utilizzato campioni reali di record di battitura dal centro donatori DKMS e dati di popolazione artificiale come input per entrambe le implementazioni. Inoltre, abbiamo valutato le prestazioni computazionali di Hapl-o-Mat in generale e rispetto ad Arlequin. La risoluzione di destinazione per tutti gli esperimenti di validazione sono gruppi g se non diversamente specificato.

Per gli osservabili per confrontare le frequenze aplotipiche e per la costruzione di popolazioni artificiali, vedere Metodi nel file aggiuntivo 3. Tutti i risultati sono riassunti nella Tabella 2.,

Primo modello di popolazione

La prima popolazione artificiale è stata costruita mediante la costruzione combinatoria di genotipi da tutte le possibili combinazioni dei \( 1.000 \) aplotipi tedeschi più frequenti con sostituzione, come spiegato nel file aggiuntivo 3. La popolazione era in HWE quasi perfetto come indicato dalla statistica dimensione effetto \ ({W} _n=6.65 \ volte {10}^{-8} \). Per verificare le traduzioni tra le risoluzioni di battitura di Hapl-o-Mat, abbiamo sostituito i risultati di battitura con risultati con una risoluzione di battitura più elevata, incluso il risultato di battitura originale, ad es., ogni occorrenza di C*16:04 è stata sostituita casualmente da C*16:04:01, C*16:04:03 o C*16:04P o lasciata invariata come C*16: 04. Abbiamo usato Hapl-o-Mat per tradurre le risoluzioni di battitura modificate in gruppi g e per stimare le frequenze aplotipiche. La distanza tra le frequenze di aplotipo della popolazione stimata e originale era \ (d = 1,3 \ volte {10}^{-4} \), la differenza assoluta massima era \ (\Delta =9,04 \ volte {10}^{-7} \), e non è stata trovata alcuna deviazione relativa maggiore di 0,05. Questi risultati hanno indicato la riproduzione delle frequenze aplotipiche della popolazione originale., La riproduzione esatta non può non essere prevista, poiché l’approssimazione delle frequenze del genotipo con numeri interi nei dati della popolazione sfugge alla precisione in virgola mobile.

Per convalidare la stima delle frequenze aplotipiche dai dati del genotipo, incluse le ambiguità di genotipizzazione, abbiamo introdotto, in un secondo test, i codici NMDP ai dati sulla popolazione del genotipo. A tal fine, abbiamo sostituito casualmente il 5% dei risultati di digitazione con codici NMDP. I codici sono stati selezionati in modo casuale ad eccezione dei requisiti per includere la digitazione originale e per essere apparsi nei dati originali della popolazione reale., Ad esempio, tutti gli alleli digitati come A*31:01 g sono stati sostituiti con A*31:VSCB, che codifica A*31:01, A*31:41 e A*31:68 producendo due alleli aggiuntivi (A*31:01 si traduce in A*31:01 g). Hapl-o-Mat con il suo filtro ambiguità è stato utilizzato per risolvere queste ambiguità, tradurre gli alleli risultanti in gruppi g e calcolare le frequenze aplotipiche. Abbiamo ripetuto questa procedura dieci volte per calcolare la media e la deviazione standard degli osservabili.

Il confronto tra le frequenze di aplotipo della popolazione stimata e originale ha mostrato una distanza media di \ (d = 0.11 \ pm 0.,02\) e una differenza assoluta massima media di \ (\Delta = \ left (4\pm 1\right) \ times {10}^{-3} \). Il rango medio per il primo aplotipo con una deviazione relativa maggiore di 0,05 era \ (\rho =14 \ pm 6\). Rispetto al primo test, questi valori più grandi sono spiegati dal verificarsi di codici NMDP, che introducono alleli aggiuntivi e quindi mascherano gli alleli reali., Ciò oscura l’identificazione degli aplotipi aumentando il numero di aplotipi non presenti nell’insieme di popolazione originale (“aplotipi aggiuntivi”) e aplotipi presenti solo nell’insieme di popolazione originale (“aplotipi mancanti”). Il numero di aplotipi aggiuntivi dovrebbe essere maggiore del numero di quelli mancanti, poiché un codice NMDP sostituisce solo un allele ma può produrne diversi altri quando decodificato., Nelle dieci ripetizioni del secondo test, in media \( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) gli aplotipi erano “aggiuntivi” e \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) “mancanti”. Questi aplotipi hanno dato il contributo principale alla differenza tra le frequenze di aplotipo stimate e quelle di popolazione. Escludendo gli aplotipi aggiuntivi e mancanti dal calcolo della distanza ceduta \( d=0,028\pm 0,007\).

Popolazione originale e frequenze stimate sono mostrati in Fig. 2 bis., Poiché gli aplotipi aggiuntivi hanno una frequenza di popolazione originale di \ ({h} _k = 0\) e gli aplotipi mancanti hanno una frequenza stimata di \ ({h} _k = 0\), gli aplotipi aggiuntivi e mancanti non sono mostrati in Fig. 2a o in ulteriori grafici log-log a venire. Le principali deviazioni nelle frequenze aplotipiche erano dovute al verificarsi di codici NMDP. Se un aplotipo includeva un allele mascherato da un codice NMDP, la sua frequenza stimata era ridotta. Se, d’altra parte, un aplotipo includeva alleli aggiuntivi da un codice NMDP, la sua frequenza stimata aumentava., Solo in pochi casi il guadagno di frequenza da alleli aggiuntivi viene trasferito ad aplotipi già presenti nei dati di popolazione originali. Per questo motivo, quasi nessuna sovrastima delle frequenze aplotipiche (frequenza stimata maggiore della frequenza di popolazione originale) si verifica in Fig. 2a. Tuttavia, la perdita di frequenza da alleli mascherati appartenenti agli aplotipi presenti nei dati di popolazione originali si traduce in sottostima come trovato in Fig. 2a. Gli aplotipi che non condividevano alleli tramite codici NMDP mostravano solo piccole deviazioni tra la popolazione originale e le frequenze stimate.,

Hapl-o-Mat: software open source per la aplotipo HLA stima della frequenza ambiguo e di dati eterogenei

Primo modello di popolazione

Secondo modello di popolazione

Campioni di dati reali

Prestazioni computazionali

Lascia un commento Annulla risposta