Abbiamo convalidato Hapl-o-Mat, controllando la sua stima aplotipo frequenze per correttezza. Poiché la traduzione tra risoluzioni alleliche e la risoluzione delle ambiguità di genotipizzazione non sono supportate da altri software per la stima della frequenza dell’aplotipo, abbiamo seguito due approcci., In primo luogo, abbiamo convalidato Hapl-o-Mat contro i dati di popolazione HLA artificiali tra cui diverse risoluzioni di battitura e ambiguità di genotipizzazione. Per tali popolazioni artificiali erano note frequenze di aplotipo per costruzione. Prendendo i dati completi della popolazione come campione di input, abbiamo usato Hapl-o-Mat per risolvere i dati del genotipo e per riprodurre le frequenze dell’aplotipo. In secondo luogo, abbiamo confrontato i risultati ottenuti da Hapl-o-Mat con i risultati del software facile da usare e consolidato Arlequin ., Abbiamo utilizzato campioni reali di record di battitura dal centro donatori DKMS e dati di popolazione artificiale come input per entrambe le implementazioni. Inoltre, abbiamo valutato le prestazioni computazionali di Hapl-o-Mat in generale e rispetto ad Arlequin. La risoluzione di destinazione per tutti gli esperimenti di validazione sono gruppi g se non diversamente specificato.

Per gli osservabili per confrontare le frequenze aplotipiche e per la costruzione di popolazioni artificiali, vedere Metodi nel file aggiuntivo 3. Tutti i risultati sono riassunti nella Tabella 2.,

Primo modello di popolazione

La prima popolazione artificiale è stata costruita mediante la costruzione combinatoria di genotipi da tutte le possibili combinazioni dei \( 1.000 \) aplotipi tedeschi più frequenti con sostituzione, come spiegato nel file aggiuntivo 3. La popolazione era in HWE quasi perfetto come indicato dalla statistica dimensione effetto \ ({W} _n=6.65 \ volte {10}^{-8} \). Per verificare le traduzioni tra le risoluzioni di battitura di Hapl-o-Mat, abbiamo sostituito i risultati di battitura con risultati con una risoluzione di battitura più elevata, incluso il risultato di battitura originale, ad es., ogni occorrenza di C*16:04 è stata sostituita casualmente da C*16:04:01, C*16:04:03 o C*16:04P o lasciata invariata come C*16: 04. Abbiamo usato Hapl-o-Mat per tradurre le risoluzioni di battitura modificate in gruppi g e per stimare le frequenze aplotipiche. La distanza tra le frequenze di aplotipo della popolazione stimata e originale era \ (d = 1,3 \ volte {10}^{-4} \), la differenza assoluta massima era \ (\Delta =9,04 \ volte {10}^{-7} \), e non è stata trovata alcuna deviazione relativa maggiore di 0,05. Questi risultati hanno indicato la riproduzione delle frequenze aplotipiche della popolazione originale., La riproduzione esatta non può non essere prevista, poiché l’approssimazione delle frequenze del genotipo con numeri interi nei dati della popolazione sfugge alla precisione in virgola mobile.

Per convalidare la stima delle frequenze aplotipiche dai dati del genotipo, incluse le ambiguità di genotipizzazione, abbiamo introdotto, in un secondo test, i codici NMDP ai dati sulla popolazione del genotipo. A tal fine, abbiamo sostituito casualmente il 5% dei risultati di digitazione con codici NMDP. I codici sono stati selezionati in modo casuale ad eccezione dei requisiti per includere la digitazione originale e per essere apparsi nei dati originali della popolazione reale., Ad esempio, tutti gli alleli digitati come A*31:01 g sono stati sostituiti con A*31:VSCB, che codifica A*31:01, A*31:41 e A*31:68 producendo due alleli aggiuntivi (A*31:01 si traduce in A*31:01 g). Hapl-o-Mat con il suo filtro ambiguità è stato utilizzato per risolvere queste ambiguità, tradurre gli alleli risultanti in gruppi g e calcolare le frequenze aplotipiche. Abbiamo ripetuto questa procedura dieci volte per calcolare la media e la deviazione standard degli osservabili.

Il confronto tra le frequenze di aplotipo della popolazione stimata e originale ha mostrato una distanza media di \ (d = 0.11 \ pm 0.,02\) e una differenza assoluta massima media di \ (\Delta = \ left (4\pm 1\right) \ times {10}^{-3} \). Il rango medio per il primo aplotipo con una deviazione relativa maggiore di 0,05 era \ (\rho =14 \ pm 6\). Rispetto al primo test, questi valori più grandi sono spiegati dal verificarsi di codici NMDP, che introducono alleli aggiuntivi e quindi mascherano gli alleli reali., Ciò oscura l’identificazione degli aplotipi aumentando il numero di aplotipi non presenti nell’insieme di popolazione originale (“aplotipi aggiuntivi”) e aplotipi presenti solo nell’insieme di popolazione originale (“aplotipi mancanti”). Il numero di aplotipi aggiuntivi dovrebbe essere maggiore del numero di quelli mancanti, poiché un codice NMDP sostituisce solo un allele ma può produrne diversi altri quando decodificato., Nelle dieci ripetizioni del secondo test, in media \( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) gli aplotipi erano “aggiuntivi” e \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) “mancanti”. Questi aplotipi hanno dato il contributo principale alla differenza tra le frequenze di aplotipo stimate e quelle di popolazione. Escludendo gli aplotipi aggiuntivi e mancanti dal calcolo della distanza ceduta \( d=0,028\pm 0,007\).

Popolazione originale e frequenze stimate sono mostrati in Fig. 2 bis., Poiché gli aplotipi aggiuntivi hanno una frequenza di popolazione originale di \ ({h} _k = 0\) e gli aplotipi mancanti hanno una frequenza stimata di \ ({h} _k = 0\), gli aplotipi aggiuntivi e mancanti non sono mostrati in Fig. 2a o in ulteriori grafici log-log a venire. Le principali deviazioni nelle frequenze aplotipiche erano dovute al verificarsi di codici NMDP. Se un aplotipo includeva un allele mascherato da un codice NMDP, la sua frequenza stimata era ridotta. Se, d’altra parte, un aplotipo includeva alleli aggiuntivi da un codice NMDP, la sua frequenza stimata aumentava., Solo in pochi casi il guadagno di frequenza da alleli aggiuntivi viene trasferito ad aplotipi già presenti nei dati di popolazione originali. Per questo motivo, quasi nessuna sovrastima delle frequenze aplotipiche (frequenza stimata maggiore della frequenza di popolazione originale) si verifica in Fig. 2a. Tuttavia, la perdita di frequenza da alleli mascherati appartenenti agli aplotipi presenti nei dati di popolazione originali si traduce in sottostima come trovato in Fig. 2a. Gli aplotipi che non condividevano alleli tramite codici NMDP mostravano solo piccole deviazioni tra la popolazione originale e le frequenze stimate.,

Fig. 2

Frequenze aplotipiche da dati di popolazione artificiale. La trama a mostra le frequenze aplotipiche stimate tramite Hapl-o-Mat rispetto alle frequenze di popolazione originali del primo modello di popolazione, comprese le ambiguità di genotipizzazione. Solo una delle dieci piste è illustrata. Il grafico b mostra un confronto tra le frequenze aplotipiche della popolazione originale e le frequenze stimate tramite Arlequin e Hapl-o-Mat sulla base del secondo modello di popolazione., A causa delle scale logaritmiche, entrambi i grafici non mostrano né aplotipi aggiuntivi né mancanti

Il fatto che alcune frequenze aplotipiche stimate abbiano un offset costante rispetto alla loro frequenza di popolazione originale deriva dalla condivisione di alleli trovati nello stesso codice NMDP. Le frequenze sono ridotte in proporzione al numero di alleli aggiuntivi che emergono dal codice NMDP. Di conseguenza, le frequenze degli aplotipi inclusi gli alleli dello stesso codice NMDP sono ridotte dello stesso fattore.,

Secondo modello di popolazione

La seconda popolazione è stata costruita costruendo genotipi dalla combinazione casuale di due aplotipi in base alla loro distribuzione di frequenza come spiegato nel file aggiuntivo 3. La statistica delle dimensioni dell’effetto media su tutti i loci per questa popolazione è stata \ ({W} _n=3.0\times {10}^{-3}\) che indica che non ci sono devazioni significative da HWE. Abbiamo calcolato le frequenze aplotipiche da questi dati di popolazione usando Arlequin e Hapl-o-Mat. Le frequenze di aplotipo della popolazione stimata e originale sono mostrate in Fig. 2b. Le osservabili corrispondenti sono riportate nella Tabella 2., Entrambe le implementazioni hanno funzionato altrettanto bene dimostrando la corretta implementazione di Hapl-o-Mat. Tuttavia, in contrasto con il primo modello di popolazione, le deviazioni tra le frequenze di popolazione stimate e quelle originarie erano molto più grandi sia per Arlequin che per Hapl-o-Mat. Ciò è risultato dall’applicazione dell’algoritmo EM a dati con una grande quantità di diversità genotipica. Poiché i dati consistevano di soli individui \( N=50.000\) ma includevano genotipi diversi \( 41.489\), l’algoritmo EM non era in grado di riprodurre esattamente la distribuzione di frequenza dell’aplotipo della popolazione originale., Per questo motivo Arlequin e Hapl-o-Mat, entrambi basati sull’algoritmo EM, hanno mostrato deviazioni simili tra frequenze di popolazione stimate e originali come osservato in Fig. 2b.

Campioni di dati reali

Fig. 3

Confronto delle frequenze aplotipiche stimate tramite Arlequin e Hapl-o-Mat da un campione di dati reali sulla popolazione., A causa delle scale logaritmiche, la trama non mostra né aplotipi aggiuntivi né mancanti

Prestazioni computazionali

Abbiamo valutato Hapl-o-Mat in termini di prestazioni computazionali misurando il suo runtime per diverse quantità di dati di input e diverse risoluzioni di destinazione. Tutti i calcoli sono stati eseguiti utilizzando un computer con Ubuntu Linux 14.04.5 con 768 GB di RAM (anche se questo non è mai stato esaurito), e 32 Intel® Xeon® CPU E5-2630 v3 core a 2.40 GHz., Tuttavia, Hapl-o-Mat non fa uso del parallelismo, quindi tutti i runtime fanno riferimento a un singolo core.

Il runtime per la stima delle frequenze aplotipiche da parte di Hapl-o-Mat da N=1.825.721 individui con origine tedesca auto-valutata era \( t\circa 11,4 \)h con gruppi g come risoluzione target.

Fig., 4

Media runtime con deviazione standard di Hapl-o-Mat per le diverse dimensioni del campione e target diversi gruppi di alleli tra cui g, P, e G i gruppi

al fine di confrontare le prestazioni tra Arlequin e Hapl-o-Mat, abbiamo ripetuto l’aplotipo stima della frequenza reale della popolazione di dati. Abbiamo variato la dimensione del campione tra \ (N=5.000 \), \( N=20.000\) e \( N = 50.000 \) e allo stesso modo abbiamo incluso solo campioni con traduzione non ambigua a 2 campi., La media di entrambe le implementazioni su dieci esecuzioni sulla stessa macchina ha prodotto runtime come indicato nella Tabella 3. Soprattutto nel caso di campioni di grandi dimensioni, Hapl-o-Mat è stato notevolmente più veloce dimostrando la sua implementazione efficiente.

Tabella 3 Media runtime di Arlequin e Hapl-o-Mat per la stima dell’aplotipo frequenze reali dati anagrafici

Abbiamo anche valutato Hapl-o-Mat capacità di far fronte con l’eterogeneità e la natura ambigua di battitura record., Abbiamo registrato il runtime e l’utilizzo della memoria sulla macchina sopra descritta, poiché abbiamo variato la quota di codici NMDP che abbiamo introdotto nei dati sulla popolazione del genotipo per il primo modello di popolazione nello stesso modo descritto sopra per una frazione variabile di alleli mascherati dal 2,5% al 50%. Hapl-o-Mat con il suo filtro ambiguità è stato utilizzato per risolvere queste ambiguità, tradurre gli alleli risultanti in gruppi g e calcolare le frequenze aplotipiche. Abbiamo ripetuto questa procedura dieci volte per calcolare la media e la deviazione standard degli usi e dei runtime della memoria. I risultati sono visualizzati in Fig. 5.,

Fig. 5

Prestazioni di Hapl-o-Mat per quanto riguarda la quota variabile di record di digitazione contenenti codici NMDP. Il grafico a mostra l’utilizzo medio della memoria con deviazioni standard e il grafico b runtime medio con deviazioni standard per entrambi; pre-elaborazione dei dati e stima della frequenza dell’aplotipo

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *