Vi validert Hapl-o-Mat-ved å sjekke estimert haplotype frekvenser for korrekthet. Som oversetter mellom allelet vedtak og løse genotyping uklarheter er ikke støttes av annen programvare for haplotype frekvens estimering, og vi fulgte to tilnærminger., For det første, vi validert Hapl-o-Mat mot kunstig HLA befolkningen data, inkludert å skrive forskjellige oppløsninger og genotyping uklarheter. For slike kunstige bestander haplotype frekvenser ble kjent per konstruksjon. Tar hele befolkningen data som en inngang eksempel, har vi brukt Hapl-o-Mat for å løse genotype data og til å reprodusere haplotype frekvenser. For det andre, vi sammenlignet resultatene fra Hapl-o-Mat til resultatene fra den enkle å bruke og godt etablert programvare Arlequin ., Vi brukte ekte prøver å skrive poster fra DKMS donor center og kunstig befolkningen data som input for både implementeringer. Videre har vi vurdert computational ytelse av Hapl-o-Mat generelt og i forhold til Arlequin. Oppløsningen for alle validering eksperimenter er g grupper med mindre det er angitt.

For observables å sammenligne haplotype frekvenser og for bygging av kunstige bestander, se Metoder i Ekstra fil 3. Alle resultatene er oppsummert i Tabell 2.,

Første populasjonen modell

Den første kunstige befolkningen ble bygget av kombinatoriske bygging av genotypes fra alle mulige kombinasjoner av \( i 1 000 \) hyppigste tyske haplotypes med erstatning, som forklart i Ekstra fil 3. Befolkningen var i nesten perfekt HWE som indikert av effekt størrelse statistikken \( {B}_n=6.65\ganger {10}^{-8} \). For å sjekke oversettelser mellom å skrive en oppløsning på Hapl-o-Mat, vi erstattet skrive resultatene med resultatene i høyere skrive oppløsning, inkludert den originale skrive resultatet, f.eks., hver forekomst av C*16:04 var tilfeldig erstattet av C*16:04:01 C*16:04:03, eller C*16:04P eller venstre uendret som C*16:04. Vi brukte Hapl-o-Mat til å oversette den modifiserte å skrive resolusjoner tilbake til g-grupper og til å anslå haplotype frekvenser. Avstanden mellom estimerte og opprinnelige befolkningen haplotype frekvenser var \( d=1.3\ganger {10}^{-4} \), den maksimale absolutte forskjellen var \( \Delta =9.04\ganger {10}^{-7} \), og ingen relative avvik som er større enn 0.05 ble funnet. Disse resultatene indikerte gjengivelse av den opprinnelige befolkningen haplotype frekvenser., Nøyaktig gjengivelse kan ikke forventes, som tilnærmet genotype frekvensene med heltall tall i befolkningen data rømming floating point presisjon.

for Å validere estimering av haplotype frekvenser fra genotype data, inkludert genotyping uklarheter, vi introdusert, i en annen test, NMDP koder for å genotype befolkningen data. For dette formål, vi tilfeldig erstattet 5% for å skrive resultater med NMDP koder. Kodene ble valgt tilfeldig, bortsett fra det som trengs for å inkludere den opprinnelige skrive og å ha dukket opp i den opprinnelige virkelige data om befolkningen., For eksempel, alle alleler skrevet som En*31:01 g ble erstattet med EN*31:VSCB, som blir En*31:01,*31:41, og En*31:68 ga ytterligere to alleler (A*31:01 oversettes til Et*31:01 g). Hapl-o-Mat-med sin tvetydighet filter ble brukt til å løse disse uklarheter, oversette den resulterende alleler tilbake til g-grupper, og beregne haplotype frekvenser. Vi gjentok denne prosedyren ti ganger for å beregne middelverdi og standardavvik av observables.

Sammenligning mellom estimert og opprinnelige befolkningen haplotype frekvenser viste en gjennomsnittlig avstand på \( d=0.11\pm 0.,02 \), og en gjennomsnittlig maksimal absolutte forskjellen \( \Delta =\left(4\pm 1\right)\ganger {10}^{-3} \). Gjennomsnittlig rang for første haplotype med en relativ avvik større enn 0.05 var \( \rho =14\pm 6 \). I forhold til den første testen, disse større verdier er forklart av forekomsten av NMDP koder, som presenterer flere alleler, og dermed maske ekte alleler., Dette tilslører identifisering av haplotypes ved å øke antall haplotypes ikke til stede i den opprinnelige befolkningen satt (ytterligere haplotypes») og haplotypes bare til stede i den opprinnelige befolkningen sett («mangler haplotypes»). Antall ekstra haplotypes er forventet å være større enn antall manglende seg, siden en NMDP koden erstatter bare ett allel men kan gi flere andre når dekodet., I de ti repetisjoner av andre test, i gjennomsnitt \( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) haplotypes var «ekstra» og \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) «mangler». Disse haplotypes gjort store bidrag til forskjellen mellom estimert og befolkningen haplotype frekvenser. Unntatt ytterligere og mangler haplotypes fra beregne avstand gir \( d=0.028\pm 0.007 \).

Opprinnelige befolkningen og forventede frekvenser er vist i Fig. 2a., Som ekstra haplotypes har en opprinnelige befolkningen frekvens av \( {h}_k=0 \), og mangler haplotypes har en anslått frekvens \( {h}_k=0 \), mer og mangler haplotypes er ikke vist i Fig. 2a eller i videre log-log tomter til å komme. Store avvik i haplotype frekvenser var på grunn av forekomsten av NMDP koder. Hvis en haplotype inkludert et allel som var maskert av en NMDP kode, dens beregnede frekvensen ble redusert. Hvis, på den annen side, en haplotype inkludert flere alleler fra en NMDP kode, dens beregnede frekvensen økes., Bare i få tilfeller frekvensmottaket fra flere alleler er overført til haplotypes som allerede er til stede i den opprinnelige befolkningen data. For denne grunn, nesten ingen overestimation av haplotype frekvenser (anslått frekvens større enn det opprinnelige befolkningen frekvens) forekommer i Fig. 2a. Men, frekvens tap fra maskert alleler som hører til haplotypes til stede i den opprinnelige befolkningen data resulterer i en undervurdering som finnes i Fig. 2a. Haplotypes som ikke dele alleler via NMDP koder bare viste mindre avvik mellom opprinnelige befolkningen og forventede frekvenser.,

Fig. 2

Haplotype frekvenser fra kunstig befolkningen data. Plottet viser en haplotype frekvenser estimert via Hapl-o-Mat i forhold til opprinnelige befolkningen frekvenser fra den første populasjonen modell inkludert genotyping uklarheter. Bare en av ti løp er illustrert. Tomten b viser en sammenligning mellom opprinnelige befolkningen haplotype frekvenser og frekvenser estimert via Arlequin og Hapl-o-Mat på grunnlag av den andre populasjonen modell., På grunn av den logaritmiske skalaer, både tomter verken vis mer eller mangler haplotypes

Det faktum at noen anslått haplotype frekvenser har en konstant forskyvning med hensyn til deres opprinnelige befolkningen frekvens følger av deling av alleler som er funnet i samme NMDP kode. Frekvensene er redusert i forhold til antall ekstra alleler som dukker opp fra den NMDP kode. Som en konsekvens, frekvenser av haplotypes inkludert alleler fra den samme NMDP kode reduseres med samme faktor.,

Andre befolkning modell

Den andre populasjonen ble bygget ved å lage genotypes fra tilfeldig kombinere to haplotypes i henhold til frekvens sitt distribusjon som forklart i Ekstra fil 3. Effekten størrelse statistikk fordelt på alle loci for denne bestanden var \( {B}_n=3.0\ganger {10}^{-3} \), som indikerer ingen vesentlige devation fra HWE. Vi beregnet haplotype frekvenser fra disse befolkningen data ved hjelp av Arlequin og Hapl-o-Mat. Estimert og opprinnelige befolkningen haplotype frekvenser er vist i Fig. 2b. Tilsvarende observables er gitt i Tabell 2., Både implementeringer utført like godt som viser riktig gjennomføring av Hapl-o-Mat. Imidlertid, i motsetning til den første befolkningen modell, avvik mellom estimerte og opprinnelige befolkningen frekvenser var mye større både for Arlequin og Hapl-o-Mat. Dette resulterte i å bruke EM-algoritmen til data med en stor mengde av genotype mangfold. Som data besto av bare \( N=50,000 \) individer, men inngår \( 41,489 \) forskjellige genotypes, EM-algoritmen var ikke i stand til å nøyaktig gjenskape den opprinnelige befolkningen haplotype frekvens fordeling., Av denne grunn Arlequin og Hapl-o-Mat, både basert på EM-algoritmen viste lignende avvik mellom estimerte og opprinnelige befolkningen frekvenser som observert i Fig. 2b.

Reelle data prøver

Fig. 3

Sammenligning av haplotype frekvenser estimert via Arlequin og Hapl-o-Mat fra en prøve av reelle data om befolkningen., På grunn av den logaritmiske skalaer, tomten verken viser mer eller mangler haplotypes

Computational ytelse

Vi evaluert Hapl-o-Mat i form av beregningsorientert ytelse ved å måle dens runtime for ulike mengder av input-data og ulike målgrupper vedtak. Alle beregninger ble utført ved hjelp av en datamaskin som kjører Ubuntu Linux 14.04.5 med 768 GB RAM (selv om dette aldri ble utslitt), og 32 Intel® Xeon® PROSESSOR E5-2630 v3 kjerner på 2.40 GHz., Imidlertid, Hapl-o-Mat gjør ikke bruk av parallellitet, derav alle runtime er i referanse til en enkelt kjerne.

runtime for å estimere haplotype frekvenser av Hapl-o-Mat fra N=1,825,721 personer med selv-vurdert tysk opprinnelse var \( t\ca 11.4 \)t med g grupper som mål oppløsning.

Fig., 4

Gjennomsnittlig runtimes med standardavvik av Hapl-o-Mat for eksempel ulike størrelser og ulike målgrupper allelet grupper, inkludert g, P, og G grupper

for å kunne sammenligne resultatene mellom Arlequin og Hapl-o-Mat, vi gjentok haplotype frekvens estimering fra reelle data om befolkningen. Vi varierte sample størrelse mellom \( N=5,000 \), \( N=20,000 \), og \( N=50,000 \), og på samme måte som inngår bare prøver med entydig 2-felt oversettelse., Gjennomsnitt begge implementeringer over ti kjører på samme maskin gitt runtimes som gitt i Tabell 3. Spesielt i tilfelle av store utvalgene, Hapl-o-Mat var betydelig raskere vise dens effektiv implementering.

Tabell 3 Gjennomsnittlig runtimes av Arlequin og Hapl-o-Mat for estimering av haplotype frekvenser fra reelle data om befolkningen

Vi også evaluert Hapl-o-Mat evner til å takle den heterogene og tvetydig karakter av å skrive oppføringer., Vi registrerte runtime og bruk av minne på maskinen som er beskrevet ovenfor som vi varierte andelen av NMDP koder vi introdusert i genotypen befolkningen data for den første populasjonen modell på samme måte som beskrevet ovenfor for en varierende andel av maskerte alleler fra 2,5% til 50%. Hapl-o-Mat-med sin tvetydighet filter ble brukt til å løse disse uklarheter, oversette den resulterende alleler tilbake til g-grupper, og beregne haplotype frekvenser. Vi gjentok denne prosedyren ti ganger for å beregne middelverdi og standardavvik av minne, bruksområder og runtimes. Resultatene er visualisert i Fig. 5.,

Fig. 5

Ytelse av Hapl-o-Mat med hensyn til varierende andel av skrive poster som inneholder NMDP koder. Tomten en viser gjennomsnittlig bruk av minne med standard avvik og Plott b gjennomsnittlig runtimes med standard avvik for begge, data preprosessering og haplotype frekvens estimering

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *