Hapl-o-Mat: open-source programvare for HLA-haplotype frekvens estimering fra tvetydig og heterogene data | BMC Bioinformatikk

Vi validert Hapl-o-Mat-ved å sjekke estimert haplotype frekvenser for korrekthet. Som oversetter mellom allelet vedtak og løse genotyping uklarheter er ikke støttes av annen programvare for haplotype frekvens estimering, og vi fulgte to tilnærminger., For det første, vi validert Hapl-o-Mat mot kunstig HLA befolkningen data, inkludert å skrive forskjellige oppløsninger og genotyping uklarheter. For slike kunstige bestander haplotype frekvenser ble kjent per konstruksjon. Tar hele befolkningen data som en inngang eksempel, har vi brukt Hapl-o-Mat for å løse genotype data og til å reprodusere haplotype frekvenser. For det andre, vi sammenlignet resultatene fra Hapl-o-Mat til resultatene fra den enkle å bruke og godt etablert programvare Arlequin ., Vi brukte ekte prøver å skrive poster fra DKMS donor center og kunstig befolkningen data som input for både implementeringer. Videre har vi vurdert computational ytelse av Hapl-o-Mat generelt og i forhold til Arlequin. Oppløsningen for alle validering eksperimenter er g grupper med mindre det er angitt.

For observables å sammenligne haplotype frekvenser og for bygging av kunstige bestander, se Metoder i Ekstra fil 3. Alle resultatene er oppsummert i Tabell 2.,

Første populasjonen modell

Den første kunstige befolkningen ble bygget av kombinatoriske bygging av genotypes fra alle mulige kombinasjoner av \( i 1 000 \) hyppigste tyske haplotypes med erstatning, som forklart i Ekstra fil 3. Befolkningen var i nesten perfekt HWE som indikert av effekt størrelse statistikken \( {B}_n=6.65\ganger {10}^{-8} \). For å sjekke oversettelser mellom å skrive en oppløsning på Hapl-o-Mat, vi erstattet skrive resultatene med resultatene i høyere skrive oppløsning, inkludert den originale skrive resultatet, f.eks., hver forekomst av C*16:04 var tilfeldig erstattet av C*16:04:01 C*16:04:03, eller C*16:04P eller venstre uendret som C*16:04. Vi brukte Hapl-o-Mat til å oversette den modifiserte å skrive resolusjoner tilbake til g-grupper og til å anslå haplotype frekvenser. Avstanden mellom estimerte og opprinnelige befolkningen haplotype frekvenser var \( d=1.3\ganger {10}^{-4} \), den maksimale absolutte forskjellen var \( \Delta =9.04\ganger {10}^{-7} \), og ingen relative avvik som er større enn 0.05 ble funnet. Disse resultatene indikerte gjengivelse av den opprinnelige befolkningen haplotype frekvenser., Nøyaktig gjengivelse kan ikke forventes, som tilnærmet genotype frekvensene med heltall tall i befolkningen data rømming floating point presisjon.

for Å validere estimering av haplotype frekvenser fra genotype data, inkludert genotyping uklarheter, vi introdusert, i en annen test, NMDP koder for å genotype befolkningen data. For dette formål, vi tilfeldig erstattet 5% for å skrive resultater med NMDP koder. Kodene ble valgt tilfeldig, bortsett fra det som trengs for å inkludere den opprinnelige skrive og å ha dukket opp i den opprinnelige virkelige data om befolkningen., For eksempel, alle alleler skrevet som En*31:01 g ble erstattet med EN*31:VSCB, som blir En*31:01,*31:41, og En*31:68 ga ytterligere to alleler (A*31:01 oversettes til Et*31:01 g). Hapl-o-Mat-med sin tvetydighet filter ble brukt til å løse disse uklarheter, oversette den resulterende alleler tilbake til g-grupper, og beregne haplotype frekvenser. Vi gjentok denne prosedyren ti ganger for å beregne middelverdi og standardavvik av observables.

Sammenligning mellom estimert og opprinnelige befolkningen haplotype frekvenser viste en gjennomsnittlig avstand på \( d=0.11\pm 0.,02 \), og en gjennomsnittlig maksimal absolutte forskjellen \( \Delta =\left(4\pm 1\right)\ganger {10}^{-3} \). Gjennomsnittlig rang for første haplotype med en relativ avvik større enn 0.05 var \( \rho =14\pm 6 \). I forhold til den første testen, disse større verdier er forklart av forekomsten av NMDP koder, som presenterer flere alleler, og dermed maske ekte alleler., Dette tilslører identifisering av haplotypes ved å øke antall haplotypes ikke til stede i den opprinnelige befolkningen satt (ytterligere haplotypes») og haplotypes bare til stede i den opprinnelige befolkningen sett («mangler haplotypes»). Antall ekstra haplotypes er forventet å være større enn antall manglende seg, siden en NMDP koden erstatter bare ett allel men kan gi flere andre når dekodet., I de ti repetisjoner av andre test, i gjennomsnitt \( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) haplotypes var «ekstra» og \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) «mangler». Disse haplotypes gjort store bidrag til forskjellen mellom estimert og befolkningen haplotype frekvenser. Unntatt ytterligere og mangler haplotypes fra beregne avstand gir \( d=0.028\pm 0.007 \).

Opprinnelige befolkningen og forventede frekvenser er vist i Fig. 2a., Som ekstra haplotypes har en opprinnelige befolkningen frekvens av \( {h}_k=0 \), og mangler haplotypes har en anslått frekvens \( {h}_k=0 \), mer og mangler haplotypes er ikke vist i Fig. 2a eller i videre log-log tomter til å komme. Store avvik i haplotype frekvenser var på grunn av forekomsten av NMDP koder. Hvis en haplotype inkludert et allel som var maskert av en NMDP kode, dens beregnede frekvensen ble redusert. Hvis, på den annen side, en haplotype inkludert flere alleler fra en NMDP kode, dens beregnede frekvensen økes., Bare i få tilfeller frekvensmottaket fra flere alleler er overført til haplotypes som allerede er til stede i den opprinnelige befolkningen data. For denne grunn, nesten ingen overestimation av haplotype frekvenser (anslått frekvens større enn det opprinnelige befolkningen frekvens) forekommer i Fig. 2a. Men, frekvens tap fra maskert alleler som hører til haplotypes til stede i den opprinnelige befolkningen data resulterer i en undervurdering som finnes i Fig. 2a. Haplotypes som ikke dele alleler via NMDP koder bare viste mindre avvik mellom opprinnelige befolkningen og forventede frekvenser.,

Det faktum at noen anslått haplotype frekvenser har en konstant forskyvning med hensyn til deres opprinnelige befolkningen frekvens følger av deling av alleler som er funnet i samme NMDP kode. Frekvensene er redusert i forhold til antall ekstra alleler som dukker opp fra den NMDP kode. Som en konsekvens, frekvenser av haplotypes inkludert alleler fra den samme NMDP kode reduseres med samme faktor.,

Andre befolkning modell

Den andre populasjonen ble bygget ved å lage genotypes fra tilfeldig kombinere to haplotypes i henhold til frekvens sitt distribusjon som forklart i Ekstra fil 3. Effekten størrelse statistikk fordelt på alle loci for denne bestanden var \( {B}_n=3.0\ganger {10}^{-3} \), som indikerer ingen vesentlige devation fra HWE. Vi beregnet haplotype frekvenser fra disse befolkningen data ved hjelp av Arlequin og Hapl-o-Mat. Estimert og opprinnelige befolkningen haplotype frekvenser er vist i Fig. 2b. Tilsvarende observables er gitt i Tabell 2., Både implementeringer utført like godt som viser riktig gjennomføring av Hapl-o-Mat. Imidlertid, i motsetning til den første befolkningen modell, avvik mellom estimerte og opprinnelige befolkningen frekvenser var mye større både for Arlequin og Hapl-o-Mat. Dette resulterte i å bruke EM-algoritmen til data med en stor mengde av genotype mangfold. Som data besto av bare \( N=50,000 \) individer, men inngår \( 41,489 \) forskjellige genotypes, EM-algoritmen var ikke i stand til å nøyaktig gjenskape den opprinnelige befolkningen haplotype frekvens fordeling., Av denne grunn Arlequin og Hapl-o-Mat, både basert på EM-algoritmen viste lignende avvik mellom estimerte og opprinnelige befolkningen frekvenser som observert i Fig. 2b.

Reelle data prøver

Computational ytelse

Vi evaluert Hapl-o-Mat i form av beregningsorientert ytelse ved å måle dens runtime for ulike mengder av input-data og ulike målgrupper vedtak. Alle beregninger ble utført ved hjelp av en datamaskin som kjører Ubuntu Linux 14.04.5 med 768 GB RAM (selv om dette aldri ble utslitt), og 32 Intel® Xeon® PROSESSOR E5-2630 v3 kjerner på 2.40 GHz., Imidlertid, Hapl-o-Mat gjør ikke bruk av parallellitet, derav alle runtime er i referanse til en enkelt kjerne.

runtime for å estimere haplotype frekvenser av Hapl-o-Mat fra N=1,825,721 personer med selv-vurdert tysk opprinnelse var \( t\ca 11.4 \)t med g grupper som mål oppløsning.

for å kunne sammenligne resultatene mellom Arlequin og Hapl-o-Mat, vi gjentok haplotype frekvens estimering fra reelle data om befolkningen. Vi varierte sample størrelse mellom \( N=5,000 \), \( N=20,000 \), og \( N=50,000 \), og på samme måte som inngår bare prøver med entydig 2-felt oversettelse., Gjennomsnitt begge implementeringer over ti kjører på samme maskin gitt runtimes som gitt i Tabell 3. Spesielt i tilfelle av store utvalgene, Hapl-o-Mat var betydelig raskere vise dens effektiv implementering.

Tabell 3 Gjennomsnittlig runtimes av Arlequin og Hapl-o-Mat for estimering av haplotype frekvenser fra reelle data om befolkningen

Vi også evaluert Hapl-o-Mat evner til å takle den heterogene og tvetydig karakter av å skrive oppføringer., Vi registrerte runtime og bruk av minne på maskinen som er beskrevet ovenfor som vi varierte andelen av NMDP koder vi introdusert i genotypen befolkningen data for den første populasjonen modell på samme måte som beskrevet ovenfor for en varierende andel av maskerte alleler fra 2,5% til 50%. Hapl-o-Mat-med sin tvetydighet filter ble brukt til å løse disse uklarheter, oversette den resulterende alleler tilbake til g-grupper, og beregne haplotype frekvenser. Vi gjentok denne prosedyren ti ganger for å beregne middelverdi og standardavvik av minne, bruksområder og runtimes. Resultatene er visualisert i Fig. 5.,

Første populasjonen modell

Andre befolkning modell

Reelle data prøver

Computational ytelse

Legg igjen en kommentar Avbryt svar