Hapl-o-Mat: open-source software til HLA-haplotype frekvens skøn fra tvetydige og heterogene data | BMC Bioinformatik

Vi er valideret Hapl-o-Mat, ved at kontrollere den anslåede haplotype frekvenser for rigtigheden. Som oversætte mellem allel resolutioner og løse genotyping uklarheder understøttes ikke af anden soft .are til haplotype frekvens estimering, vi fulgte to tilgange., Først, vi validerede Hapl-o-Mat mod kunstige HLA-befolkningsdata, herunder forskellige skriveopløsninger og genotyping tvetydigheder. For sådanne kunstige populationer var haplotypefrekvenser kendt pr. Ved at tage de komplette befolkningsdata som en inputprøve brugte vi Hapl-o-Mat til at løse genotypedata og til at gengive haplotypefrekvenser. For det andet sammenlignede vi resultater opnået fra Hapl-o-Mat til resultater fra den brugervenlige og veletablerede Soft .are Arle .uin ., Vi brugte rigtige prøver af at skrive poster fra DKMS donorcenter og kunstige befolkningsdata som input til begge implementeringer. Desuden vurderede vi den beregningsmæssige ydeevne af Hapl-o-Mat generelt og i sammenligning med Arle .uin. Målopløsningen for alle valideringseksperimenter er g-grupper, medmindre andet er angivet.

for observerbare til sammenligning af haplotypefrekvenser og til konstruktion af kunstige populationer, se metoder i yderligere fil 3. Alle resultater er opsummeret i tabel 2.,

første populationsmodel

den første kunstige population blev bygget ved kombinatorisk konstruktion af genotyper fra alle mulige kombinationer af de \( 1,000 \) hyppigste tyske haplotyper med udskiftning, som forklaret i yderligere fil 3. Befolkningen var i næsten perfekt h ASE som angivet af effektstørrelsen statistik \ ({{} _n=6.65 \ gange {10}^{-8} \). For at kontrollere oversættelser mellem indtastningsopløsninger af Hapl-o-Mat erstattede vi indtastningsresultater med resultater i højere indtastningsopløsning inklusive det originale indtastningsresultat, f. eks., hver forekomst af C * 16:04 blev tilfældigt erstattet af C*16:04:01, C*16:04:03, eller C*16:04P eller venstre uændret som C*16: 04. Vi brugte Hapl-o-Mat til at oversætte de ændrede skriveopløsninger tilbage til G-grupper og til at estimere haplotypefrekvenser. Afstanden mellem estimerede og oprindelige population haplotype frekvenser var \ (d=1,3\gange {10}^{-4} \), den maksimale absolutte forskel var \ (\Delta =9.04\gange {10}^{-7} \), og der blev ikke fundet nogen relativ afvigelse større end 0,05. Disse resultater indikerede reproduktion af den oprindelige population haplotype frekvenser., Præcis reproduktion kan ikke forventes, da tilnærmelse af genotypefrekvenser med heltal i populationsdataene undgår præcision i flydende punkt.

for at validere estimeringen af haplotypefrekvenser fra genotypedata inklusive genotypende tvetydigheder introducerede vi i en anden test NMDP-koder til genotypepopulationsdataene. Til dette formål erstattede vi tilfældigt 5% af indtastningsresultaterne med NMDP-koder. Koderne blev valgt tilfældigt bortset fra kravene til at inkludere den originale indtastning og at have vist sig i de originale reelle befolkningsdata., For eksempel blev alle alleler, der er skrevet som en*31:01 g, erstattet med en*31:VSCB, der koder for A*31:01, A*31:41 og A*31:68, hvilket giver to yderligere alleler (A*31:01 oversætter til A*31:01 g). Hapl-o-Mat med sin tvetydighed filter blev brugt til at løse disse uklarheder, oversætte den deraf følgende alleler tilbage til g grupper, og beregne haplotype frekvenser. Vi gentog denne procedure ti gange for at beregne middelværdi og standardafvigelse af observerbare.sammenligning mellem estimerede og oprindelige populationshaplotypefrekvenser viste en gennemsnitlig afstand på \ (D=0.11\pm 0.,02 \), og en gennemsnitlig maksimal absolut forskel på \ (\Delta =\Venstre (4\pm 1\højre)\gange {10}^{-3} \). Den gennemsnitlige rang for den første haplotype med en relativ afvigelse større end 0,05 var \( \rho =14\pm 6 \). Sammenlignet med den første test forklares disse større værdier ved forekomsten af NMDP-koder, der introducerer yderligere alleler og dermed maskerer ægte alleler., Dette skjuler identifikationen af haplotyper ved at øge antallet af haplotyper, der ikke findes i det oprindelige populationssæt (“yderligere haplotyper”) og haplotyper, der kun findes i det oprindelige populationssæt (“manglende haplotyper”). Antallet af yderligere haplotyper forventes at være større end antallet af manglende, da en NMDP-kode kun erstatter en allel, men kan give flere andre, når de afkodes., I de ti gentagelser af den anden test var i gennemsnit \( 314\pm 98 \) (\( \venstre(25\pm 8\højre)\% \)) haplotyper “yderligere” og \( 50\pm 18 \) (\( \Venstre(4\pm 1\højre)\% \)) “mangler”. Disse haplotyper gav det største bidrag til forskellen mellem estimerede og populations haplotypefrekvenser. Eksklusive yderligere og manglende haplotyper fra beregning af afstanden gav \ (d=0,028 \ pm 0,007 \).

oprindelig population og estimerede frekvenser er vist i Fig. 2a., Da yderligere haplotyper har en oprindelig populationsfrekvens på \ ({h}_k=0 \), og manglende haplotyper har en estimeret frekvens på \( {h}_k=0\), er yderligere og manglende haplotyper ikke vist i fig. 2a eller i yderligere log-log plots til at komme. Større afvigelser i haplotypefrekvenser skyldtes forekomsten af NMDP-koder. Hvis en haplotype indeholdt en allel, der blev maskeret af en NMDP-kode, blev dens estimerede frekvens reduceret. Hvis en haplotype på den anden side inkluderede yderligere alleler fra en NMDP-kode, steg dens estimerede frekvens., Kun i få tilfælde overføres frekvensgevinsten fra yderligere alleler til haplotyper, der allerede findes i de oprindelige befolkningsdata. Af denne grund forekommer næsten ingen overvurdering af haplotypefrekvenser (estimeret frekvens større end den oprindelige populationsfrekvens) i Fig. 2a.frekvenstabet fra maskerede alleler, der tilhører haplotyper, der er til stede i de oprindelige befolkningsdata, resulterer imidlertid i undervurdering som fundet i fig. 2a. haplotyper, der ikke delte alleler via NMDP-koder, viste kun mindre afvigelser mellem den oprindelige population og estimerede frekvenser.,

Det faktum, at nogle forventede haplotype frekvenser har en konstant forskydning med hensyn til deres oprindelige befolkning frekvens følger af deling af alleler, der findes i samme NMDP kode. Frekvenserne reduceres i forhold til antallet af yderligere alleler, der kommer fra nmdp-koden. Som følge heraf reduceres frekvenserne af haplotyper inklusive alleler fra den samme NMDP-kode med den samme faktor.,

Anden population model

Den anden population blev bygget ved at konstruere genotyper fra tilfældigt at kombinere to haplotypes i henhold til deres hyppighed fordeling, som beskrevet i Ekstra fil 3. Den gennemsnitlige effektstørrelsesstatistik for alle loci for denne population var \ ({{} _n=3.0 \ gange {10}^{-3} \), hvilket indikerer ingen signifikant devation fra H .e. Vi beregnede haplotypefrekvenser fra disse befolkningsdata ved hjælp af Arle .uin og Hapl-o-Mat. De estimerede og oprindelige populationshaplotypefrekvenser er vist i fig. 2b. de tilsvarende observerbare er angivet i tabel 2., Begge implementeringer fungerede lige så godt, hvilket demonstrerede den korrekte implementering af Hapl-o-Mat. Imidlertid, i modsætning til den første populationsmodel, afvigelser mellem estimerede og originale befolkningsfrekvenser var meget større både for Arle .uin og Hapl-o-Mat. Dette skyldtes anvendelse af EM-algoritmen til data med en stor mængde genotype mangfoldighed. Da dataene kun bestod af \( n=50,000 \) individer, men inkluderede \( 41,489 \) forskellige genotyper, var EM-algoritmen ikke i stand til nøjagtigt at gengive den oprindelige befolknings haplotype-frekvensfordeling., Af denne grund viste Arle .uin og Hapl-o-Mat, begge baseret på EM-algoritmen, lignende afvigelser mellem estimerede og originale befolkningsfrekvenser som observeret i Fig. 2b.

Rigtige data og prøver

Beregningsmæssige resultater

Vi har vurderet Hapl-o-Mat i form af beregningsmæssige resultater, ved at måle dets runtime for forskellige mængder af input data og de forskellige mål beslutninger. Alle beregninger blev udført ved hjælp af en computer, der kører Ubuntu Linux 14.04.5 med 768 GB RAM (selvom det aldrig var opbrugt), og 32 Intel® Xeon® E5 CPU-2630 v3 kerner på 2.40 GHz., Hapl-o-Mat gør imidlertid ikke brug af parallelisme, derfor er al runtime i reference til en enkelt kerne.

runtime til estimering af haplotype frekvenser ved Hapl-o-Mat fra N=1,825,721 personer med selvvurderet tysk oprindelse blev \( t\ca 11.4 \)t med g grupper som mål opløsning.

for at sammenligne performance mellem Arlequin og Hapl-o-Mat, gentager vi den haplotype frekvens skøn fra real befolkning data. Vi varierede prøvestørrelsen mellem \ (N=5,000\), \ (N=20,000\) og \( N=50,000\) og inkluderede ligeledes kun prøver med entydig 2-feltoversættelse., Gennemsnit begge implementeringer over ti kørsler på den samme maskine gav driftstider som angivet i tabel 3. Især i tilfælde af store prøvestørrelser var Hapl-o-Mat betydeligt hurtigere at demonstrere sin effektive implementering.

Tabel 3 Gennemsnitlige driftstid for Arlequin og Hapl-o-Mat til estimering af haplotype frekvenser fra real befolkning data

Vi har også evalueret Hapl-o-Mat ‘ s evner til at klare den heterogene og tvetydige karakter af at skrive journaler., Vi registrerede runtime og hukommelsesforbrug på maskinen beskrevet ovenfor, da vi varierede andelen af NMDP-koder, vi introducerede i genotypepopulationsdataene for den første populationsmodel på samme måde som beskrevet ovenfor for en varierende brøkdel af maskerede alleler fra 2.5% til 50%. Hapl-o-Mat med sin tvetydighed filter blev brugt til at løse disse uklarheder, oversætte den deraf følgende alleler tilbage til g grupper, og beregne haplotype frekvenser. Vi gentog denne procedure ti gange for at beregne middel-og standardafvigelse for hukommelsesbrug og driftstider. Resultaterne er visualiseret i Fig. 5.,

første populationsmodel

Anden population model

Rigtige data og prøver

Beregningsmæssige resultater

Skriv et svar Annuller svar