vi validerade Hapl-o-Mat genom att kontrollera dess uppskattade haplotypfrekvenser för korrekthet. Eftersom översättning mellan allelupplösningar och lösning av genotypning av tvetydigheter inte stöds av annan programvara för haplotype frekvensberäkning, följde vi två tillvägagångssätt., Först validerade vi Hapl-O-Mat mot artificiella HLA-befolkningsdata, inklusive olika skrivupplösningar och genotypning av tvetydigheter. För sådana konstgjorda populationer var haplotypfrekvenser kända per konstruktion. Med den fullständiga populationsdata som ett indataprov använde vi Hapl-O-Mat för att lösa genotypedata och reproducera haplotypfrekvenser. För det andra jämförde vi resultat från Hapl-O-Mat till resultat från den lättanvända och väletablerade programvaran Arlequin ., Vi använde riktiga prover av att skriva poster från dkms donator center och artificiell population data som input för båda implementeringar. Dessutom utvärderade vi beräkningsprestanda för Hapl-O-Mat i allmänhet och i jämförelse med arlekin. Målupplösningen för alla valideringsexperiment är G-grupper om inget annat anges.

för observables att jämföra haplotypfrekvenser och för konstruktion av konstgjorda populationer, se metoder i ytterligare fil 3. Alla resultat sammanfattas i Tabell 2.,

första populationsmodellen

den första artificiella populationen byggdes genom kombinatorisk konstruktion av genotyper från alla möjliga kombinationer av de \ (1,000\) vanligaste tyska haplotyperna med ersättning, vilket förklaras i ytterligare fil 3. Befolkningen var i nästan perfekt HWE som indikeras av effekten storlek statistik \ ({W}_n=6,65 \ gånger {10}^{-8} \). För att kontrollera översättningar mellan att skriva upplösningar av Hapl-O-Mat ersatte vi skrivresultat med resultat i högre skrivupplösning inklusive det ursprungliga skrivresultatet, t. ex., varje förekomst av C * 16: 04 ersattes slumpmässigt av C*16:04:01, C * 16: 04: 03, eller C * 16: 04P eller lämnades oförändrad som C * 16: 04. Vi använde Hapl-O-Mat för att översätta de modifierade skrivupplösningarna tillbaka till G-grupper och för att uppskatta haplotypfrekvenser. Avståndet mellan uppskattade och ursprungliga populationshaplotypfrekvenser var \ (d=1,3 \ gånger {10}^{-4} \), den maximala absoluta skillnaden var \ (\Delta =9.04 \ times {10}^{-7} \), och ingen relativ avvikelse större än 0,05 hittades. Dessa resultat indikerade reproduktion av den ursprungliga populationshaplotypfrekvensen., Exakt reproduktion kan inte förväntas, eftersom approximering av genotyp-frekvenser med heltal i populationsdata flytar flyttalsprecision.

för att validera uppskattningen av haplotypfrekvenser från genotyp data inklusive genotyping tvetydigheter, introducerade vi, i ett andra test, nmdp koder till genotyp populationsdata. För detta ändamål ersatte vi slumpmässigt 5% av skrivresultaten med nmdp-koder. Koderna valdes slumpmässigt med undantag för kraven att inkludera den ursprungliga skrivningen och att ha dykt upp i de ursprungliga verkliga befolkningsdata., Till exempel ersattes alla alleler som skrivits som en*31:01 g med en * 31:VSCB, som kodar för en * 31:01, en*31:41 och en*31:68 som ger ytterligare två alleler (A*31:01 översätter till en*31: 01 g). Hapl-O-Mat med dess tvetydighet filter användes för att lösa dessa tvetydigheter, översätta de resulterande alleler tillbaka till G-grupper, och beräkna haplotypfrekvenser. Vi upprepade denna procedur tio gånger för att beräkna medelvärde och standardavvikelse för observables.

jämförelse mellan uppskattade och ursprungliga populationshaplotypfrekvenser visade ett genomsnittligt avstånd på \ (d = 0,11\pm 0.,02\), och en genomsnittlig maximal absolut skillnad på \ (\Delta =\left (4\pm 1\right) \ times {10}^{-3} \). Den genomsnittliga rankningen för den första haplotypen med en relativ avvikelse större än 0,05 var \ (\Rho =14\pm 6 \). Jämfört med det första testet förklaras dessa större värden av förekomsten av NMDP-koder, som introducerar ytterligare alleler och därmed maskerar riktiga alleler., Detta döljer identifieringen av haplotyper genom att öka antalet haplotyper som inte finns i den ursprungliga populationsuppsättningen (”ytterligare haplotyper”) och haplotyper som endast förekommer i den ursprungliga populationsuppsättningen (”saknade haplotyper”). Antalet ytterligare haplotypes förväntas att vara större än antalet saknade sådana, eftersom en NMDP kod ersätter endast en allel men kan ge flera andra när avkodas., I de tio repetitionerna av det andra testet var i genomsnitt \( 314\pm 98 \) (\( \vänster(25\pm 8\höger)\%\) haplotyper ”ytterligare” och \( 50\pm 18\) (\(\Vänster(4\pm 1\höger)\%\) ”saknas”. Dessa haplotyper bidrog i hög grad till skillnaden mellan uppskattade och populationshaplotypfrekvenser. Exklusive ytterligare och saknade haplootyper från att beräkna avståndet gav \ (d=0.028\pm 0.007 \).

ursprungliga populationen och uppskattade frekvenser visas i Fig. 2a., Eftersom ytterligare haplotyper har en ursprunglig populationsfrekvens på \ ({h}_k=0 \) och saknade haplotyper har en uppskattad frekvens på \ ({h}_k=0 \), visas inte ytterligare och saknade haplotyper i Fig. 2a eller i ytterligare log – log tomter att komma. Stora avvikelser i haplotypfrekvenser berodde på förekomsten av NMDP-koder. Om en haplotyp inkluderade en allel som maskerades med en NMDP-kod, reducerades dess uppskattade frekvens. Om däremot en haplotyp inkluderade ytterligare alleler från en nmdp-kod, ökade den uppskattade frekvensen., Endast i få fall överförs frekvensvinsten från ytterligare alleler till haplotyper som redan finns i de ursprungliga populationsdata. Av denna anledning förekommer nästan ingen överskattning av haplotypfrekvenser (uppskattad frekvens större än den ursprungliga populationsfrekvensen) i Fig. 2A. den frekvensförlust från maskerade alleler som hör till haplotyper som förekommer i de ursprungliga populationsdata resulterar emellertid i underskattning enligt Fig. 2a. haplotyper som inte delade alleler via nmdp-koder visade endast mindre avvikelser mellan ursprunglig population och uppskattade frekvenser.,

Fig. 2

Haplotypfrekvenser från artificiella befolkningsdata. Plot A visar haplotypfrekvenser som uppskattas via Hapl-O-Mat jämfört med ursprungliga populationsfrekvenser från den första populationsmodellen, inklusive genotypning av tvetydigheter. Endast en av tio körningar illustreras. Plot b visar en jämförelse mellan den ursprungliga populationens haplotypfrekvenser och frekvenser som uppskattas via arlekin och Hapl-O-Mat på grundval av den andra populationsmodellen., På grund av de logaritmiska skalorna visar båda tomterna varken ytterligare eller saknade haplotyper

det faktum att vissa uppskattade haplotypfrekvenser har en konstant förskjutning med avseende på deras ursprungliga populationsfrekvens följer av att dela alleler som finns i samma nmdp-kod. Frekvenserna reduceras i proportion till antalet ytterligare alleler som kommer från NMDP-koden. Följaktligen reduceras frekvensen av haplootyper inklusive alleler från samma NMDP-kod med samma faktor.,

andra populationsmodellen

den andra populationen byggdes genom att konstruera genotyper från slumpmässigt kombinera två haplotyper enligt deras frekvensfördelning som förklaras i ytterligare fil 3. Effect size statistic medelvärde över alla loci för denna population var \ ({W}_n=3.0 \ times {10}^{-3}\) vilket indikerar ingen signifikant devering från HWE. Vi beräknade haplotypfrekvenser från dessa befolkningsdata med arlekin och Hapl-O-Mat. De uppskattade och ursprungliga populationshaplotypfrekvenserna visas i Fig. 2b. motsvarande iakttagelser anges i Tabell 2., Båda implementeringarna fungerade lika bra som de visade på ett korrekt genomförande av Hapl-O-Mat. I motsats till den första populationsmodellen var dock avvikelserna mellan uppskattade och ursprungliga populationsfrekvenser mycket större både för arlekin och Hapl-O-Mat. Detta berodde på att em-algoritmen tillämpats på data med en stor mängd genotyp mångfald. Eftersom data bestod av endast \ (N=50,000\) individer men inkluderade \ (41,489\) olika genotyper, kunde EM-algoritmen inte exakt reproducera den ursprungliga populationens haplotypfrekvensfördelning., Av denna anledning visade Arlequin och Hapl-O-Mat, båda baserade på EM-algoritmen, liknande avvikelser mellan uppskattade och ursprungliga populationsfrekvenser som observerats i Fig. 2b.

real data samples

Fig. 3

jämförelse av haplotypfrekvenser beräknade via arlekin och Hapl-O-Mat från ett urval av verkliga befolkningsdata., På grund av de logaritmiska skalorna visar diagrammet varken ytterligare eller saknade haplotyper

beräkningsprestanda

vi utvärderade Hapl-o-Mat när det gäller beräkningsprestanda genom att mäta dess körtid för olika mängder indata och olika målupplösningar. Alla beräkningar har utförts med hjälp av en dator som kör Ubuntu Linux 14.04.5 med 768 GB RAM-minne (även om det aldrig blev utmattad), och 32 Intel® Xeon® PROCESSOR E5-2630 v3 kärnor på 2.40 GHz., Hapl-O-Mat använder emellertid inte parallellism, varför all runtime är i hänvisning till en enda kärna.

runtime för att uppskatta haplotypfrekvenser med Hapl-O-Mat från N = 1,825,721 individer med självbedömt tyskt ursprung var \ (t \approx 11.4\) h med G-grupper som målupplösning.

Fig., 4

genomsnittliga löptider med standardavvikelse för Hapl-O-Mat för olika provstorlekar och olika mål-allelgrupper inklusive G, P och g-grupper

för att jämföra resultatet mellan arlekin och Hapl-o-mat, vi upprepade haplotypsfrekvensuppskattningen från verkliga befolkningsdata. Vi varierade provstorleken mellan \( n=5,000 \), \( n=20,000\) och \( n=50,000 \) och inkluderade på liknande sätt endast prover med entydig 2-fältsöversättning., I genomsnitt gav båda implementeringarna över tio körningar på samma maskin runtimes som anges i tabell 3. Särskilt när det gäller stora urvalsstorlekar var Hapl-O-Mat betydligt snabbare vilket visade att det genomfördes på ett effektivt sätt.

tabell 3 genomsnittliga körtider av arlekin och Hapl-O-Mat för uppskattning av haplotypsfrekvenser från verkliga populationsdata

vi utvärderade också Hapl-o-Mat förmåga att klara av den heterogena och tvetydiga karaktären hos skrivposter., Vi spelade in runtime och minnesanvändning på maskinen som beskrivs ovan, eftersom vi varierade andelen nmdp-koder som vi introducerade i genotypepopulationsdata för den första populationsmodellen på samma sätt som beskrivits ovan för en varierande bråkdel av maskerade alleler från 2.5% till 50%. Hapl-O-Mat med dess tvetydighet filter användes för att lösa dessa tvetydigheter, översätta de resulterande alleler tillbaka till G-grupper, och beräkna haplotypfrekvenser. Vi upprepade denna procedur tio gånger för att beräkna medelvärde och standardavvikelse för minnesanvändningar och körtider. Resultaten visualiseras i Fig. 5.,

Fig. 5

Hapl-O-Mats prestanda med avseende på varierande andel av skrivposter som innehåller nmdp-koder. Plot A visar genomsnittlig minnesanvändning med standardavvikelser och Plot B genomsnittliga körtider med standardavvikelser för både; dataförbearbetning och haplotype frekvensuppskattning

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *