Hapl-o-Mat: open-source software pro HLA haplotyp frekvence odhad z nejednoznačné a heterogenní data | BMC Bioinformatics

Jsme validované Hapl-o-Mat kontrolou jeho odhadovanou haplotyp frekvencí pro správnost. Protože překládání mezi alelovými rozlišeními a řešením genotypových nejasností není podporováno jiným softwarem pro odhad haplotypové frekvence, postupovali jsme podle dvou přístupů., Nejprve jsme ověřili Hapl-o-Mat proti umělým datům populace HLA, včetně různých rozlišení psaní a genotypových nejasností. Pro takové umělé populace byly známy haplotypové frekvence na konstrukci. Vezmeme-li kompletní údaje o populaci jako vstupní vzorek, Použili jsme Hapl-o-Mat k vyřešení dat genotypu a reprodukci haplotypových frekvencí. Za druhé jsme porovnali výsledky získané z Hapl-O-Mat s výsledky z snadno použitelného a dobře zavedeného softwaru Arlequin ., Jako vstup pro obě implementace jsme použili skutečné vzorky záznamů o psaní z dárcovského centra DKMS a umělá populační data. Dále jsme hodnotili výpočetní výkon Hapl-o-Mat obecně a ve srovnání s Arlequin. Cílové rozlišení pro všechny validační experimenty jsou skupiny g, pokud není uvedeno jinak.

Pro rozpoznatelnosti porovnat haplotyp frekvence a pro výstavbu umělých populací, viz Metody v Další soubor 3. Všechny výsledky jsou shrnuty v tabulce 2.,

První populační model

první umělé populace byla postavena kombinatorické konstrukce genotypů ze všech možných kombinací z \( 1,000 \) nejčastější německé haplotypy s výměnou, jak je vysvětleno v Další soubor 3. Populace byla v téměř dokonalé HWE jak uvádí vliv velikosti statistiky \( {W}_n=6.65\times {10}^{-8} \). Pro kontrolu překladů mezi rozlišeními psaní Hapl-O-Mat jsme nahradili výsledky psaní výsledky s výsledky ve vyšším rozlišení psaní včetně původního výsledku psaní, např., každý výskyt C * 16:04 byl náhodně nahrazen C*16:04:01, C*16:04:03 nebo C*16:04P nebo ponechán beze změny jako C*16: 04. Hapl-O-Mat jsme použili k překladu upraveného rozlišení psaní zpět do skupin g a k odhadu haplotypových frekvencí. Vzdálenost mezi odhadovanou a původní populace haplotyp frekvence byla \( d=1.3\times {10}^{-4} \), maximální absolutní rozdíl byl \( \Delta =9.04\times {10}^{-7} \), a ne relativní odchylka větší než 0,05 byla nalezena. Tyto výsledky ukázaly reprodukci původních populačních haplotypových frekvencí., Přesnou reprodukci nelze očekávat, protože aproximace genotypových frekvencí podle celočíselných čísel v populačních datech uniká přesnosti s plovoucí desetinnou čárkou.

Pro ověření odhadu haplotyp frekvence od genotypu dat, včetně genotypu nejasnosti, jsme zavedli, ve druhém testu, NMDP kódy genotypu populace údajů. Za tímto účelem jsme náhodně nahradili 5% výsledků psaní kódy NMDP. Kódy byly vybrány náhodně s výjimkou požadavků na zahrnutí původního psaní a objevily se v původních reálných populačních datech., Například, všechny alely zadali jako*31:01 g byly nahrazeny*31:VSCB, který kóduje*31:01,*31:41, a*31:68 výtěžkem další dvě alely (*31:01 promítá do*31:01 g). Hapl-o-Mat s jeho nejednoznačnost filtr byl použit k vyřešení těchto nejasností, přeložit výsledné alely zpět do skupiny g, a vypočítat haplotyp frekvence. Tento postup jsme opakovali desetkrát, abychom vypočítali střední a směrodatnou odchylku pozorovatelných.

Srovnání odhadované a původní populace haplotyp frekvence ukázaly průměrné vzdálenosti \( d=0.11\pm 0.,02 \), a průměrný maximální absolutní rozdíl \ (\Delta =\left (4\pm 1\right) \ times {10}^{-3} \). Průměrná hodnost pro první haplotyp s relativní odchylkou větší než 0,05 byla \ (\rho =14 \pm 6\). Ve srovnání s prvním testem jsou tyto větší hodnoty vysvětleny výskytem kódů NMDP, které zavádějí další alely a maskují tak skutečné alely., To zakrývá identifikace haplotypy zvýšením počtu haplotypy, které nejsou přítomny v původní populace set („další haplotypy“) a haplotypy pouze přítomen v původní populace set („chybějící haplotypy“). Počet dalších haplotypy se očekává, že bude větší, než počet pohřešovaných ty, protože NMDP kód nahrazuje pouze jednu alelu, ale může přinést pár dalších, když dekódovaný., V deset opakování z druhé zkoušky, v průměru \( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) haplotypy byly „další“ a \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) „chybí“. Tyto haplotypy dělal významný příspěvek k rozdílu mezi odhadovanými a populace haplotyp frekvence. S výjimkou dalších a chybějících haplotypů z výpočtu získané vzdálenosti \ (d=0.028 \ pm 0.007 \).

původní populace a odhadované frekvence jsou znázorněny na obr. 2a., Jako další haplotypy mají původní populace četnost \( {h}_k=0 \) a chybí haplotypy mají odhadovanou frekvenci \( {h}_k=0 \), a další chybějící haplotypy nejsou zobrazeny na Obr. 2A nebo v dalších log-log pozemky přijít. Hlavní odchylky v haplotypových frekvencích byly způsobeny výskytem kódů NMDP. Pokud haplotyp zahrnoval alelu maskovanou kódem NMDP, byla jeho odhadovaná frekvence snížena. Pokud na druhé straně haplotyp zahrnoval další alely z kódu NMDP, jeho odhadovaná frekvence se zvýšila., Pouze v několika případech je frekvenční zisk z dalších alel přenesen na haplotypy, které jsou již přítomny v původních populačních datech. Z tohoto důvodu nedochází k téměř žádnému přeceňování haplotypových frekvencí (odhadovaná frekvence větší než původní populační frekvence) na obr. 2a. Nicméně, frekvence, ztráty z maskovaných alely, které patří k haplotypy přítomny v původní údaje o obyvatelstvu následek podcenění, jak bylo zjištěno v Obr. 2a. haplotypy, které nesdílely alely pomocí kódů NMDP, vykazovaly pouze malé odchylky mezi původní populací a odhadovanými frekvencemi.,

skutečnost, že některé odhady haplotyp frekvence konstantní offset s ohledem na jejich původní populace frekvence vyplývá ze sdílení alely nachází ve stejné NMDP kód. Frekvence jsou sníženy v poměru k počtu dalších alel vycházejících z kódu NMDP. V důsledku toho jsou frekvence haplotypů včetně alel ze stejného kódu NMDP sníženy stejným faktorem.,

Druhá populace model

druhý populace byla postavena konstrukce genotypů z náhodně kombinuje dva haplotypy v závislosti na jejich frekvenci, jak je vysvětleno v Další soubor 3. Statistický průměr velikosti efektu u všech lokusů pro tuto populaci byl \ ({W}_n = 3.0 \ times {10}^{-3} \), což nenaznačuje žádné významné devace od HWE. Jsme počítačová haplotyp frekvence z těchto populačních dat pomocí Arlequin a Hapl-o-Mat. Odhadované a původní populační haplotypové frekvence jsou uvedeny na obr. 2b. Odpovídající pozorovatelné veličiny jsou uvedeny v Tabulce 2., Obě implementace fungovaly stejně dobře, což dokazuje správnou implementaci Hapl-O-Mat. Na rozdíl od prvního populačního modelu však byly odchylky mezi odhadovanými a původními populačními frekvencemi mnohem větší jak pro Arlequin, tak pro Hapl-O-Mat. To vyplynulo z použití algoritmu EM na data s velkým množstvím genotypové rozmanitosti. Jako data se skládala pouze z \( N=50,000 \) jednotlivce, ale součástí \( 41,489 \) různých genotypů, EM algoritmus nebyl schopen přesně reprodukovat původní populace haplotyp frekvenční distribuce., Z tohoto důvodu Arlequin a Hapl-o-Mat, a to jak na základě EM algoritmus, vykazovaly podobné odchylky mezi odhadovanými a původní obyvatelstvo frekvence pozorované na Obr. 2B.

vzorky reálných dat

Výpočetní výkon

Jsme hodnotili Hapl-o-Mat, pokud jde o výpočetní výkon pomocí měření jeho runtime pro různé objemy vstupních dat a různé cílové rozlišení. Všechny výpočty byly provedeny pomocí počítače se systémem Ubuntu Linux 14.04.5 se 768 GB RAM (i když to nebylo nikdy vyčerpáno)a 32 Intel® Xeon ® CPU E5-2630 v3 jádra na 2.40 GHz., Hapl-O-Mat však nevyužívá paralelismu, proto jsou všechny runtime odkazovány na jedno jádro.

runtime pro odhad haplotyp frekvencí Hapl-o-Mat od N=1,825,721 jedinci s self-posoudit německého původu byl \( t\cca 11.4 \)h s g skupiny jako cílové řešení.

aby bylo možné porovnat výkon mezi Arlequin a Hapl-o-Mat, opakovali jsme haplotyp frekvence odhadu od skutečné údaje o obyvatelstvu. Jsme pestrá velikost vzorku mezi \( N=5,000 \), \( N=20,000 \) a \( N=50,000 \) a podobně zahrnuty pouze vzorky s jednoznačnou 2-studijní překlad., V průměru obě implementace přes deset běhů na stejném stroji přinesly běhy, jak je uvedeno v tabulce 3. Zejména v případě velkých velikostí vzorků byla Hapl-O-Mat podstatně rychlejší a prokázala jeho efektivní implementaci.

Tabulka 3 Průměrné runtimes z Arlequin a Hapl-o-Mat pro odhad haplotyp frekvence od skutečné populace data

také Jsme hodnotili Hapl-o-Mat schopnosti vyrovnat se s heterogenní a nejednoznačné povaze psaní záznamů., Nahráli jsme runtime a využití paměti na zařízení je popsáno výše, jak jsme se měnil podíl NMDP kódy jsme zavedli v genotypu populace data pro první populaci modelu stejným způsobem jako je popsáno výše pro různé frakce maskovaných alel z 2,5% na 50%. Hapl-o-Mat s jeho nejednoznačnost filtr byl použit k vyřešení těchto nejasností, přeložit výsledné alely zpět do skupiny g, a vypočítat haplotyp frekvence. Tento postup jsme opakovali desetkrát, abychom vypočítali střední a směrodatnou odchylku využití paměti a doby běhu. Výsledky jsou vizualizovány na obr. 5.,

První populační model

Druhá populace model

vzorky reálných dat

Výpočetní výkon

Napsat komentář Zrušit odpověď na komentář