we validated Hapl-o-Mat by checking its estimated haplotype frequency for correction. Ponieważ tłumaczenie pomiędzy rozdzielczością alleli i rozwiązywaniem niejednoznaczności genotypów nie jest wspierane przez inne oprogramowanie do oceny częstotliwości haplotypów, zastosowaliśmy dwa podejścia., Po pierwsze, zwalidowaliśmy Hapl-o-Mat przeciwko sztucznym danych populacji HLA, w tym różnych rozdzielczości typowania i genotypowania niejednoznaczności. Dla takich sztucznych populacji częstość haplotypów była znana na budowę. Biorąc pełne dane populacyjne jako próbkę wejściową, użyliśmy Hapl-o-Mat, aby rozwiązać dane o genotypie i odtworzyć częstotliwości haplotypów. Po drugie, porównaliśmy wyniki uzyskane z Hapl-o-Mat do wyników z łatwego w użyciu i dobrze znanego oprogramowania Arlequin ., Jako dane wejściowe dla obu implementacji wykorzystaliśmy prawdziwe próbki wpisywania rekordów z DKMS donor center oraz sztuczne dane populacyjne. Ponadto oceniliśmy wydajność obliczeniową Hapl-o-Mat w ogóle i w porównaniu do Arlequina. Rozdzielczość docelowa dla wszystkich eksperymentów walidacyjnych to grupy g, chyba że zaznaczono inaczej.

aby móc porównywać częstotliwości haplotypów i budowę sztucznych populacji, zobacz metody w dodatkowym pliku 3. Wszystkie wyniki podsumowano w tabeli 2.,

pierwszy model populacji

pierwsza sztuczna populacja została zbudowana przez kombinatoryczną budowę genotypów ze wszystkich możliwych kombinacji najczęstszych haplotypów niemieckich z zastąpieniem, jak wyjaśniono w dodatkowym pliku 3. Populacja była w prawie idealnym HWE, na co wskazuje statystyka wielkości efektu \ ({w} _n=6,65 \ razy {10}^{-8} \). Aby sprawdzić tłumaczenia pomiędzy rozwiązaniami typowania Hapl-o-Mat, zastąpiliśmy wyniki typowania wynikami w wyższej rozdzielczości typowania, włączając w to oryginalny wynik typowania, np., każde wystąpienie C*16:04 zostało losowo zastąpione przez C*16:04:01, C*16:04:03 lub C*16:04P lub pozostawione bez zmian jako C*16:04. Użyliśmy Hapl-o-Mat do przetłumaczenia zmodyfikowanych rozdzielczości typowania z powrotem na grupy g i oszacowania częstotliwości haplotype. Odległość między szacowaną i pierwotną populacją haplotypów wynosiła \ (d=1,3 \ razy {10}^{-4} \), maksymalna różnica bezwzględna wynosiła \ (\Delta =9,04 \ razy {10}^{-7} \), i nie stwierdzono względnego odchylenia większego niż 0,05. Wyniki te wskazywały na reprodukcję pierwotnych częstości haplotypów populacji., Dokładna reprodukcja nie może być oczekiwana, ponieważ przybliżenie częstości genotypu liczbami całkowitymi w danych populacyjnych wymyka się precyzji zmiennoprzecinkowej.

aby zweryfikować oszacowanie częstości haplotypów na podstawie danych o genotypie, w tym wieloznaczności genotypowania, wprowadziliśmy, w drugim teście, kody nmdp do danych o populacji genotypu. W tym celu losowo zastąpiliśmy 5% wyników wpisywania kodami NMDP. Kody zostały wybrane losowo, z wyjątkiem wymagań, aby uwzględnić oryginalne typowanie i aby pojawiły się w oryginalnych rzeczywistych danych dotyczących populacji., Na przykład wszystkie allele wpisane jako a*31:01 g zostały zastąpione przez a*31:VSCB, które koduje A*31:01, a*31:41 i a*31:68 dając dwa dodatkowe allele (a*31:01 przekłada się na A*31:01 g). Hapl-o-Mat z jego niejednoznaczność filtr używać te dwuznaczności, tłumaczyć wynikowy alleles z powrotem do g grupy i obliczać haplotype częstotliwość. Powtórzyliśmy tę procedurę dziesięć razy, aby obliczyć średnią i odchylenie standardowe obserwowanych obiektów.

porównanie szacunkowych i pierwotnych częstości haplotypów populacji wykazało średnią odległość \( d=0,11\pm 0.,02 \), a średnia maksymalna różnica bezwzględna wynosi \(\Delta =\left (4\pm 1 \ right) \ times {10}^{-3} \). Średnia ranga dla pierwszego haplotypu o względnym odchyleniu większym niż 0,05 wynosiła \ (\Rho =14\pm 6\). W porównaniu z pierwszym testem te większe wartości tłumaczy się występowaniem kodów NMDP, które wprowadzają dodatkowe allele i tym samym maskują rzeczywiste allele., Utrudnia to identyfikację haplotypów poprzez zwiększenie liczby haplotypów nie występujących w pierwotnym zestawie populacji („dodatkowe haplotypy”) i haplotypów występujących tylko w pierwotnym zestawie populacji („brakujące haplotypy”). Oczekuje się, że liczba dodatkowych haplotypów będzie większa niż liczba brakujących, ponieważ kod NMDP zastępuje tylko jeden allel, ale może dać kilka innych po dekodowaniu., W dziesięciu powtórzeniach drugiego testu średnio \ (314 \ pm 98\) (\(\left (25\ pm 8 \ right)\%\)) haplotypy były „dodatkowe”, A \ (50 \ pm 18\) (\(\left (4\ pm 1 \ right)\%\)) „brakujące”. Te haplotypy przyczyniły się do różnicy między szacowaną i populacyjną częstością występowania haplotypów. Wyłączenie dodatkowych i brakujących haplotypów z obliczenia odległości uzyskanej \ (d=0,028 \ pm 0,007 \).

pierwotna populacja i szacowana częstość występowania przedstawiono na Rys. 2a., Ponieważ dodatkowe haplotypy mają pierwotną częstotliwość populacji \ ({h} _k=0 \), a brakujące haplotypy mają szacunkową częstotliwość \ ({h}_k=0\), dodatkowe i brakujące haplotypy nie są pokazane na Rys. 2a lub w kolejnych działkach log-log. Duże odchylenia w częstości haplotypów były spowodowane występowaniem kodów NMDP. Jeśli haplotyp zawierał allel, który był maskowany przez kod NMDP, jego szacowana częstotliwość była zmniejszona. Jeśli natomiast haplotyp zawierał dodatkowe allele z kodu NMDP, jego szacowana częstotliwość wzrastała., Tylko w nielicznych przypadkach przyrost częstotliwości z dodatkowych alleli jest przenoszony na haplotypy już obecne w pierwotnych danych populacyjnych. Z tego powodu na ryc. 2a. jednak utrata częstotliwości z maskowanych alleli należących do haplotypów obecnych w oryginalnych danych populacyjnych powoduje niedoszacowanie, jak stwierdzono na Rys. 2A. haplotypy, które nie dzieliły alleli za pomocą kodów NMDP, wykazywały jedynie niewielkie odchylenia między pierwotną populacją a szacowaną częstością.,

rys. 2

Haplotype frequencies from artificial population data. Wykres a pokazuje haplotype frequencies estimated via Hapl-o-Mat compared to original population frequencies from the first population model including genotyping ambiguities. Tylko jeden z dziesięciu biegów jest zilustrowany. Wykres b pokazuje porównanie pomiędzy pierwotną populacją haplotypów częstotliwości i częstotliwości szacowanych przez Arlekin i Hapl-o-Mat na podstawie drugiego modelu populacji., Ze względu na skale logarytmiczne, oba wykresy nie wykazują dodatkowych lub brakujących haplotypów

fakt, że niektóre szacowane częstotliwości haplotypów mają stałe przesunięcie w stosunku do ich pierwotnej częstości populacji wynika z dzielenia alleli znalezionych w tym samym kodzie NMDP. Częstotliwość jest zmniejszana proporcjonalnie do liczby dodatkowych alleli wyłaniających się z kodu NMDP. W konsekwencji częstość haplotypów, w tym alleli z tego samego kodu NMDP, zmniejsza się o ten sam czynnik.,

drugi model populacji

druga populacja została zbudowana przez konstruowanie genotypów z losowo łączących się dwóch haplotypów zgodnie z ich rozkładem częstotliwości, jak wyjaśniono w dodatkowym pliku 3. Statystyka wielkości efektu uśredniona dla wszystkich loci dla tej populacji wynosiła \ ({w} _n=3.0 \ times {10}^{-3}\), co wskazuje na brak znaczącej dewacji od HWE. Obliczyliśmy częstotliwości haplotypów z tych danych populacyjnych za pomocą Arlekina i Hapl-o-Mat. Szacunkowe i pierwotne częstość haplotypów populacji przedstawiono na ryc. 2B. odpowiednie obserwacje przedstawiono w tabeli 2., Obie implementacje sprawdziły się równie dobrze, wykazując poprawną implementację Hapl-o-Mat. Jednakże, w przeciwieństwie do pierwszego modelu populacji, odchylenia między szacowaną i pierwotną częstością występowania populacji były znacznie większe zarówno dla Arlekina, jak i Hapl-o-Mata. Wynikało to z zastosowania algorytmu EM do danych o dużej różnorodności genotypów. Ponieważ dane składały się tylko z \ (n=50.000\) osobników, ale obejmowały \( 41.489 \) różnych genotypów, algorytm EM nie był w stanie dokładnie odtworzyć pierwotnej populacji haplotypu rozkładu częstotliwości., Z tego powodu Arlekin i Hapl-o-Mat, oba oparte na algorytmie EM, wykazały podobne odchylenia między szacowaną i pierwotną częstością populacji, jak zaobserwowano na Rys. 2b.

prawdziwe próbki danych

rys. 3

porównanie częstości haplotypów szacowanych za pomocą Arlekina i Hapl-o-Mat z jednej próbki rzeczywistych danych populacyjnych., Ze względu na skale logarytmiczne Wykres nie pokazuje dodatkowych lub brakujących haplotypów

wydajność obliczeniowa

oceniliśmy Hapl-o-Mat pod względem wydajności obliczeniowej, mierząc jego czas działania dla różnych ilości danych wejściowych i różnych rozdzielczości docelowych. Wszystkie obliczenia zostały wykonane przy użyciu komputera z systemem Ubuntu Linux 14.04.5 z 768 GB PAMIĘCI RAM (choć nigdy nie został wyczerpany) i 32 rdzeniami Intel® Xeon® CPU E5-2630 v3 o częstotliwości 2,40 GHz., Jednak Hapl-o-Mat nie korzysta z równoległości, stąd wszystkie środowiska runtime są w odniesieniu do jednego rdzenia.

czas trwania szacowania częstości haplotypów przez Hapl-o-Mat Z N=1,825,721 osób z samooceną pochodzenia niemieckiego wynosił \( t\ok.11,4 \)h z grupami g jako rozdzielczość docelową.

rys., 4

średnie czasy pracy z odchyleniem standardowym Hapl-o-Mat dla różnych rozmiarów próbek i różnych grup alleli docelowych, w tym grup g, P I G

w kolejności aby porównać wyniki pomiędzy arlekinem i hapl-o-mat, powtórzyliśmy oszacowanie częstotliwości haplotypu na podstawie rzeczywistych danych populacyjnych. Zmieniliśmy Rozmiar próbki między \ (N = 5000 \), \ (N = 20 000\) i \ (N = 50 000\) i podobnie uwzględniono tylko próbki z jednoznacznym 2-polowym tłumaczeniem., Uśrednianie obu implementacji w ciągu dziesięciu uruchomień na tej samej maszynie dało czasy wykonania podane w tabeli 3. Szczególnie w przypadku dużych rozmiarów próbek Hapl-o-Mat był znacznie szybszy, wykazując jego skuteczne wdrożenie.

Table 3 Average runtimes of Arlequin and Hapl-o-Mat for estimation of haplotype frequencies from real population data

we also assessed hapl-O-Mat ' s abilities to radzenia sobie z niejednorodnym i niejednoznacznym charakterem typowania rekordów., Zarejestrowaliśmy zużycie czasu pracy i pamięci na opisanej powyżej maszynie, zmieniając udział kodów NMDP, które wprowadziliśmy w danych populacji genotypu dla pierwszego modelu populacyjnego w taki sam sposób, jak opisano powyżej, dla różnej frakcji maskowanych alleli z 2,5% do 50%. Hapl-o-Mat z jego niejednoznaczność filtr używać te dwuznaczności, tłumaczyć wynikowy alleles z powrotem do g grupy i obliczać haplotype częstotliwość. Powtórzyliśmy tę procedurę dziesięć razy, aby obliczyć średnie i standardowe odchylenie zastosowań pamięci i czasów działania. Wyniki są wizualizowane na Rys. 5.,

rys. 5

wydajność Hapl-o-Mat w odniesieniu do zróżnicowanego udziału rekordów typowania zawierających kody NMDP. Wykres a pokazuje średnie zużycie pamięci z odchyleniami standardowymi i wykres B średnie czasy pracy z odchyleniami standardowymi dla obu; przetwarzanie danych i oszacowanie częstotliwości haplotypów

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *