we validated Hapl-o-Mat by checking its estimated haplotype frequency for correction. Ponieważ tłumaczenie pomiędzy rozdzielczością alleli i rozwiązywaniem niejednoznaczności genotypów nie jest wspierane przez inne oprogramowanie do oceny częstotliwości haplotypów, zastosowaliśmy dwa podejścia., Po pierwsze, zwalidowaliśmy Hapl-o-Mat przeciwko sztucznym danych populacji HLA, w tym różnych rozdzielczości typowania i genotypowania niejednoznaczności. Dla takich sztucznych populacji częstość haplotypów była znana na budowę. Biorąc pełne dane populacyjne jako próbkę wejściową, użyliśmy Hapl-o-Mat, aby rozwiązać dane o genotypie i odtworzyć częstotliwości haplotypów. Po drugie, porównaliśmy wyniki uzyskane z Hapl-o-Mat do wyników z łatwego w użyciu i dobrze znanego oprogramowania Arlequin ., Jako dane wejściowe dla obu implementacji wykorzystaliśmy prawdziwe próbki wpisywania rekordów z DKMS donor center oraz sztuczne dane populacyjne. Ponadto oceniliśmy wydajność obliczeniową Hapl-o-Mat w ogóle i w porównaniu do Arlequina. Rozdzielczość docelowa dla wszystkich eksperymentów walidacyjnych to grupy g, chyba że zaznaczono inaczej.
aby móc porównywać częstotliwości haplotypów i budowę sztucznych populacji, zobacz metody w dodatkowym pliku 3. Wszystkie wyniki podsumowano w tabeli 2.,
pierwszy model populacji
pierwsza sztuczna populacja została zbudowana przez kombinatoryczną budowę genotypów ze wszystkich możliwych kombinacji najczęstszych haplotypów niemieckich z zastąpieniem, jak wyjaśniono w dodatkowym pliku 3. Populacja była w prawie idealnym HWE, na co wskazuje statystyka wielkości efektu \ ({w} _n=6,65 \ razy {10}^{-8} \). Aby sprawdzić tłumaczenia pomiędzy rozwiązaniami typowania Hapl-o-Mat, zastąpiliśmy wyniki typowania wynikami w wyższej rozdzielczości typowania, włączając w to oryginalny wynik typowania, np., każde wystąpienie C*16:04 zostało losowo zastąpione przez C*16:04:01, C*16:04:03 lub C*16:04P lub pozostawione bez zmian jako C*16:04. Użyliśmy Hapl-o-Mat do przetłumaczenia zmodyfikowanych rozdzielczości typowania z powrotem na grupy g i oszacowania częstotliwości haplotype. Odległość między szacowaną i pierwotną populacją haplotypów wynosiła \ (d=1,3 \ razy {10}^{-4} \), maksymalna różnica bezwzględna wynosiła \ (\Delta =9,04 \ razy {10}^{-7} \), i nie stwierdzono względnego odchylenia większego niż 0,05. Wyniki te wskazywały na reprodukcję pierwotnych częstości haplotypów populacji., Dokładna reprodukcja nie może być oczekiwana, ponieważ przybliżenie częstości genotypu liczbami całkowitymi w danych populacyjnych wymyka się precyzji zmiennoprzecinkowej.
aby zweryfikować oszacowanie częstości haplotypów na podstawie danych o genotypie, w tym wieloznaczności genotypowania, wprowadziliśmy, w drugim teście, kody nmdp do danych o populacji genotypu. W tym celu losowo zastąpiliśmy 5% wyników wpisywania kodami NMDP. Kody zostały wybrane losowo, z wyjątkiem wymagań, aby uwzględnić oryginalne typowanie i aby pojawiły się w oryginalnych rzeczywistych danych dotyczących populacji., Na przykład wszystkie allele wpisane jako a*31:01 g zostały zastąpione przez a*31:VSCB, które koduje A*31:01, a*31:41 i a*31:68 dając dwa dodatkowe allele (a*31:01 przekłada się na A*31:01 g). Hapl-o-Mat z jego niejednoznaczność filtr używać te dwuznaczności, tłumaczyć wynikowy alleles z powrotem do g grupy i obliczać haplotype częstotliwość. Powtórzyliśmy tę procedurę dziesięć razy, aby obliczyć średnią i odchylenie standardowe obserwowanych obiektów.
porównanie szacunkowych i pierwotnych częstości haplotypów populacji wykazało średnią odległość \( d=0,11\pm 0.,02 \), a średnia maksymalna różnica bezwzględna wynosi \(\Delta =\left (4\pm 1 \ right) \ times {10}^{-3} \). Średnia ranga dla pierwszego haplotypu o względnym odchyleniu większym niż 0,05 wynosiła \ (\Rho =14\pm 6\). W porównaniu z pierwszym testem te większe wartości tłumaczy się występowaniem kodów NMDP, które wprowadzają dodatkowe allele i tym samym maskują rzeczywiste allele., Utrudnia to identyfikację haplotypów poprzez zwiększenie liczby haplotypów nie występujących w pierwotnym zestawie populacji („dodatkowe haplotypy”) i haplotypów występujących tylko w pierwotnym zestawie populacji („brakujące haplotypy”). Oczekuje się, że liczba dodatkowych haplotypów będzie większa niż liczba brakujących, ponieważ kod NMDP zastępuje tylko jeden allel, ale może dać kilka innych po dekodowaniu., W dziesięciu powtórzeniach drugiego testu średnio \ (314 \ pm 98\) (\(\left (25\ pm 8 \ right)\%\)) haplotypy były „dodatkowe”, A \ (50 \ pm 18\) (\(\left (4\ pm 1 \ right)\%\)) „brakujące”. Te haplotypy przyczyniły się do różnicy między szacowaną i populacyjną częstością występowania haplotypów. Wyłączenie dodatkowych i brakujących haplotypów z obliczenia odległości uzyskanej \ (d=0,028 \ pm 0,007 \).
pierwotna populacja i szacowana częstość występowania przedstawiono na Rys. 2a., Ponieważ dodatkowe haplotypy mają pierwotną częstotliwość populacji \ ({h} _k=0 \), a brakujące haplotypy mają szacunkową częstotliwość \ ({h}_k=0\), dodatkowe i brakujące haplotypy nie są pokazane na Rys. 2a lub w kolejnych działkach log-log. Duże odchylenia w częstości haplotypów były spowodowane występowaniem kodów NMDP. Jeśli haplotyp zawierał allel, który był maskowany przez kod NMDP, jego szacowana częstotliwość była zmniejszona. Jeśli natomiast haplotyp zawierał dodatkowe allele z kodu NMDP, jego szacowana częstotliwość wzrastała., Tylko w nielicznych przypadkach przyrost częstotliwości z dodatkowych alleli jest przenoszony na haplotypy już obecne w pierwotnych danych populacyjnych. Z tego powodu na ryc. 2a. jednak utrata częstotliwości z maskowanych alleli należących do haplotypów obecnych w oryginalnych danych populacyjnych powoduje niedoszacowanie, jak stwierdzono na Rys. 2A. haplotypy, które nie dzieliły alleli za pomocą kodów NMDP, wykazywały jedynie niewielkie odchylenia między pierwotną populacją a szacowaną częstością.,