Me validoitu Hapl-o-Mat tarkistamalla sen arvioitu haplotyyppi taajuudet oikeellisuudesta. Koska kääntäminen välillä alleeli päätöslauselmia ja ratkaista genotyypin epäselvyyksiä ei tue muita ohjelmisto haplotyyppi taajuus arvio, seurasimme kaksi lähestymistapaa., Ensinnäkin validoimme Hapl-o-Mat: n keinotekoisia HLA-väestötietoja vastaan, mukaan lukien erilaiset kirjoitustarkkuudet ja genotyyppien epäselvyydet. Tällaisilla keinotekoisilla populaatioilla haplotyyppitaajuudet tunnettiin rakenteittain. Kun koko väestön tiedot input näyte, me käytetään Hapl-o-Mat ratkaista genotyypin tietoja ja jäljentää haplotyyppi taajuuksilla. Toiseksi vertailimme Hapl-o-Matista saatuja tuloksia helppokäyttöisen ja vakiintuneen Arlequin-ohjelmiston tuloksiin ., Käytimme oikeita näytteitä dkms: n luovuttajakeskuksen ja keinotekoisten väestötietojen kirjoittamisesta molempien toteutusten syötteenä. Lisäksi arvioimme Hapl-o-Mat: n laskennallista suorituskykyä yleisesti ja verrattuna Arlekiiniin. Kaikkien validointikokeiden kohderesoluutio on g-ryhmät, ellei toisin mainita.
Varten havaittavuutta vertailla haplotyyppi taajuudet ja rakentamiseen keinotekoinen väestön, katso Menetelmät Lisää tiedosto 3. Kaikki tulokset on koottu taulukkoon 2.,
Ensimmäinen väestö-malli
ensimmäinen keinotekoinen väestöstä oli rakennettu kombinatoriset rakentaminen genotyypit kaikkia mahdollisia yhdistelmiä \( 1,000 \) yleisin saksan haplotyypit korvaavan, kuten Tiedostojen 3. Väestö oli lähes täydellinen HWE kuten vaikutus koko tilasto \( {W}_n=6.65\times {10}^{-8} \). Tarkista käännöksiä kirjoittamalla päätöslauselmat Hapl-o-Mat, me korvata kirjoittamalla tulokset tulokset korkeampi kirjoittamalla päätöslauselman, joka sisältää alkuperäisen kirjoittamisen tulos, esim., jokainen esiintyminen C*16:04 oli satunnaisesti korvata C*16:04:01, C*16:04:03, tai C*16:04P tai vasemmalle ennallaan C*16:04. Käytimme Hapl-o-Mat kääntää muutettu kirjoittamalla päätöslauselmia takaisin g-ryhmien ja arvioida haplotyyppi taajuuksilla. Etäisyys arvioitu ja alkuperäinen väestö haplotyyppi taajuudet oli \( d=1.3\times {10}^{-4} \), suurin absoluuttinen ero oli \( \Delta =9.04\times {10}^{-7} \), ja ei suhteellinen poikkeama suurempi kuin 0,05 löytynyt. Nämä tulokset osoittivat alkuperäisen populaation haplotyypin esiintymistiheyden lisääntymistä., Tarkka kopiointi ei ole odotettavissa, kuten lähentämällä genotyypin taajuudet, joita kokonaisluku numerot väestön tiedot pakenee liukuluku tarkkuus.
vahvista arvio haplotyyppi taajuuksia genotyypin tiedot, mukaan lukien genotyypin epäselvyyksiä, me käyttöön, toinen testi, NMDP-koodit genotyyppi väestön tiedot. Tätä varten korvasimme satunnaisesti 5% kirjoitustuloksista NMDP-koodeilla. Koodit olivat valittu satunnaisesti, lukuun ottamatta vaatimuksia, jos haluat liittää alkuperäisen kirjoittamisen ja on ilmestynyt alkuperäinen todellinen väestön tiedot., Esimerkiksi kaikki alleeleja kirjoitetaan kuten*31:01-g oli korvannut kanssa*31:VSCB, joka koodaa*31:01,*31:41 ja*31:68 saatiin kaksi uutta alleelia (A*31:01 kääntää*31:01 g). Hapl-o-Mat sen epäselvyys suodatin oli tapana ratkaista nämä epäselvyydet, kääntää tuloksena alleeleja takaisin g-ryhmien, ja laskea haplotyyppi taajuuksilla. Toistimme tämän menettelyn kymmenen kertaa laskea keskiarvo ja keskihajonta observables.
arvioidun ja alkuperäisen populaation haplotyypin taajuuksien vertailu osoitti keskimääräisen etäisyyden \( d=0, 11\pm 0.,02 \), ja keskimääräinen maksimaalinen absoluuttinen ero \( \Delta =\left(4\pm 1\right)\times {10}^{-3} \). Keskimääräinen sijoitus ensimmäinen haplotyyppi suhteellinen poikkeama on suurempi kuin 0.05 oli \( \rho =14\pm 6 \). Verrattuna ensimmäisen testin, nämä suuremmat arvot selittyvät esiintyminen NMDP-koodit, jotka käyttöön uusia alleeleja ja siten peittää todellisen alleeleja., Tämä hämärtää tunnistaminen haplotyypit määrää lisäämällä haplotyypit ole läsnä alkuperäinen väestö set (”muut haplotyypit”) ja haplotyypit läsnä vain alkuperäisen väestön set (”puuttuu haplotyypit”). Useita muita haplotyypit odotetaan olevan suurempi kuin määrä kadonneita, koska NMDP-koodi korvaa vain yksi alleeli, mutta voi tuottaa useita muita, kun dekoodata., Kymmenen toistoa toinen testi, keskimäärin \( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) haplotyypit olivat ”ylimääräisiä” ja \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) ”puuttuu”. Nämä haplotyypit tehty merkittävästi eroa on arvioiduilla ja väestön haplotyyppi taajuuksilla. Ilman ylimääräisiä ja puuttuvia haplotyypit alkaen etäisyyden laskeminen tuotti \( d=0.028\pm 0.007 \).
alkuperäinen populaatio ja arvioidut esiintymistiheydet on esitetty kuvassa. 2 a., Ylimääräisenä haplotyypit ovat alkuperäisen väestön taajuus \( {s}_k=0 \) ja puuttuu haplotyypit on arvioitu taajuus \( {s}_k=0 \), ylimääräiset ja puuttuvat haplotyypit eivät ole kuvassa. 2A tai tulevissa hirsitonteissa. Suurimmat poikkeamat haplotyypin taajuuksilla johtuivat NMDP-koodien esiintymisestä. Jos haplotyyppiin kuului alleeli, joka oli naamioitu NMDP-koodilla, sen arvioitu esiintymistiheys pieneni. Jos taas haplotyyppi sisälsi lisää ALLEELEITA NMDP-koodista, sen arvioitu esiintymistiheys kasvoi., Vain harvat tapauksissa, taajuus saada uusia alleeleja on siirretty haplotyypit on jo läsnä alkuperäisen väestön tiedot. Tästä syystä, lähes yliarviointi haplotyyppi taajuudet (arvioitu taajuus suurempi kuin alkuperäinen väestö taajuus) esiintyy Kuvassa. 2a. Kuitenkin, taajuus tappio naamioitu alleeleja, jotka kuuluvat haplotyypit läsnä alkuperäisen väestön tiedot johtaa aliarvioimiseen löytyy Kuva. 2a. Haplotyypeissä, jotka eivät jakaneet alleeleita NMDP-koodien kautta, havaittiin vain vähäisiä poikkeamia alkuperäisen populaation ja arvioitujen taajuuksien välillä.,
se, että jotkut arvioitu haplotyyppi taajuudet ovat jatkuvasti offset osalta niiden alkuperäisen väestön taajuus seuraa jakaminen alleeleja löytyi samassa NMDP-koodi. Taajuudet vähenevät suhteessa nmdp-koodista nousevien muiden alleelien määrään. Tämän seurauksena haplotyyppien, mukaan lukien alleelit samasta NMDP-koodista, taajuudet vähenevät samalla tekijällä.,
Toinen väestön malli
toisen väestöstä oli rakennettu rakentamalla genotyypit satunnaisesti yhdistämällä kaksi haplotyypit mukaan niiden taajuus jakelu kuten edellä Lisää tiedosto 3. Vaikutus koko tilasto keskimäärin yli kaikki lokukset tämä väestö oli \( {W}_n=3.0\times {10}^{-3} \) osoittaa, että mitään merkittävää devation alkaen HWE. Me lasketaan haplotyyppi taajuuksia nämä väestötietoja käyttämällä Arlequin ja Hapl-o-Mat. Arvioitu ja alkuperäinen populaation haplotyyppitaajuus on esitetty kuvassa. 2b. vastaavat havainnoitavat esitetään taulukossa 2., Molemmat toteutukset toimivat yhtä hyvin, mikä osoittaa Hapl-o-Mat: n oikean toteutuksen. Kuitenkin, toisin kuin ensimmäinen väestöstä malli, tasevastaavan arvioitu ja alkuperäinen väestö taajuudet olivat paljon suurempia sekä Arlequin ja Hapl-o-Mat. Tämä johtui em-algoritmin soveltamisesta dataan, jossa on paljon genotyyppien monimuotoisuutta. Koska aineisto koostui vain \( N=50,000 \) henkilöitä, mutta mukana \( 41,489 \) eri genotyyppien EM-algoritmi ei osaa tuottaa täsmälleen alkuperäisen väestön haplotyyppi taajuus jakelu., Tästä syystä Arlequin ja Hapl-o-Mat, molemmat perustuvat EM-algoritmi, osoittivat samanlaisia poikkeamia välillä arvioitu ja alkuperäinen väestö taajuuksia kuin havaittu Kuva. 2b.
Todellisia tietoja näytteitä
Laskennallinen suorituskyky
arvioida, Hapl-o-Mat kannalta laskennallisen suorituskykyä mittaamalla sen runtime eri määriä lähtötiedot ja eri kohde päätöslauselmia. Kaikki laskelmat tehtiin käyttäen tietokone käynnissä Ubuntu Linux 14.04.5 kanssa 768 GT RAM-muistia (vaikka tämä ei koskaan käytetty), sekä 32 Intel® Xeon® – SUORITTIMEN E5-2630 v3 ydintä 2.40 GHz., Kuitenkin, Hapl-o-Mat ei käytä rinnakkaisuus, joten kaikki runtime on viittaus yhden ytimen.
runtime arvioitaessa haplotyyppi taajuuksien Hapl-o-Mat N=1,825,721 yksilöiden itsearviointi, saksalaista alkuperää oli \( t\n. 11.4 \)h g ryhmiin kuin kohde-päätöslauselman.
jotta voitaisiin vertailla suorituskykyä välillä Arlequin ja Hapl-o-Mat, me toistuva haplotyyppi taajuus arvio todellista väestön tiedot. Olemme monipuolinen otoskoko välillä \( N=5,000 \), \( N=20,000 \) ja \( N=50,000 \) ja samoin mukana vain näytteitä, joiden yksiselitteinen 2-kenttä käännös., Keskimäärin molemmat toteutukset yli kymmenen toimii sama kone tuotti runtimes kuten Taulukossa 3. Erityisesti suurten otoskokojen osalta Hapl-o-Mat oli huomattavasti nopeampi osoitus sen tehokkaasta toteuttamisesta.
– Meillä on myös arvioitu Hapl-o-Mat on kykyjä selviytyä heterogeeninen ja epäselvä luonne kirjoittamalla kirjaa., Nauhoitimme runtime ja muistin käyttö koneen kuvattu edellä kuten me vaihteli osuus NMDP-koodit käyttöön genotyypin populaation tiedot ensimmäisen väestö malli samalla tavalla kuin edellä on kuvattu eri osa naamioitu alleeleja 2,5%: sta 50%. Hapl-o-Mat sen epäselvyys suodatin oli tapana ratkaista nämä epäselvyydet, kääntää tuloksena alleeleja takaisin g-ryhmien, ja laskea haplotyyppi taajuuksilla. Toistimme tämän menettelyn kymmenen kertaa laskemaan muistin käyttöaikojen ja juoksuaikojen keskiarvon ja keskihajonnan. Tulokset visualisoidaan Kuvassa. 5.,