Mi érvényesített Hapl-o-Mat által ellenőrzése a becsült egy frekvenciát a korrektség. Mivel az allélfelbontások és a genotipizálási kétértelműségek közötti fordítást nem támogatja más szoftver a haplotípusfrekvencia-becsléshez, két megközelítést követtünk., Először a hapl-o-Mat-ot ellenőriztük a mesterséges HLA populációs adatokkal szemben, beleértve a különböző gépelési felbontásokat és a genotipizálási kétértelműségeket. Az ilyen mesterséges populációk esetében a haplotípus frekvenciái konstrukciónként ismertek voltak. A teljes populációs adatokat beviteli mintaként felhasználva hapl-o-Mat-et használtunk a genotípusadatok megoldására és a haplotípus frekvenciák reprodukálására. Másodszor, összehasonlítottuk a hapl-o-Mat-től kapott eredményeket a könnyen használható, jól bevált Arlequin szoftver eredményeivel ., A DKMS donor center gépelési rekordjainak valódi mintáit, valamint a mesterséges populációs adatokat használtuk mindkét megvalósítás bemeneteként. Továbbá a hapl-o-Mat számítási teljesítményét általánosságban, az Arlequin-hez képest értékeltük. Az összes validációs kísérlet célfelbontása G csoport, hacsak másként nem jelezzük.

a haplotípus gyakoriságának összehasonlítására és a mesterséges populációk felépítésére szolgáló megfigyeléseknél lásd a 3. Kiegészítő fájlban található módszereket. Az összes eredményt a 2. táblázat foglalja össze.,

Első népesség modell

Az első mesterséges lakosság által épített kombinatorikus építési genotípusok az összes lehetséges kombináció a \( 1,000 \) leggyakoribb német haplotypes a csere, amint azt a További fájl 3. A populáció szinte tökéletes HWE-ben volt, amint azt a \( {w}_n=6, 65\times effect size statisztika jelzi {10}^{-8} \). A hapl-o-Mat gépelési felbontásai közötti fordítások ellenőrzéséhez a gépelési eredményeket nagyobb gépelési felbontással helyettesítettük, beleértve az eredeti gépelési eredményt is, például, a C*16:04 minden előfordulását véletlenszerűen C*16:04:01, C*16:04:03 vagy C*16:04P váltotta fel, vagy változatlanul hagyta C*16:04-ként. Hapl-o-Mat-ot használtunk a módosított gépelési felbontások g-csoportokba történő lefordítására, valamint a haplotípus frekvenciáinak becslésére. A becsült és az eredeti populációs haplotípus frekvenciák közötti távolság \( d = 1,3 \ – szor {10}^{-4} \), a maximális abszolút különbség \ (\Delta = 9.04 \ times {10}^{-7} \), 0,05-nél nagyobb relatív eltérést nem találtak. Ezek az eredmények az eredeti populációs haplotípus gyakoriságának reprodukcióját mutatták., Pontos reprodukció nem várható, mivel a genotípus frekvenciáinak egész számokkal történő közelítése a populációs adatokban elkerüli a lebegőpontos pontosságot.

a genotípus-adatokból származó haplotípus-frekvenciák becslésének validálásához, beleértve a genotípus-kétértelműségeket is, egy második tesztben bevezettük az nmdp kódokat a genotípus-populációs adatokhoz. Ebből a célból véletlenszerűen helyettesítettük a gépelési eredmények 5% – át NMDP kódokkal. A kódokat véletlenszerűen választották ki, kivéve azokat a követelményeket, amelyek magukban foglalják az eredeti gépelést, valamint hogy megjelenjenek az eredeti valós populációs adatokban., Például az összes*31:01 g-ként begépelt allélt egy*31:VSCB-vel helyettesítették, amely a*31:01, A*31:41 és a*31:68 kódol két további allélt (A*31:01 fordítja a*31:01 g-ra). Hapl-o-Mat a kétértelműség szűrő használták, hogy megoldja ezeket a kétértelműséget, lefordítani a kapott allélek vissza a g csoportok, valamint a számítási egy frekvencián. Ezt az eljárást tízszer ismételtük meg, hogy kiszámítsuk a megfigyelések átlagát és szórását.

a becsült és az eredeti populációs haplotípus frekvenciák összehasonlítása \ (d = 0,11 \ pm 0.,02\), és egy átlagos maximális abszolút különbség \ (\Delta = \ Bal (4 \ pm 1 \ jobb) \ alkalommal {10}^{-3} \). Az első haplotípus átlagos rangja 0,05-nél nagyobb relatív eltéréssel \( \Rho =14\pm 6\) volt. Az első teszthez képest ezeket a nagyobb értékeket az nmdp kódok előfordulása magyarázza, amelyek további allélokat vezetnek be, így elfedik a valódi allélokat., Ez eltakarja a azonosítását haplotypes számának növelésével a haplotypes nincs jelen az eredeti lakosság meg (“további haplotypes”), valamint haplotypes csak a jelen az eredeti lakosság meg (“hiányzó haplotypes”). A további haplotípusok száma várhatóan nagyobb lesz, mint a hiányzók száma, mivel az NMDP kód csak egy allélt helyettesít, de dekódoláskor több más is megjelenhet., A második teszt tíz ismétlésében átlagosan \ (314 \ pm 98 \) (\(\left( 25\pm 8\right)\%\)) a haplotípusok “kiegészítő” és \ (50\pm 18\) (\(\left (4\pm 1\right)\%\)) “hiányzó”voltak. Ezek a haplotípusok nagyban hozzájárultak a becsült és a populációs haplotípus gyakorisága közötti különbséghez. További és hiányzó haplotípusok kizárása A \( d=0,028\pm 0,007\) távolság kiszámításából.

az eredeti populációt és a becsült gyakoriságot az ábra mutatja. 2a., Mivel a további haplotípusok eredeti populációs gyakorisága \ ({h}_k = 0 \) és a hiányzó haplotípusok becsült gyakorisága \( {h}_k=0 \), további és hiányzó haplotípusok nem jelennek meg az ábrán. 2a vagy további log-log telkek jönni. A haplotípus-frekvenciák jelentős eltérései az NMDP-kódok előfordulásának következményei voltak. Ha a haplotípus tartalmaz egy allélt, amelyet egy NMDP-kód elfed, becsült gyakorisága csökkent. Ha viszont egy haplotípus további allélokat tartalmazott egy NMDP-kódból, becsült gyakorisága nőtt., Csak néhány esetben a további allélokból származó gyakorisági nyereség átkerül az eredeti populációs adatokban már jelen lévő haplotípusokra. Ezért a haplotípus gyakoriságának (az eredeti populációs frekvenciánál nagyobb becsült gyakoriság) szinte semmilyen túlbecsülése nem fordul elő az ábrán. 2a. az eredeti populációs adatokban jelen lévő haplotípusokhoz tartozó álarcos allélok gyakorisági vesztesége azonban alulbecsülést eredményez, amint azt az ábra mutatja. 2a. a haplotípusok, amelyek az nmdp-kódokon keresztül nem osztották meg az allélokat, csak kisebb eltéréseket mutattak az eredeti populáció és a becsült frekvenciák között.,

ábra. 2

haplotípus gyakorisága mesterséges populációs adatokból. Telek mutatja, egy frekvencián becsült keresztül Hapl-o-Mat képest eredeti lakosság frekvencia az első népesség modell, beleértve a genetikai kétértelműséget. Csak egy tíz fut illusztrált. A b ábra az Arlequin és Hapl-o-Mat által becsült eredeti populációs haplotípus gyakoriságok és gyakoriságok összehasonlítását mutatja a második populációs modell alapján., Mivel a logaritmikus skála, mind a telkek sem mutatni, sem további hiányzó haplotypes

A tény, hogy egyes becslések szerint egy frekvencia van egy állandó ellensúlyozni a tekintetben, hogy az eredeti lakosság frekvencia követi a megosztási allélek talált ugyanabban a NMDP kódot. A frekvenciákat az NMDP-kódból származó további allélok számával arányosan csökkentik. Következésképpen a haplotípusok frekvenciáit, beleértve az azonos NMDP-kódból származó allélokat, ugyanaz a tényező csökkenti.,

második populációs modell

a második populációt úgy alakították ki, hogy a két haplotípus véletlenszerű kombinálásával genotípusokat alakítottak ki frekvenciaeloszlásuk szerint, a 3. Kiegészítő fájlban leírtak szerint. A hatás mérete statisztika átlagolt minden loci ebben a populációban volt \ ({W}_n = 3,0 \ times {10}^{-3} \) jelezve nincs jelentős devation HWE. Ezekből a populációs adatokból számoltuk ki a haplotípus gyakoriságát Arlequin és Hapl-o-Mat segítségével. A becsült és eredeti populációs haplotípus gyakoriságát az ábra mutatja. 2b. a megfelelő megfigyeléseket a 2. táblázat tartalmazza., Mindkét implementáció egyformán jól teljesített, bemutatva a hapl-o-Mat helyes végrehajtását. Az első populációs modellel ellentétben azonban az Arlequin és a Hapl-o-Mat esetében a becsült és az eredeti populációs frekvenciák közötti eltérések sokkal nagyobbak voltak. Ennek eredményeként az EM algoritmust nagy mennyiségű genotípus sokféleséggel rendelkező adatokra alkalmazták. Mivel az adatok csak \( N=50 000 \) egyénekből álltak, de tartalmaztak \( 41 489 \) különböző genotípusokat, az EM algoritmus nem tudta pontosan reprodukálni az eredeti populáció haplotípus frekvenciaeloszlását., Ezért az Arlequin és a Hapl-o-Mat, mindkettő az EM algoritmuson alapul, hasonló eltéréseket mutatott a becsült és az eredeti populációs frekvenciák között, amint azt az ábra mutatja. 2b.

valós adatminták

ábra. 3

az Arlequin és Hapl-o-Mat által becsült haplotípus gyakoriságok összehasonlítása a valós populációs adatok egy mintájából., Mivel a logaritmikus skála, a cselekmény sem mutatja kiegészítő sem hiányzik haplotypes

Számítási teljesítmény

értékeltük Hapl-o-Mat szempontjából számítási teljesítmény mérése a runtime különböző mennyiségű input adatok, valamint a különböző cél állásfoglalások. Az összes számítást egy Ubuntu Linux 14.04.5 operációs rendszert futtató számítógéppel végezték, 768 GB RAM-mal (bár ez soha nem volt kimerült), valamint 32 Intel® Xeon® CPU E5-2630 v3 magot 2,40 GHz-en., A Hapl-o-Mat azonban nem használja a párhuzamosságot, ezért minden futási idő egyetlen magra utal.

a haplotípus frekvenciáinak Hapl-o-Mat által n=1,825,721, önértékelt német eredetű személy által történő becslésének futási ideje \ (t \ kb. 11.4 \)h volt, g csoportokkal pedig célfelbontásként.

ábra., 4

Átlagos futásidejével kapcsolatosan a szórása Hapl-o-Mat különböző méretben kapható, illetve más cél allél csoportok, beleértve a g, P, G csoport

ahhoz, hogy hasonlítsa össze a teljesítmény között Arlequin pedig Hapl-o-Mat, megismételtük az egy frekvencia becslést a valós népességi adatok. A minta méretét \( N=5000 \), \( N=20 000\) és \( N=50 000 \) között változtattuk, és hasonlóképpen csak kétmezős egyértelmű fordítással rendelkező mintákat tartalmaztunk., Mindkét implementáció átlagolása ugyanazon a gépen tíz futáson keresztül futási időt eredményezett, amint azt a 3.táblázat tartalmazza. Különösen a nagy mintaméretek esetében a Hapl-o-Mat lényegesen gyorsabban bizonyította hatékony végrehajtását.

3. Táblázat Átlagos futásidejével kapcsolatosan az Arlequin pedig Hapl-o-Mat becslésére egy frekvencia igazi népességi adatok

azt is értékelni Hapl-o-Mat képességeit, hogy megbirkózzanak a heterogén, bizonytalan jellegű gépelés rögzíti., Felvettük runtime s memória használat a gép a fent leírt, mint mi változatos a részesedése NMDP kódok bevezettük a genotípus népességi adatok az első népesség modell a fent leírtakkal megegyező módon a különböző frakció a maszkos allélek 2,5% – ról 50% – ra. Hapl-o-Mat a kétértelműség szűrő használták, hogy megoldja ezeket a kétértelműséget, lefordítani a kapott allélek vissza a g csoportok, valamint a számítási egy frekvencián. Ezt az eljárást tízszer ismételtük meg, hogy kiszámítsuk a memóriahasználatok és a futási idők átlagát és szórását. Az eredményeket az ábra mutatja. 5.,

ábra. 5

a Hapl-o-Mat teljesítménye az NMDP-kódokat tartalmazó gépelési rekordok változó aránya tekintetében. Telek mutatja, hogy egy átlagos memória használat a szórás, valamint Telek b átlagos futásidejével kapcsolatosan a szórás mindkét; adatok előfeldolgozás, valamint egy frekvencia becslési

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük