Hapl-o-Mat: nyílt forráskódú szoftver, a HLA egy frekvencia becslési a kétértelmű, illetve heterogén adatok

Mi érvényesített Hapl-o-Mat által ellenőrzése a becsült egy frekvenciát a korrektség. Mivel az allélfelbontások és a genotipizálási kétértelműségek közötti fordítást nem támogatja más szoftver a haplotípusfrekvencia-becsléshez, két megközelítést követtünk., Először a hapl-o-Mat-ot ellenőriztük a mesterséges HLA populációs adatokkal szemben, beleértve a különböző gépelési felbontásokat és a genotipizálási kétértelműségeket. Az ilyen mesterséges populációk esetében a haplotípus frekvenciái konstrukciónként ismertek voltak. A teljes populációs adatokat beviteli mintaként felhasználva hapl-o-Mat-et használtunk a genotípusadatok megoldására és a haplotípus frekvenciák reprodukálására. Másodszor, összehasonlítottuk a hapl-o-Mat-től kapott eredményeket a könnyen használható, jól bevált Arlequin szoftver eredményeivel ., A DKMS donor center gépelési rekordjainak valódi mintáit, valamint a mesterséges populációs adatokat használtuk mindkét megvalósítás bemeneteként. Továbbá a hapl-o-Mat számítási teljesítményét általánosságban, az Arlequin-hez képest értékeltük. Az összes validációs kísérlet célfelbontása G csoport, hacsak másként nem jelezzük.

a haplotípus gyakoriságának összehasonlítására és a mesterséges populációk felépítésére szolgáló megfigyeléseknél lásd a 3. Kiegészítő fájlban található módszereket. Az összes eredményt a 2. táblázat foglalja össze.,

Első népesség modell

Az első mesterséges lakosság által épített kombinatorikus építési genotípusok az összes lehetséges kombináció a \( 1,000 \) leggyakoribb német haplotypes a csere, amint azt a További fájl 3. A populáció szinte tökéletes HWE-ben volt, amint azt a \( {w}_n=6, 65\times effect size statisztika jelzi {10}^{-8} \). A hapl-o-Mat gépelési felbontásai közötti fordítások ellenőrzéséhez a gépelési eredményeket nagyobb gépelési felbontással helyettesítettük, beleértve az eredeti gépelési eredményt is, például, a C*16:04 minden előfordulását véletlenszerűen C*16:04:01, C*16:04:03 vagy C*16:04P váltotta fel, vagy változatlanul hagyta C*16:04-ként. Hapl-o-Mat-ot használtunk a módosított gépelési felbontások g-csoportokba történő lefordítására, valamint a haplotípus frekvenciáinak becslésére. A becsült és az eredeti populációs haplotípus frekvenciák közötti távolság \( d = 1,3 \ – szor {10}^{-4} \), a maximális abszolút különbség \ (\Delta = 9.04 \ times {10}^{-7} \), 0,05-nél nagyobb relatív eltérést nem találtak. Ezek az eredmények az eredeti populációs haplotípus gyakoriságának reprodukcióját mutatták., Pontos reprodukció nem várható, mivel a genotípus frekvenciáinak egész számokkal történő közelítése a populációs adatokban elkerüli a lebegőpontos pontosságot.

a genotípus-adatokból származó haplotípus-frekvenciák becslésének validálásához, beleértve a genotípus-kétértelműségeket is, egy második tesztben bevezettük az nmdp kódokat a genotípus-populációs adatokhoz. Ebből a célból véletlenszerűen helyettesítettük a gépelési eredmények 5% – át NMDP kódokkal. A kódokat véletlenszerűen választották ki, kivéve azokat a követelményeket, amelyek magukban foglalják az eredeti gépelést, valamint hogy megjelenjenek az eredeti valós populációs adatokban., Például az összes*31:01 g-ként begépelt allélt egy*31:VSCB-vel helyettesítették, amely a*31:01, A*31:41 és a*31:68 kódol két további allélt (A*31:01 fordítja a*31:01 g-ra). Hapl-o-Mat a kétértelműség szűrő használták, hogy megoldja ezeket a kétértelműséget, lefordítani a kapott allélek vissza a g csoportok, valamint a számítási egy frekvencián. Ezt az eljárást tízszer ismételtük meg, hogy kiszámítsuk a megfigyelések átlagát és szórását.

a becsült és az eredeti populációs haplotípus frekvenciák összehasonlítása \ (d = 0,11 \ pm 0.,02\), és egy átlagos maximális abszolút különbség \ (\Delta = \ Bal (4 \ pm 1 \ jobb) \ alkalommal {10}^{-3} \). Az első haplotípus átlagos rangja 0,05-nél nagyobb relatív eltéréssel \( \Rho =14\pm 6\) volt. Az első teszthez képest ezeket a nagyobb értékeket az nmdp kódok előfordulása magyarázza, amelyek további allélokat vezetnek be, így elfedik a valódi allélokat., Ez eltakarja a azonosítását haplotypes számának növelésével a haplotypes nincs jelen az eredeti lakosság meg (“további haplotypes”), valamint haplotypes csak a jelen az eredeti lakosság meg (“hiányzó haplotypes”). A további haplotípusok száma várhatóan nagyobb lesz, mint a hiányzók száma, mivel az NMDP kód csak egy allélt helyettesít, de dekódoláskor több más is megjelenhet., A második teszt tíz ismétlésében átlagosan \ (314 \ pm 98 \) (\(\left( 25\pm 8\right)\%\)) a haplotípusok “kiegészítő” és \ (50\pm 18\) (\(\left (4\pm 1\right)\%\)) “hiányzó”voltak. Ezek a haplotípusok nagyban hozzájárultak a becsült és a populációs haplotípus gyakorisága közötti különbséghez. További és hiányzó haplotípusok kizárása A \( d=0,028\pm 0,007\) távolság kiszámításából.

az eredeti populációt és a becsült gyakoriságot az ábra mutatja. 2a., Mivel a további haplotípusok eredeti populációs gyakorisága \ ({h}_k = 0 \) és a hiányzó haplotípusok becsült gyakorisága \( {h}_k=0 \), további és hiányzó haplotípusok nem jelennek meg az ábrán. 2a vagy további log-log telkek jönni. A haplotípus-frekvenciák jelentős eltérései az NMDP-kódok előfordulásának következményei voltak. Ha a haplotípus tartalmaz egy allélt, amelyet egy NMDP-kód elfed, becsült gyakorisága csökkent. Ha viszont egy haplotípus további allélokat tartalmazott egy NMDP-kódból, becsült gyakorisága nőtt., Csak néhány esetben a további allélokból származó gyakorisági nyereség átkerül az eredeti populációs adatokban már jelen lévő haplotípusokra. Ezért a haplotípus gyakoriságának (az eredeti populációs frekvenciánál nagyobb becsült gyakoriság) szinte semmilyen túlbecsülése nem fordul elő az ábrán. 2a. az eredeti populációs adatokban jelen lévő haplotípusokhoz tartozó álarcos allélok gyakorisági vesztesége azonban alulbecsülést eredményez, amint azt az ábra mutatja. 2a. a haplotípusok, amelyek az nmdp-kódokon keresztül nem osztották meg az allélokat, csak kisebb eltéréseket mutattak az eredeti populáció és a becsült frekvenciák között.,

Első népesség modell

második populációs modell

valós adatminták

Számítási teljesítmény

Vélemény, hozzászólás? Kilépés a válaszból