Wir haben Hapl-o-Mat validiert, indem wir seine geschätzten Haplotyp-Frequenzen auf Richtigkeit überprüft haben. Da das Übersetzen zwischen Allelauflösungen und das Auflösen von Genotypisierungszweideutigkeiten von anderer Software zur Schätzung der Haplotypfrequenz nicht unterstützt werden, haben wir zwei Ansätze verfolgt., Zunächst validierten wir Hapl-o-Mat anhand künstlicher HLA-Populationsdaten, einschließlich unterschiedlicher Typisierungsauflösungen und Genotypisierungs-Mehrdeutigkeiten. Für solche künstlichen Populationen waren Haplotypfrequenzen pro Konstruktion bekannt. Unter Verwendung der vollständigen Populationsdaten als Eingabeprobe verwendeten wir Hapl-o-Mat, um Genotypdaten aufzulösen und Haplotypfrequenzen zu reproduzieren. Zweitens verglichen wir die Ergebnisse von Hapl-o-Mat mit den Ergebnissen der einfach zu bedienenden und gut etablierten Software Arlequin ., Für beide Implementierungen verwendeten wir echte Stichproben von Typisierungsaufzeichnungen des DKMS-Spenderzentrums und künstliche Bevölkerungsdaten als Eingabe. Darüber hinaus haben wir die Rechenleistung von Hapl-o-Mat im Allgemeinen und im Vergleich zu Arlequin bewertet. Die Zielauflösung für alle Validierungsexperimente sind g-Gruppen, sofern nicht anders angegeben.

Für Observablen zum Vergleich von Haplotypfrequenzen und zur Konstruktion künstlicher Populationen siehe Methoden in zusätzlicher Datei 3. Alle Ergebnisse sind in Tabelle 2 zusammengefasst.,

Erstes Populationsmodell

Die erste künstliche Population wurde durch kombinatorische Konstruktion von Genotypen aus allen möglichen Kombinationen der \( 1.000 \) häufigsten deutschen Haplotypen mit Ersatz aufgebaut, wie in zusätzlicher Datei 3 erläutert. Die Bevölkerung war nahezu vollkommen HWE, wie angezeigt, durch die Effektstärke Statistik \( {W}_n=6.65\times {10}^{-8} \). Um Übersetzungen zwischen Tippauflösungen von Hapl-o-Mat zu überprüfen, haben wir Tippergebnisse durch Ergebnisse mit höherer Tippauflösung einschließlich des ursprünglichen Tippergebnisses ersetzt, z, jedes Auftreten von C*16: 04 wurde zufällig durch C*16:04:01, C*16:04:03 oder C*16:04P ersetzt oder unverändert als C*16:04 belassen. Wir haben Hapl-o-Mat verwendet, um die modifizierten Tippauflösungen zurück in g-Gruppen zu übersetzen und die Haplotypfrequenzen zu schätzen. Der Abstand zwischen geschätzten und ursprünglichen Population haplotyp Frequenzen war \ (d=1.3\mal {10}^{-4} \), die maximale absolute Differenz betrug \ (\Delta =9.04\times {10}^{-7} \), und es wurde keine relative Abweichung größer als 0,05 gefunden. Diese Ergebnisse zeigten die Reproduktion der ursprünglichen Population Haplotyp Frequenzen., Eine genaue Reproduktion ist nicht zu erwarten, da die Annäherung der Genotypfrequenzen durch ganzzahlige Zahlen in den Populationsdaten der Gleitkommagenauigkeit entgeht.

Um die Schätzung der Haplotypfrequenzen aus Genotypdaten einschließlich Genotypisierungs-Mehrdeutigkeiten zu validieren, führten wir in einem zweiten Test NMDP-Codes in die Genotyppopulationsdaten ein. Zu diesem Zweck haben wir zufällig 5% der Tippergebnisse durch NMDP-Codes ersetzt. Die Codes wurden zufällig ausgewählt, mit Ausnahme der Anforderungen, die ursprüngliche Typisierung enthalten und in den ursprünglichen realen Bevölkerungsdaten erschienen sind., Zum Beispiel wurden alle als A*31:01 g typisierten Allele durch A*31:VSCB ersetzt, das A*31:01, A*31:41 und A*31:68 codiert und zwei zusätzliche Allele ergibt (A*31:01 bedeutet A*31:01 g). Hapl-o-Mat mit seinem Mehrdeutigkeitsfilter wurde verwendet, um diese Mehrdeutigkeiten aufzulösen, die resultierenden Allele zurück in g-Gruppen zu übersetzen und Haplotypfrequenzen zu berechnen. Wir haben diesen Vorgang zehnmal wiederholt, um den Mittelwert und die Standardabweichung von Observablen zu berechnen.

Der Vergleich zwischen geschätzten und ursprünglichen Haplotypfrequenzen der Population zeigte eine durchschnittliche Entfernung von \ (d=0.11\pm 0.,02 \) und einer durchschnittlichen maximalen absoluten Differenz von \( \Delta =\left(4\pm 1\right)\times {10}^{-3} \). Der durchschnittliche Rang für den ersten Haplotyp mit einer relativen Abweichung größer als 0,05 war \ (\rho =14\pm 6 \). Im Vergleich zum ersten Test werden diese größeren Werte durch das Auftreten von NMDP-Codes erklärt, die zusätzliche Allele einführen und somit echte Allele maskieren., Dies verdeckt die Identifizierung von Haplotypen, indem die Anzahl der Haplotypen erhöht wird, die nicht in der ursprünglichen Population vorhanden sind („zusätzliche Haplotypen“), und Haplotypen, die nur in der ursprünglichen Population vorhanden sind („fehlende Haplotypen“). Es wird erwartet, dass die Anzahl zusätzlicher Haplotypen größer ist als die Anzahl fehlender, da ein NMDP-Code nur ein Allel ersetzt, aber beim Decodieren mehrere andere ergeben kann., In den zehn Wiederholungen des zweiten Tests waren die Haplotypen im Durchschnitt \( 314\pm 98 \) (\( \left(25\pm 8\right)\%\)) „additional“ und \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) „missing“. Diese Haplotypen leisteten den wesentlichen Beitrag zur Differenz zwischen geschätzten und Populationshaplotypfrequenzen. Ohne zusätzliche und fehlende Haplotypen aus der Berechnung ergab sich der Abstand \ (d=0.028\pm 0.007 \).

Ursprüngliche Population und geschätzte Frequenzen sind in Abb. 2a., Da zusätzliche Haplotypen eine ursprüngliche Populationsfrequenz von \( {h}_k=0 \) und fehlende Haplotypen eine geschätzte Häufigkeit von \( {h}_k=0\) haben, werden zusätzliche und fehlende Haplotypen nicht in Fig. 2a oder in weiteren log-log-plots zu kommen. Wesentliche Abweichungen bei den Haplotypfrequenzen waren auf das Auftreten von NMDP-Codes zurückzuführen. Wenn ein Haplotyp ein Allel enthielt, das durch einen NMDP-Code maskiert war, wurde seine geschätzte Frequenz reduziert. Wenn andererseits ein Haplotyp zusätzliche Allele aus einem NMDP-Code enthielt, nahm seine geschätzte Frequenz zu., Nur in wenigen Fällen wird der Frequenzgewinn aus zusätzlichen Allelen auf Haplotypen übertragen, die bereits in den ursprünglichen Populationsdaten vorhanden sind. Aus diesem Grund tritt in Abb.fast keine Überschätzung der Haplotypfrequenzen (geschätzte Häufigkeit größer als die ursprüngliche Populationsfrequenz) auf. 2a.Der Frequenzverlust durch maskierte Allele, die zu Haplotypen gehören, die in den ursprünglichen Populationsdaten vorhanden sind, führt jedoch zu einer Unterschätzung, wie in Fig. 2a. Haplotypen, die keine Allele über NMDP-Codes teilten, zeigten nur geringfügige Abweichungen zwischen der ursprünglichen Population und den geschätzten Frequenzen.,

Abb. 2

Haplotyp-Frequenzen von künstlichen Bevölkerung Daten. Plot a zeigt die über Hapl-o-Mat geschätzten Haplotypfrequenzen im Vergleich zu den ursprünglichen Populationsfrequenzen aus dem ersten Populationsmodell einschließlich Genotypisierungs-Mehrdeutigkeiten. Nur einer von zehn Läufen ist abgebildet. Diagramm b zeigt einen Vergleich zwischen den ursprünglichen Haplotypfrequenzen der Population und Frequenzen, die über Arlequin und Hapl-o-Mat auf der Grundlage des zweiten Populationsmodells geschätzt wurden., Aufgrund der logarithmischen Skalen zeigen beide Plots weder zusätzliche noch fehlende Haplotypen

Die Tatsache, dass einige geschätzte Haplotypfrequenzen einen konstanten Offset in Bezug auf ihre ursprüngliche Populationsfrequenz aufweisen, ergibt sich aus den Allelen, die im selben NMDP-Code gefunden wurden. Die Frequenzen werden proportional zur Anzahl zusätzlicher Allele reduziert, die aus dem NMDP-Code hervorgehen. Infolgedessen werden Frequenzen von Haplotypen einschließlich Allelen aus demselben NMDP-Code um den gleichen Faktor reduziert.,

Zweites Populationsmodell

Die zweite Population wurde durch Konstruieren von Genotypen aus zufälliger Kombination von zwei Haplotypen gemäß ihrer Frequenzverteilung erstellt, wie in zusätzlicher Datei 3 erläutert. Die Effektgrößenstatistik, die über alle Loci für diese Population gemittelt wurde, war \ ({W}_n=3.0\times {10}^{-3}\), was auf keine signifikante Abwertung von HWE hinweist. Wir haben die Haplotypfrequenzen aus diesen Populationsdaten mit Arlequin und Hapl-o-Mat berechnet. Die geschätzten und ursprünglichen Haplotypfrequenzen der Population sind in Abb. 2b. Die entsprechenden Observablen sind in Tabelle 2 angegeben., Beide Implementierungen haben die korrekte Implementierung von Hapl-o-Mat gleich gut demonstriert. Im Gegensatz zum ersten Populationsmodell waren die Abweichungen zwischen geschätzten und ursprünglichen Populationsfrequenzen jedoch sowohl für Arlequin als auch für Hapl-o-Mat viel größer. Dies resultierte aus der Anwendung des EM-Algorithmus auf Daten mit einer großen Menge an Genotypvielfalt. Da die Daten nur aus \( N=50.000 \) Individuen bestanden, aber \( 41.489 \) verschiedene Genotypen enthielten, war der EM-Algorithmus nicht in der Lage, die ursprüngliche Haplotyp-Frequenzverteilung der Population genau zu reproduzieren., Aus diesem Grund zeigten Arlequin und Hapl-o-Mat, beide basierend auf dem EM-Algorithmus, ähnliche Abweichungen zwischen geschätzten und ursprünglichen Populationsfrequenzen, wie in Fig. 2b.

Reale Datenmuster

Abb. 3

Vergleich der über Arlequin und Hapl-o-Mat geschätzten Haplotypfrequenzen aus einer Stichprobe realer Bevölkerungsdaten., Aufgrund der logarithmischen Skalen zeigt das Diagramm weder zusätzliche noch fehlende Haplotypen

Rechenleistung

Wir haben Hapl-o-Mat hinsichtlich der Rechenleistung bewertet, indem wir seine Laufzeit für unterschiedliche Mengen an Eingabedaten und unterschiedliche Zielauflösungen gemessen haben. Alle Berechnungen wurden mit einem Computer mit Ubuntu Linux 14.04.5 mit 768 GB RAM (obwohl dies nie erschöpft war) und 32 Intel® Xeon® CPU E5-2630 v3-Kernen bei 2.40 GHz durchgeführt., Hapl-o-Mat verwendet jedoch keine Parallelität, daher beziehen sich alle Komponenten auf einen einzelnen Kern.

Die Laufzeit zur Schätzung der Haplotypfrequenzen durch Hapl-o-Mat von N=1.825.721 Individuen mit selbstbewerteter deutscher Herkunft betrug \ (t\approx 11.4 \)h mit g-Gruppen als Zielauflösung.

Abb., 4

Durchschnittliche Laufzeiten mit Standardabweichung von Hapl-o-Mat für verschiedene Stichprobengrößen und verschiedene Ziel-Allelgruppen einschließlich g -, P-und G-Gruppen

Um die Leistung zwischen Arlequin und Hapl-o-Mat zu vergleichen, wir haben die Haplotyp-Frequenzschätzung aus realen Bevölkerungsdaten wiederholt. Wir variierten die Stichprobengröße zwischen \ (N=5.000\), \ (N=20.000\) und \ (N=50.000 \) und enthielten in ähnlicher Weise nur Stichproben mit eindeutiger 2-Feld-Übersetzung., Die Mittelung beider Implementierungen über zehn Läufe auf demselben Computer ergab Laufzeiten wie in Tabelle 3 angegeben. Gerade bei großen Probengrößen war Hapl-o-Mat deutlich schneller und demonstrierte seine effiziente Umsetzung.

Tabelle 3 die Durchschnittliche Laufzeit von Arlequin und Hapl-o-Mat für die Schätzung der haplotyp-Frequenzen, die von realen Bevölkerungsdaten

Wir bewerten auch Hapl-o-Mat Fähigkeiten zur Bewältigung der heterogenen und die zweideutige Natur des Eingabe-Datensätze., Wir haben die Laufzeit-und Speichernutzung auf dem oben beschriebenen Computer aufgezeichnet, als wir den Anteil der NMDP-Codes, die wir in die Genotyppopulationsdaten für das erste Populationsmodell eingeführt haben, auf die gleiche Weise wie oben beschrieben für einen unterschiedlichen Anteil maskierter Allele von 2,5% bis 50% variierten. Hapl-o-Mat mit seinem Mehrdeutigkeitsfilter wurde verwendet, um diese Mehrdeutigkeiten aufzulösen, die resultierenden Allele zurück in g-Gruppen zu übersetzen und Haplotypfrequenzen zu berechnen. Wir haben diesen Vorgang zehnmal wiederholt, um den Mittelwert und die Standardabweichung der Speicherauslastung und-laufzeiten zu berechnen. Die Ergebnisse werden in Abb. 5.,

Abb. 5

Leistung von Hapl-o-Mat, mit Bezug zu unterschiedlichen Anteil der Eingabe der Datensätze, die NMDP-codes. Plot a zeigt die durchschnittliche Speichernutzung mit Standardabweichungen und Plot b durchschnittliche Laufzeiten mit Standardabweichungen für beide; Datenvorverarbeitung und Haplotype-Frequenzschätzung

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.