Nós validado Hapl-o-Mat, verificando a sua estimado haplótipo de frequências para a correção. Como traduzir entre resoluções alelas e resolver ambiguidades de genotipagem não são suportados por outro software para estimativa de frequência de haplotype, seguimos duas abordagens., Em primeiro lugar, validámos o Hapl-O-Mat contra dados artificiais da população de HLA, incluindo diferentes resoluções de dactilografia e ambiguidades de genotipagem. Para essas populações artificiais, as frequências de haplotipos eram conhecidas por construção. Tomando os dados completos da população como uma amostra de entrada, nós usamos Hapl-O-Mat para resolver os dados do genótipo e para reproduzir freqüências de haplótipo. Em segundo lugar, comparamos os resultados obtidos do Hapl-O-Mat com os resultados do Software Arlequin de fácil utilização e bem estabelecido ., Usamos amostras reais de registros de digitação do centro de doadores DKMS e dados de população artificial como entrada para ambas as implementações. Além disso, avaliamos o desempenho computacional do Hapl-O-Mat em geral e em comparação com o Arlequin. A resolução-alvo para todas as experiências de validação são grupos g, salvo indicação em contrário.
para os observáveis compararem frequências de haplotipos e para a construção de populações artificiais, ver Métodos no ficheiro adicional 3. Todos os resultados estão resumidos na Tabela 2.,
primeiro modelo populacional
a primeira população artificial foi construída pela construção combinatória de genótipos a partir de todas as combinações possíveis dos haplótipos alemães mais frequentes com substituição, como explicado no ficheiro adicional 3. A população estava quase perfeita como indicado pela estatística do tamanho do efeito \ ({W}_n=6,65\vezes {10}^{-8} \). Para verificar as traduções entre resoluções de dactilografia de Hapl-O-Mat, nós substituímos os resultados de dactilografia com resultados em maior resolução de dactilografia, incluindo o resultado de dactilografia original, e.g., cada ocorrência de C * 16: 04 foi substituída aleatoriamente por C*16:04:01, C*16:04:03, ou C*16:04P ou deixado inalterado como C * 16:04. Usámos o Hapl-O-Mat para traduzir as resoluções de dactilografia modificadas para grupos g e para estimar as frequências de haplótipo. A distância entre as frequências de haplotipos estimados e originais da população foi \ (d = 1,3\vezes {10}^{-4} \), a diferença absoluta máxima foi \ (\Delta =9,04\vezes {10}^{-7} \), e nenhum desvio relativo maior que 0,05 foi encontrado. Estes resultados indicaram a reprodução das frequências de haplótipo da população original., A reprodução exata não pode ser esperada, já que a aproximação das frequências do genótipo por números inteiros na população escapa à precisão do ponto flutuante.
para validar a estimativa das frequências de haplotipos a partir dos dados do genótipo, incluindo ambiguidades de genotipagem, introduzimos, num segundo teste, códigos NMDP nos dados da população do genótipo. Para este fim, substituímos aleatoriamente 5% dos resultados de digitação por códigos NMDP. Os códigos foram selecionados aleatoriamente, exceto para os requisitos para incluir a tipagem original e ter aparecido nos dados originais da população real., Por exemplo, todos os alelos digitados como a*31:01 g foram substituídos por a*31:VSCB, que codifica a*31:01, a*31:41, e a*31:68 dando dois alelos adicionais (a*31:01 traduz-se para a*31:01 g). Hapl-O-Mat com seu filtro de ambiguidade foi usado para resolver essas ambiguidades, traduzir os alelos resultantes de volta para grupos g, e calcular as frequências haplotype. Repetimos este procedimento dez vezes para calcular a média e o desvio padrão dos observáveis.
A comparação entre as frequências de haplotipos estimados e originais da população mostrou uma distância média de \( d=0, 11\pm 0.,02 \), e uma diferença média máxima absoluta de \( \Delta =\Esquerda(4\pm 1\direita)\vezes {10}^{-3} \). A classificação média para o primeiro haplótipo com um desvio relativo maior que 0,05 foi \( \rho =14\pm 6 \). Em comparação com o primeiro ensaio, estes valores maiores são explicados pela ocorrência de códigos NMDP, que introduzem alelos adicionais e, portanto, ocultam alelos reais., Isso obscurece a identificação de haplótipos, aumentando o número de haplótipos não presentes no original população definida (“adicional de haplótipos”) e os haplótipos presentes apenas no original população definida (“falta de haplótipos”). Espera-se que o número de haplotipos adicionais seja maior do que o número de faltantes, uma vez que um código NMDP substitui apenas um alelo, mas pode produzir vários outros quando descodificado., Em dez repetições de um segundo teste, em média, \ ( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) haplótipos foram “adicionais” e \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) “falta”. Estes haplotipos deram a maior contribuição para a diferença entre as frequências de haplotipos estimados e da população. Excluindo haplotipos adicionais e em falta do cálculo da distância rendida \ (d = 0,028\pm 0,007 \).a população Original e as frequências estimadas são apresentadas na Fig. 2a., Como os haplotipos adicionais têm uma frequência populacional original de \ ({h}_k=0\) e os haplotipos em falta têm uma frequência estimada de \( {h}_k=0\), haplotipos adicionais e em falta não são mostrados na Fig. 2a ou em outras parcelas de log-log a vir. Grandes desvios nas frequências de haplotipos foram devidos à ocorrência de códigos NMDP. Se um haplótipo incluísse um alelo mascarado por um código NMDP, sua frequência estimada era reduzida. Se, por outro lado, um haplótipo incluísse alelos adicionais de um código NMDP, a sua frequência estimada aumentaria., Apenas em poucos casos o ganho de frequência com alelos adicionais é transferido para haplotipos já presentes nos dados originais da população. Por esta razão, quase nenhuma sobrestimação de frequências de haplotipos (frequência estimada maior que a frequência da população original) ocorre na Fig. 2a. no entanto, a perda de frequência de alelos mascarados pertencentes a haplotipos presentes nos dados originais da população resulta em subestimação, como se encontra na Fig. 2a. os Haplotipos que não partilhavam alelos através dos códigos NMDP apenas apresentavam pequenos desvios entre a população original e as frequências estimadas.,