Nós validado Hapl-o-Mat, verificando a sua estimado haplótipo de frequências para a correção. Como traduzir entre resoluções alelas e resolver ambiguidades de genotipagem não são suportados por outro software para estimativa de frequência de haplotype, seguimos duas abordagens., Em primeiro lugar, validámos o Hapl-O-Mat contra dados artificiais da população de HLA, incluindo diferentes resoluções de dactilografia e ambiguidades de genotipagem. Para essas populações artificiais, as frequências de haplotipos eram conhecidas por construção. Tomando os dados completos da população como uma amostra de entrada, nós usamos Hapl-O-Mat para resolver os dados do genótipo e para reproduzir freqüências de haplótipo. Em segundo lugar, comparamos os resultados obtidos do Hapl-O-Mat com os resultados do Software Arlequin de fácil utilização e bem estabelecido ., Usamos amostras reais de registros de digitação do centro de doadores DKMS e dados de população artificial como entrada para ambas as implementações. Além disso, avaliamos o desempenho computacional do Hapl-O-Mat em geral e em comparação com o Arlequin. A resolução-alvo para todas as experiências de validação são grupos g, salvo indicação em contrário.

para os observáveis compararem frequências de haplotipos e para a construção de populações artificiais, ver Métodos no ficheiro adicional 3. Todos os resultados estão resumidos na Tabela 2.,

primeiro modelo populacional

a primeira população artificial foi construída pela construção combinatória de genótipos a partir de todas as combinações possíveis dos haplótipos alemães mais frequentes com substituição, como explicado no ficheiro adicional 3. A população estava quase perfeita como indicado pela estatística do tamanho do efeito \ ({W}_n=6,65\vezes {10}^{-8} \). Para verificar as traduções entre resoluções de dactilografia de Hapl-O-Mat, nós substituímos os resultados de dactilografia com resultados em maior resolução de dactilografia, incluindo o resultado de dactilografia original, e.g., cada ocorrência de C * 16: 04 foi substituída aleatoriamente por C*16:04:01, C*16:04:03, ou C*16:04P ou deixado inalterado como C * 16:04. Usámos o Hapl-O-Mat para traduzir as resoluções de dactilografia modificadas para grupos g e para estimar as frequências de haplótipo. A distância entre as frequências de haplotipos estimados e originais da população foi \ (d = 1,3\vezes {10}^{-4} \), a diferença absoluta máxima foi \ (\Delta =9,04\vezes {10}^{-7} \), e nenhum desvio relativo maior que 0,05 foi encontrado. Estes resultados indicaram a reprodução das frequências de haplótipo da população original., A reprodução exata não pode ser esperada, já que a aproximação das frequências do genótipo por números inteiros na população escapa à precisão do ponto flutuante.

para validar a estimativa das frequências de haplotipos a partir dos dados do genótipo, incluindo ambiguidades de genotipagem, introduzimos, num segundo teste, códigos NMDP nos dados da população do genótipo. Para este fim, substituímos aleatoriamente 5% dos resultados de digitação por códigos NMDP. Os códigos foram selecionados aleatoriamente, exceto para os requisitos para incluir a tipagem original e ter aparecido nos dados originais da população real., Por exemplo, todos os alelos digitados como a*31:01 g foram substituídos por a*31:VSCB, que codifica a*31:01, a*31:41, e a*31:68 dando dois alelos adicionais (a*31:01 traduz-se para a*31:01 g). Hapl-O-Mat com seu filtro de ambiguidade foi usado para resolver essas ambiguidades, traduzir os alelos resultantes de volta para grupos g, e calcular as frequências haplotype. Repetimos este procedimento dez vezes para calcular a média e o desvio padrão dos observáveis.

A comparação entre as frequências de haplotipos estimados e originais da população mostrou uma distância média de \( d=0, 11\pm 0.,02 \), e uma diferença média máxima absoluta de \( \Delta =\Esquerda(4\pm 1\direita)\vezes {10}^{-3} \). A classificação média para o primeiro haplótipo com um desvio relativo maior que 0,05 foi \( \rho =14\pm 6 \). Em comparação com o primeiro ensaio, estes valores maiores são explicados pela ocorrência de códigos NMDP, que introduzem alelos adicionais e, portanto, ocultam alelos reais., Isso obscurece a identificação de haplótipos, aumentando o número de haplótipos não presentes no original população definida (“adicional de haplótipos”) e os haplótipos presentes apenas no original população definida (“falta de haplótipos”). Espera-se que o número de haplotipos adicionais seja maior do que o número de faltantes, uma vez que um código NMDP substitui apenas um alelo, mas pode produzir vários outros quando descodificado., Em dez repetições de um segundo teste, em média, \ ( 314\pm 98 \) (\( \left(25\pm 8\right)\% \)) haplótipos foram “adicionais” e \( 50\pm 18 \) (\( \left(4\pm 1\right)\% \)) “falta”. Estes haplotipos deram a maior contribuição para a diferença entre as frequências de haplotipos estimados e da população. Excluindo haplotipos adicionais e em falta do cálculo da distância rendida \ (d = 0,028\pm 0,007 \).a população Original e as frequências estimadas são apresentadas na Fig. 2a., Como os haplotipos adicionais têm uma frequência populacional original de \ ({h}_k=0\) e os haplotipos em falta têm uma frequência estimada de \( {h}_k=0\), haplotipos adicionais e em falta não são mostrados na Fig. 2a ou em outras parcelas de log-log a vir. Grandes desvios nas frequências de haplotipos foram devidos à ocorrência de códigos NMDP. Se um haplótipo incluísse um alelo mascarado por um código NMDP, sua frequência estimada era reduzida. Se, por outro lado, um haplótipo incluísse alelos adicionais de um código NMDP, a sua frequência estimada aumentaria., Apenas em poucos casos o ganho de frequência com alelos adicionais é transferido para haplotipos já presentes nos dados originais da população. Por esta razão, quase nenhuma sobrestimação de frequências de haplotipos (frequência estimada maior que a frequência da população original) ocorre na Fig. 2a. no entanto, a perda de frequência de alelos mascarados pertencentes a haplotipos presentes nos dados originais da população resulta em subestimação, como se encontra na Fig. 2a. os Haplotipos que não partilhavam alelos através dos códigos NMDP apenas apresentavam pequenos desvios entre a população original e as frequências estimadas.,

Fig. 2

haplotype frequencies from artificial population data. O gráfico a mostra as frequências de haplótipo estimadas através do Hapl-O-Mat em comparação com as frequências da população original do primeiro modelo de população, incluindo ambiguidades genotipantes. Apenas uma de dez corridas é ilustrada. A parcela b apresenta uma comparação entre as frequências de haplótipo da população original e as frequências estimadas através de Arlequina e Hapl-O-Mat, com base no segundo modelo populacional., Devido às escalas logarítmicas, ambas as parcelas não mostram haplotipos adicionais nem em falta

o facto de algumas frequências haplotype estimadas terem um desvio constante em relação à sua frequência populacional original resulta da partilha de alelos encontrados no mesmo código NMDP. As frequências são reduzidas proporcionalmente ao número de alelos adicionais resultantes do Código NMDP. Consequentemente, as frequências dos haplotipos, incluindo alelos do mesmo código NMDP, são reduzidas pelo mesmo factor.,

segundo modelo populacional

a segunda população foi construída construindo genotipos a partir da combinação aleatória de dois haplotipos de acordo com a sua distribuição de frequência, como explicado no ficheiro adicional 3. A estatística do tamanho do efeito, calculada em média em todos os loci para esta população, foi \ ({W}_n=3, 0\vezes {10}^{-3} \) indicando não haver uma devação significativa de HWE. Calculamos as frequências de haplotipos a partir destes dados populacionais usando Arlequina e Hapl-O-Mat. As frequências de haplotipos estimados e originais da população são mostradas na Fig. 2b.os observáveis correspondentes são apresentados no quadro 2., Ambas as implementações realizaram igualmente bem demonstrando a correta implementação do Hapl-O-Mat. No entanto, em contraste com o primeiro modelo populacional, os desvios entre as frequências estimadas e originais da população foram muito maiores tanto para Arlequina e Hapl-O-Mat. Isto resultou da aplicação do algoritmo EM a dados com uma grande quantidade de diversidade de genótipos. Como os dados consistiam em apenas \ (N=50.000 \) indivíduos, mas incluiam \ (41.489 \) diferentes genótipos, o algoritmo EM não foi capaz de reproduzir exatamente a distribuição de frequência de haplotipos da população original., Por esta razão, a Arlequina e o Hapl-O-Mat, ambos baseados no algoritmo EM, mostraram desvios semelhantes entre as frequências estimadas e originais da população, como observado na Fig. 2b.

amostras de dados reais

Fig. 3

a Comparação do haplótipo frequências estimadas através de Arlequin e Hapl-o-Mat, a partir de uma amostra da população real de dados., Devido a escalas logarítmicas, o enredo nem mostra adicionais nem ausente haplótipos

o desempenho Computacional

Nós avaliados Hapl-o-Mat, em termos de desempenho computacional através da medição de seu tempo de execução para diferentes quantidades de dados de entrada e de destino diferentes resoluções. Todos os cálculos foram realizados usando um computador rodando Ubuntu Linux 14.04.5 com 768 GB RAM (embora isso nunca tenha sido esgotado), e 32 Intel® Xeon® CPU E5-2630 núcleos v3 a 2,40 GHz., No entanto, Hapl-o-Mat não faz uso do paralelismo, portanto todos os tempos de execução são em referência a um único núcleo.

O tempo de execução para estimar as frequências de haplotipos por Hapl-O-Mat a partir de n = 1.825.721 indivíduos com origem alemã Auto-avaliada foi \ (T \aprox 11.4\) h com grupos g Como resolução-alvo.

Fig., 4

Média de tempos de execução, com desvio padrão de Hapl-o-Tapete para diferentes tamanhos de amostra e de destino diferentes grupos de alelos incluindo g, P, e G grupos

a fim de comparar o desempenho entre Arlequin e Hapl-o-Mat, nós o repetimos o haplótipo frequência estimativa da população real de dados. Variamos o tamanho da amostra entre \ (N = 5,000 \), \ (n=20,000 \), e \ (N = 50,000 \) e também incluímos apenas amostras com uma tradução inequívoca de 2 campos., A média de ambas as implementações ao longo de dez rodadas na mesma máquina rendeu tempo de execução como indicado na Tabela 3. Especialmente no caso de grandes tamanhos de amostra, O Hapl-O-Mat foi consideravelmente mais rápido demonstrando sua implementação eficiente.

Tabela 3 Média de tempos de execução de Arlequin e Hapl-o-Tapete para a estimativa do haplótipo frequências da população real de dados

Nós também avaliados Hapl-o-Mat habilidades para lidar com o heterogêneo e a natureza ambígua de digitação de registros., Registramos o tempo de execução e o uso da memória na máquina descrita acima, pois variamos a proporção de códigos NMDP que introduzimos nos dados da população do genótipo para o primeiro modelo de população da mesma maneira como descrito acima para uma fração variável de alelos mascarados de 2,5% a 50%. Hapl-O-Mat com seu filtro de ambiguidade foi usado para resolver essas ambiguidades, traduzir os alelos resultantes de volta para grupos g, e calcular as frequências haplotype. Repetimos este procedimento dez vezes para calcular a média e o desvio padrão das usagens e períodos de execução da memória. Os resultados são visualizados na Fig. 5.,

Fig. 5

Performance of Hapl-o-Mat with regard to varying share of typing records containing NMDP codes. A parcela a mostra a utilização média da memória com desvios-padrão e a duração média da parcela b com desvios-padrão para ambos; estimativa de frequência do pré-processamento de dados e do haplótipo

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *