Em formação

Matriz Blosum com probabilidades em vez das pontuações positivas e negativas

Matriz Blosum com probabilidades em vez das pontuações positivas e negativas


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou tentando encontrar uma versão da matriz BLOSUM que tenha as frequências em vez das probabilidades de log em escala. ou seja, em vez da versão comum que nos diz que a pontuação LEU / ASP é -4, gostaria de saber a probabilidade de o LEU ser substituído por ASP.


Baixe os dados e o código-fonte do BLOSUM aqui. Descompacte o arquivo que contém vários arquivos. O arquivo chamadoblosum'XX'.qijterá as probabilidades de co-ocorrência, e as probabilidades de substituição podem ser calculadas a partir delas.

Também dê uma olhada neste artigo.


É claro que nem todos os locais em proteínas homólogas são conservados na mesma extensão. Aqueles que são essenciais serão altamente conservados (intolerantes a mudanças), enquanto outros que são menos importantes para a estrutura e função estarão sob menos restrições evolutivas (tolerantes a mudanças). Aqui, Ng e Henikoff descrevem um algoritmo, SIFT, um método baseado em homologia de sequência que classifica substituições de aminoácidos intolerantes de tolerantes. Ao alinhar várias sequências semelhantes e avaliar a probabilidade de substituição em qualquer posição na sequência, o SIFT ajuda a avaliar o impacto de uma substituição de aminoácidos na estrutura ou função de uma proteína. Este método pode ser útil nas seguintes circunstâncias: durante a triagem de mutação quando o status de uma mutação suspeita de ser patogênica não pode ser formalmente demonstrado (por exemplo, na ausência de DNA parental) para avaliar o impacto das substituições de aminoácidos na aptidão em escala genômica e em genética de populações, para evitar o uso de marcadores que possam estar sob pressão seletiva.

SIFT pega uma sequência de consulta e procura sequências semelhantes usando ferramentas conhecidas (PSI-BLAST e MOTIF). Em seguida, um alinhamento de sequência múltipla é obtido e as probabilidades normalizadas para todas as substituições possíveis em cada posição do alinhamento são calculadas (fornecendo informações específicas da posição). Se a probabilidade de substituição for menor do que um corte especificado, a mudança é considerada deletéria. O desempenho do SIFT foi testado usando três conjuntos de dados de mutação: o repressor do operon da lactose, LacI a protease do HIV-1 e o bacteriófago T4 lisozima. A precisão da previsão de SIFT está na faixa de 60-80%, dependendo do conjunto de dados. Em todos os casos, o desempenho de SIFT foi comparado com as conclusões tiradas da matriz de pontuação de pesquisa BLOSUM62 (matriz de substituição de bloco), que é usada, como muitos outros, para avaliar a importância de um alinhamento de sequência de proteína (como em EXPLOSÃO). O BLOSUM62 ajuda a distinguir entre um resultado biológico 'real' e um alinhamento de sequência obtido por acaso. No BLOSUM, cada mudança de aminoácido possível é atribuída a uma pontuação, onde pontuações positivas serão associadas a mudanças conservadoras e pontuações negativas a mudanças menos conservadoras. As informações específicas da posição são perdidas na matriz BLOSUM, mas são retidas por SIFT, portanto, SIFT supera as conclusões derivadas de BLOSUM62.


Construção de matrizes de substituição

É possível medir a similaridade de sequência de muitas maneiras diferentes, como contar o número de diferenças entre elas (Distância de Hamming), contando o número de inserções, deleções e substituições necessárias para tornar duas sequências idênticas (Distância de Levenshtein), porcentagem de identidade ou apenas usar um sistema de pontuação arbitrário para correspondências, incompatibilidades, inserções e exclusões. Todos esses métodos fornecem uma medida da relação entre as sequências, mas nenhum reflete qualquer associação biológica entre elas.

No reino da bioinformática, estamos interessados ​​em uma relação evolutiva de sequências de DNA e proteínas, exceto no caso de montagem de sequência em que medir erros de sequenciamento e separar repetições são centrais.

As sequências podem ser mais ou menos semelhantes por puro acaso aleatório e, conseqüentemente, precisamos de um método para distinguir uma similaridade aleatória da similaridade causada pelo relacionamento evolutivo. Por outras palavras, desejamos saber se as sequências são homólogas, ou seja, têm um ancestral comum e, em particular, se as sequências têm a mesma função apesar de não terem sequências idênticas. Ser capaz de determinar se duas sequências têm a mesma função é útil para avaliar a função de uma proteína e gene desconhecidos em comparação com um conhecido.

figura 1. Uma descrição esquemática da evolução de sequências de genes homólogos, ou seja, sequências que possuem um ancestral comum. O subconjunto de sequências homólogas são sequências parálogas e ortólogas.
[Clique na imagem para alternar o zoom & # 9713]

A sequência de aminoácidos de uma proteína é crucial para determinar sua estrutura e, por sua vez, a função é profundamente dependente da estrutura tridimensional de uma proteína. Muitas mutações de aminoácidos que resultam em aminoácidos alterados com propriedades físico-químicas semelhantes podem não alterar a estrutura de uma proteína de nenhuma forma funcionalmente crítica. Em contraste, uma única mudança de amino pode alterar a função. Observe que só podemos observar os casos em que uma função alterada não é deletéria e, portanto, não resulta na morte de um organismo. Além disso, mudanças que resultam em uma função alterada ainda produzem proteínas homólogas, mas elas não são mais ortólogas, pois não têm a mesma função (Figura 1).

Consequentemente, ao observar mutações entre sequências de proteínas ortólogas, podemos determinar quais alterações de aminoácidos são possíveis sem alterar a função de uma proteína. Além disso, ao enumerar as frequências dessas mudanças, podemos construir sistemas de pontuação.

A pesquisa realizada pela primeira vez por Margaret Dayhoff na década de 1970 e colegas e posteriormente por Henikoff e Henikoff no início da década de 1990 resultou em matrizes de substituição PAM e BLOSUM e são as mais amplamente utilizadas atualmente. Este tutorial descreve sua construção e uso.

Matrizes BLOSUM

Ao estudar um amplo conjunto de sequências de diferentes espécies, conhecidas por serem homólogas e com a mesma função, ou seja, sequências ortólogas, podemos observar alterações nos aminoácidos que preservam uma função.

Para medir as frequências de aminoácidos, Henikoff e Henikoff analisaram regiões conservadas de sequências de proteínas relacionadas que obtiveram do banco de dados BLOCKS. No total, eles examinaram 2.000 blocos sem lacunas e 500 grupos de proteínas relacionadas, contando o número de correspondências e incompatibilidades de cada tipo dos 20 aminoácidos diferentes.

A partir das contagens de cada tipo, Henikoff e Henikoff criaram uma tabela de frequência e, usando essas frequências, calcularam ainda mais a probabilidade de cada tipo de correspondência e incompatibilidade e, em seguida, converteram as probabilidades em logaritmo de odds ratios. Dessa forma, a pontuação de alinhamento torna-se zero se as frequências observadas forem as esperadas, pontuação negativa se as frequências forem menores que as esperadas e pontuação positiva quando as frequências estiverem acima das frequências esperadas.

No entanto, essas não são as pontuações finais na matriz BLOSUM final. Para obter as pontuações finais na matriz, Henikoff e Henikoff converteram ainda mais as razões log-odds em unidades de bits e multiplicaram cada pontuação de bit por um fator de escala de dois e arredondados para o inteiro mais próximo, produzindo as pontuações finais na matriz BLOSUM.

Uma família de matrizes

As sequências em um cluster de família de proteínas podem ser bastante divergentes devido às contribuições de parentes distantes. Portanto, Henikoff e Henikoff dividiram os grupos familiares em sub-grupos por sua porcentagem de similaridade para reduzir contribuições múltiplas para frequências de pares de aminoácidos. Esta divisão resultou na família BLOSUM de matrizes onde o número associado, por exemplo, BLOSUM65 significa que as pontuações são de um agrupamento de sequências onde as sequências são pelo menos 65% semelhantes, na matriz BLOSUM80 as pontuações são de agrupamentos com pelo menos 80% de semelhança e assim por diante.


Figura 3. Exemplo de coluna de alinhamento de sequência de dez sequências de um bloco conservado. Nove Ds e um N.

A matemática

Como exemplo, consideramos uma coluna que consiste em nove Ds e um N. Existem nove pares N-D e nove D-N, e 36 (1 + 2 + 3 +. 8) pares D-D possíveis (Figura 3).

Para criar uma tabela de frequência, contamos o número de vezes, (n ), cada um dos 210 (20, 19 +. 1) pares de aminoácidos possíveis ocorrem em um bloco de profundidade de (d ) sequências como segue: (wd (d-1) / 2 = n ), onde (w ) é o número de colunas no bloco. Neste exemplo (d = 10 ) e (w = 1 ) Assim, o bloco contribui com 1x10x (10-1) / 2 = 45 pares de aminoácidos para a contagem.

A probabilidade de ocorrência observada (q_ ) de cada par de aminoácidos (i ), (j ) é

Onde (1 leq i leq j leq 20 ). Inserindo os números da equação acima em nosso exemplo na Figura 2, obtemos o seguinte: (f_

= 36 ), (f_= 9 ), (q_
= 36/45 = 0,8 ), e (q_=9/45=0.2 ).

Posteriormente, estimamos a probabilidade de ocorrência (P (x) ) de cada aminoácido como

Em nosso exemplo, 36 pares de sequência têm D em ambas as posições, e nove pares têm D apenas em uma única posição, portanto, a probabilidade esperada (P (D) = frac <[36+ (9/2)]> <45> = 0,9 ) e (P (N) = frac <(9/2)> <45> = 0,1 ), assumindo que as frequências observadas são as mesmas da população. A fórmula geral para calcular a probabilidade da ocorrência (p_ ) do (i ) th aminoácido em um par (i ), (j ) é

O cálculo da probabilidade esperada de ocorrência de cada par de aminoácidos é (p_p_) para (i = j ) e (p_p_+ p_p_= 2p_p_) para (i ne j ). Em nosso exemplo, isso dá DD (= 0,9 vezes 0,9 = 0,81 ) e para DN + ND (= 2 vezes (0,9 vezes 0,1) = 0,18 ).

Para obter uma pontuação útil (s_), primeiro calculamos uma tabela de razão de chances onde uma entrada (e_) para cada par de aminoácidos é ( frac<>><>> ) e, em seguida, obtenha um logaritmo da base dois de cada entrada (s_= log_ <2> ( frac<>><>>) ). Esta pontuação resulta na pontuação de alinhamento (s_) tornar-se zero se as frequências observadas forem as esperadas, para uma pontuação negativa se as frequências forem menores do que o esperado e para uma pontuação positiva quando as frequências forem maiores do que as frequências esperadas.

Em seguida, multiplicamos cada pontuação (s_) por dois e arredondar para o número inteiro mais próximo para gerar as pontuações finais nas matrizes BLOSUM (Figura 2).

Por que diferentes pares de aminoácidos idênticos não têm a mesma pontuação?

Observando as pontuações do BLOSUM62, podemos observar que o emparelhamento de identidade de diferentes aminoácidos não obtém a mesma pontuação. A razão é que a abundância observada de aminoácidos não é a mesma. Por exemplo, o emparelhamento Leucina-Leucina (Leu-Leu) obtém pontuação quatro e o emparelhamento Triptofano-Triptofano (Trp-Trp) obtém pontuação 11 porque a Leucina é observada como sendo mais abundante na natureza do que o Triptofano. Assim, o emparelhamento Trp-Trp é menos provável de seja um aleatório.

Testando hipóteses

O método de pontuação acima é, na verdade, um teste de hipótese e, em geral, a pontuação (S (a, b) ) para uma substituição do aminoácido (a ) pelo aminoácido (b ) é

Na equação acima (P_) é a probabilidade da hipótese que queremos testar: resíduos correlacionados porque são homólogos e (f_f_ ) é a probabilidade de uma hipótese nula: resíduos não estão relacionados.


Notas Suplementares

Um programa para obter uma matriz de pontuação de alinhamento (possivelmente arbitrária) e calcular de volta as frequências alvo implícitas pab. (DOC 81 kb)

Para fazer isso, é necessário resolver um lambda diferente de zero em: sum_ab f_a f_b e < lambda s_ab> = 1 e esta é uma boa desculpa para demonstrar dois métodos de localização de raiz: pesquisa de bissecção e o método de Newton / Raphson.

O programa é ANSI C e deve ser compilado em qualquer máquina com um compilador C:% cc -o lambda lambda.c -lm Qualquer dúvida sobre este programa deve ser encaminhada diretamente ao autor.


Desencadeando a Geração de Alinhamentos Lacrados

A Figura 1 mostra que mesmo ao usar o método original de um hit com parâmetro de limite T = 13, geralmente não há mais do que 4% de chance de perder um HSP com pontuação & gt38 bits. Embora isso pareça suficiente para a maioria dos propósitos, o padrão de um clique T parâmetro normalmente foi definido tão baixo quanto 11, resultando em um tempo de execução quase três vezes maior do que para T = 13. Por que pagar esse preço pelo que parece, na melhor das hipóteses, ganhos marginais de sensibilidade? A razão é que o programa BLAST original trata alinhamentos com lacunas implicitamente, localizando, em muitos casos, vários HSPs distintos envolvendo a mesma sequência de banco de dados e calculando uma avaliação estatística do resultado combinado (21, 22). Isso significa que dois ou mais HSPs com pontuações bem abaixo de 38 bits podem, em combinação, atingir significância estatística. Se qualquer um desses HSPs for perdido, o resultado combinado também pode ser.

Uma extensão com lacuna gerada pelo BLAST para a comparação de leghemoglobina I de feijão largo (87) e β-globina de cavalo (88). (uma) A região do gráfico de caminho explorada quando semeada pelo alinhamento de resíduos de alanina nas respectivas posições 60 e 62. Esta semente deriva do HSP gerado pela esquerda das duas extensões sem lacuna ilustradas na Figura 2. O Xg parâmetro dropoff é a pontuação nominal 40, usado em conjunto com as pontuações de substituição BLOSUM-62 e um custo de 10 + k para lacunas de comprimento k. (b) O caminho correspondente ao alinhamento local ideal gerado, sobreposto aos acertos descritos na Figura 2. O programa BLAST original, usando a heurística de um acerto com T = 11, é capaz de localizar três das cinco HSPs incluídas neste alinhamento, mas apenas a primeira e a última alcançam uma pontuação suficiente para ser relatada. (c) O alinhamento local ideal, com pontuação nominal de 75 e pontuação normalizada de 32,4 bits. No contexto de uma pesquisa de SWISS-PROT (26), lançamento 34 (21 219 450 resíduos), usando a sequência de leghemoglobina (143 resíduos) como consulta, o E-valor é 0,54 se nenhuma correção de efeito de borda (22) for invocada. O programa BLAST original localiza o primeiro e o último segmentos sem lacunas deste alinhamento. Usando estatísticas de soma sem correção de efeito de borda, este resultado combinado tem um E-valor de 31 (21, 22). Nas linhas centrais do alinhamento, as identidades são ecoadas e as substituições para as quais a matriz BLOSUM-62 (18) dá uma pontuação positiva são indicadas por um símbolo ‘+’.

Uma extensão com lacuna gerada pelo BLAST para a comparação de leghemoglobina I de feijão largo (87) e β-globina de cavalo (88). (uma) A região do gráfico de caminho explorada quando semeada pelo alinhamento de resíduos de alanina nas respectivas posições 60 e 62. Esta semente deriva do HSP gerado pela esquerda das duas extensões sem lacuna ilustradas na Figura 2. O Xg parâmetro dropoff é a pontuação nominal 40, usado em conjunto com as pontuações de substituição BLOSUM-62 e um custo de 10 + k para lacunas de comprimento k. (b) O caminho correspondente ao alinhamento local ideal gerado, sobreposto aos acertos descritos na Figura 2. O programa BLAST original, usando a heurística de um acerto com T = 11, é capaz de localizar três das cinco HSPs incluídas neste alinhamento, mas apenas a primeira e a última alcançam uma pontuação suficiente para ser relatada. (c) O alinhamento local ideal, com pontuação nominal de 75 e pontuação normalizada de 32,4 bits. No contexto de uma pesquisa de SWISS-PROT (26), lançamento 34 (21 219 450 resíduos), usando a sequência de leghemoglobina (143 resíduos) como consulta, o E-valor é 0,54 se nenhuma correção de efeito de borda (22) for invocada. O programa BLAST original localiza o primeiro e o último segmentos sem lacunas deste alinhamento. Usando estatísticas de soma sem correção de efeito de borda, este resultado combinado tem um E-valor de 31 (21, 22). Nas linhas centrais do alinhamento, as identidades são ecoadas e as substituições para as quais a matriz BLOSUM-62 (18) dá uma pontuação positiva são indicadas por um símbolo ‘+’.

A abordagem adotada aqui permite que o BLAST produza simultaneamente alinhamentos com lacunas e execute significativamente mais rápido do que antes. A ideia central é acionar uma extensão de lacuna para qualquer HSP que exceda uma pontuação moderada Sg, escolhido de forma que não mais do que cerca de uma extensão seja chamada por 50 sequências de banco de dados. (Por equação 2, para uma consulta de proteína de comprimento típico, Sg deve ser definido em ∼22 bits.) Uma extensão com intervalo leva muito mais tempo para executar do que uma extensão sem intervalo, mas executando muito poucos deles, a fração do tempo total de execução que consomem pode ser mantida relativamente baixa.

Ao buscar um único alinhamento com lacunas, em vez de uma coleção de sem lacunas, apenas um dos HSPs constituintes precisa ser localizado para que o resultado combinado seja gerado com sucesso. Isso significa que podemos tolerar uma chance muito maior de perder qualquer HSP de pontuação moderada. Por exemplo, considere um resultado envolvendo dois HSPs, cada um com a mesma probabilidade P de ser perdido no estágio de acerto do algoritmo BLAST, e suponha que desejamos encontrar o resultado combinado com probabilidade de pelo menos 0,95. O algoritmo original, precisando encontrar ambos os HSPs, requer 2PP 2 ≤ 0,05 ou P menos de ∼0,025. Em contraste, o novo algoritmo requer apenas que P 2 ≤ 0,05 e, portanto, pode tolerar P tão alto quanto 0,22. Isso permite o T parâmetro para o estágio de acerto do algoritmo a ser aumentado substancialmente, mantendo uma sensibilidade comparável - de T = 11 a T = 13 para a heurística de um acerto. (A heurística de dois acertos descrita acima diminui T voltar para 11.) Como será discutido abaixo, o aumento resultante na velocidade mais do que compensa o tempo extra necessário para a rara extensão com intervalo.

Em resumo, o novo algoritmo BLAST com lacuna requer dois acertos de pontuação não sobrepostos, pelo menos T, dentro de uma distância UMA um do outro, para invocar uma extensão sem lacuna do segundo hit. Se o HSP gerado tiver pontuação normalizada, pelo menos Sg bits, então uma extensão com intervalo é acionada. O alinhamento com lacuna resultante é relatado apenas se tiver um E-valor baixo o suficiente para ser do seu interesse. Por exemplo, na comparação de pares da Figura 2, a extensão sem lacuna invocada pelo par de acertos à esquerda produz um HSP com pontuação de 23,6 bits (calculado usando λvocê e Kvocê) Isso é suficiente para acionar uma extensão com lacuna, que gera um alinhamento com pontuação de 32,4 bits (calculado usando λg e Kg) e E-valor de 0,5 (Fig. 3). O programa BLAST original localiza apenas o primeiro e o último segmentos sem lacuna deste alinhamento (Fig. 3c), e atribui a eles um E-valor & gt50 vezes maior.


Alinhamento de sequência em pares

Quão semelhantes são duas sequências? Esta questão simples conduz grande parte da bioinformática, da montagem de fragmentos de sequência sobrepostos em contigs, alinhamento de novas sequências contra genomas de referência, pesquisas BLAST de bancos de dados de sequência, filogenia molecular e modelagem de homologia de estruturas de proteínas.

Responder a esta pergunta requer encontrar o alinhamento ideal entre duas sequências diferentes, pontuando sua similaridade com base no alinhamento ideal e, em seguida, avaliando a significância dessa pontuação. O alinhamento ideal, é claro, depende do esquema de pontuação.

Vamos considerar 3 métodos para alinhamento de sequência de pares: 1) gráfico de pontos, 2) alinhamento global e 3) alinhamento local.

Dot Plot

O método mais simples é o gráfico de pontos. Uma sequência é escrita horizontalmente e a outra sequência é escrita verticalmente, ao longo da parte superior e lateral de uma grade m x n, onde m e n são os comprimentos das duas sequências. Um ponto é colocado em uma célula da grade sempre que as duas sequências coincidirem. Uma linha diagonal na grade mostra visualmente onde as duas sequências têm identidade de sequência. As comparações do gráfico de pontos da sequência de ácido nucleico mostrarão um nível muito alto de fundo (25% de chance de correspondência aleatória), então os parâmetros devem ser modificados para colocar um ponto apenas se houver uma correspondência quase perfeita ao longo de uma & # 8220janela & # 8221 deslizante 10 ou mais nucleotídeos consecutivos (veja dicas abaixo).

Implementações de gráfico de pontos baseadas na web podem ser encontradas aqui:

http://emboss.bioinformatics.nl/cgi-bin/emboss/dotmatcher & # 8211 para sequências de ácido nucleico e proteínas, com matrizes de pontuação EMBOSS padrão

Programas autônomos de gráfico de pontos operáveis ​​por meio de uma GUI ou linha de comando podem ser encontrados em EMBOSS (JEMBOSS é a GUI Java)

Dicas para gráficos de pontos de DNA (sequência de ácido nucleico):

  • Use uma matriz de pontuação de ácido nucleico: ednafull em EMBOSS
  • Como há apenas 4 nucleotídeos, aumente o tamanho da janela e a pontuação de limite até que o fundo desapareça e você tenha um sinal claro.
  • Usar uma janela muito grande, como 100, com um limite baixo fará com que as diagonais se sobreponham e percam a resolução para ver pequenas repetições ou inversões. Use uma janela menor (menos de 30) e aumente a pontuação limite para favorecer correspondências quase exatas

P: O que um gráfico de pontos mostrará se houver

  1. inserções e exclusões?
  2. Uma inversão?
  3. Um motivo de sequência que se repete?
  4. Um trecho homopolimérico?
  5. Um gráfico de pontos comparando duas sequências de nucleotídeos terá muito ruído de fundo & # 8211 como esse ruído de fundo pode ser reduzido ou suprimido?

Alinhamento Global: Needleman-Wunsch

O algoritmo publicado por Needleman e Wunsch em 1970 para o alinhamento de duas sequências de proteínas foi a primeira aplicação da programação dinâmica à análise de sequências biológicas. O algoritmo Needleman-Wunsch encontra o alinhamento global de melhor pontuação entre duas sequências. Uma postagem no blog de Chetan tem uma explicação muito clara de como isso funciona. Os alinhamentos globais são mais úteis quando as duas sequências comparadas são de comprimentos semelhantes e não muito divergentes.

Alinhamento local: Smith-Waterman

A vida real costuma ser complicada, e observamos que os genes e as proteínas que eles codificam sofreram embaralhamento de exon, recombinação, inserções, deleções e até fusões. Muitas proteínas exibem arquitetura modular. Na busca de sequências semelhantes em bancos de dados, é útil encontrar sequências que tenham domínios ou motivos funcionais semelhantes. Smith & amp Waterman (1981) publicaram uma aplicação de programação dinâmica para encontrar alinhamentos locais ideais. O algoritmo é semelhante ao Needleman-Wunsch, mas os valores negativos das células são redefinidos para zero e os procedimentos de rastreamento começam na célula de maior pontuação, em qualquer lugar da matriz, e terminam quando o caminho encontra uma célula com valor zero.

Matrizes de pontuação

Os algoritmos Needleman-Wunsch e Smith-Waterman requerem uma matriz de pontuação. A matriz de pontuação atribui uma pontuação positiva para uma correspondência e uma penalidade para uma incompatibilidade. Para alinhamentos de sequência de nucleotídeos, a matriz de pontuação mais simples concede +1 para uma correspondência e -1 para uma incompatibilidade. O algoritmo blastn no NCBI pontua +5 para uma correspondência e -4 para uma incompatibilidade. Essas matrizes de pontuação tratam todas as mutações (incompatibilidades) igualmente. Na realidade, as transições (pirimidina - & gt pirimidina e purina - & gt purina) ocorrem com muito mais frequência do que transversões (pirimidina - & gt purina e vice-versa). Para alinhar sequências de DNA que não codificam proteínas, uma matriz de pontuação de transição / transversão pode ser mais apropriada. Para alinhar sequências de DNA que codificam proteínas, o alinhamento das sequências de aminoácidos da proteína quase sempre será mais confiável.

Transições e transversões, da Wikipedia

Para alinhamentos de sequência de proteínas, as matrizes de pontuação são mais complicadas. O objetivo é refletir processos evolutivos. Algumas alterações na sequência de aminoácidos podem surgir de uma única alteração de nucleotídeo, enquanto outras alterações de aminoácidos requerem duas alterações de nucleotídeo. Algumas alterações de aminoácidos têm menos probabilidade de afetar a estrutura ou função da proteína do que outras alterações de aminoácidos. Então, como podemos estimar a probabilidade relativa de mudanças específicas de aminoácidos?

Dayhoff usou alinhamentos de proteínas altamente conservadas para avaliar quais mudanças de aminoácidos provavelmente seriam aceitas e # 8211 P oint A ccepted M utations. A partir desses dados, ela desenvolveu uma matriz de substituição de 20 x 20 aminoácidos para PAM-1, uma unidade de mudança evolutiva resultando em 1 mutação aceita por 100 aminoácidos. A partir daí, ela calculou outras matrizes, como PAM-2 ou PAM-30 ou PAM-250, onde o PAM-n matriz é derivada pela multiplicação da matriz PAM-1 para si mesma n vezes. As matrizes de substituição são convertidas em matrizes de pontuação, convertendo as probabilidades de substituição em razões log-odds para cada célula.

As matrizes BLOSUM (BLO cks SU bstitution M atrix) derivam suas frequências de substituição de aminoácidos do banco de dados Blocks de alinhamentos de sequência múltipla local sem lacuna. BLOSUM62 é calculado a partir de sequências com 62% de identidade ou menos BLOSUM 80 a partir de sequências com 80% ou menos.

O artigo da Wikipedia sobre matrizes de substituição fornece uma descrição razoavelmente concisa e precisa das matrizes PAM e BLOSUM. http://en.wikipedia.org/wiki/Substitution_matrix

Penalidade de lacuna

Os alinhamentos de sequência geralmente requerem a inserção de lacunas, refletindo as mutações de inserção ou exclusão. Se um nucleotídeo ou aminoácido em uma sequência está alinhado a uma lacuna na sequência alvo, isso deve ser penalizado como uma incompatibilidade. No entanto, lacunas no final das sequências talvez não devam incorrer em nenhuma penalidade. Além disso, uma única mutação de inserção ou deleção pode resultar em uma lacuna contígua de vários resíduos. Portanto, uma única lacuna com 3 resíduos de comprimento deve incorrer em menos penalidade do que 3 lacunas diferentes, de um resíduo cada. Um penalidade de gap afim esquema penaliza pesadamente a abertura de uma lacuna, mas estender uma lacuna pré-existente incorre em uma penalidade muito menor por resíduo adicional.

Avaliando a importância de um alinhamento

Os algoritmos Needleman-Wunsch e Smith-Waterman sempre encontrarão o melhor alinhamento entre duas sequências, estejam ou não relacionadas evolutivamente.

P: Então, como podemos avaliar se um determinado alinhamento entre duas sequências é significativo ou indicativo de homologia (ancestralidade comum)?

Precisamos de uma maneira de estimar a significância estatística de uma determinada pontuação de alinhamento. Qual a probabilidade de que duas sequências aleatórias de comprimento e composição semelhantes se alinhem com uma pontuação igual ou melhor do que o nosso alinhamento de destino?

Para alinhamentos globais, não existe uma teoria adequada para prever a distribuição de pontuações de alinhamento a partir de sequências geradas aleatoriamente. Pode-se simplesmente gerar pontuações de alinhamentos de sequências que foram embaralhadas aleatoriamente muitas vezes. Se 100 desses embaralhamentos produzirem pontuações de alinhamento menores do que a pontuação de alinhamento observada, então pode-se dizer que o valor p provavelmente será menor que 0,01.

Para alinhamentos locais, a teoria da probabilidade prevê que sequências aleatoriamente embaralhadas produzirão pontuações de alinhamento com uma distribuição de valor extremo (máximo tipo I).


Materiais e métodos

Tabela de Reagentes e Ferramentas

Reagente / Recurso Referência ou fonte Identificador ou número de catálogo
Programas
Pitão v3.7 https://www.python.org/
scanpy v1.4 https://pypi.org/project/scanpy/
tensorflow v2.0.1 https://pypi.org/project/tensorflow/

Métodos e protocolos

Nota geral sobre conjuntos de dados

Neste estudo, trabalhamos em conjuntos de dados de bancos de dados públicos IEDB (Vita et al, 2019) e VDJdb (Shugay et al, 2018) e em um conjunto de dados públicos de um experimento de especificidade de célula T baseado em pMHC de célula única (10x Genomics, 2019). IEDB e VDJdb contêm pares de receptores de células T de ligação (TCRs) e antígenos. No experimento de célula única, as células foram primeiro tratadas com pMHCs com código de barras e, em seguida, foram fisicamente separadas em gotículas em uma configuração de microfluídica. pMHCs capturados nestas gotículas e sequências de receptor de células T associadas às células capturadas são codificados em barras com uma sequência específica de gotículas de modo que ambos possam ser mapeados para uma única observação após o sequenciamento (10x Genomics, 2019). Consequentemente, pode-se obter não apenas uma lista de TCRs e antígenos ligados, mas também contagens de pMHC para cada TCR. Essas contagens podem ser discretizadas em eventos de ligação e ligação “espúria” ou podem ser modeladas diretamente conforme proposto no texto principal. É importante ressaltar que pode-se estabelecer facilmente a identidade de múltiplos antígenos de ligação a uma única sequência de TCR com base em tais contagens de pMHC. Dois dos quatro doadores (doadores 1 e 2) eram HLA-A * 02: 01 (10x Genomics, 2019), que também era o tipo de HLA selecionado nas amostras IEDB e VDJdb. Uma descrição detalhada dos tipos de HLA e tipos de pMHC usados ​​neste estudo é fornecida em outro lugar (10x Genomics, 2019).

Estatisticas

Apresentamos P-valores para comparações de desempenho do modelo selecionado. Esses P-valores foram calculados na comparação de dois conjuntos de métricas de desempenho. Usamos Welch's t-teste se comparamos dois conjuntos de métricas de desempenho de dois conjuntos separados de validação cruzada, o que é equivalente ao caso de ambos os conjuntos compartilharem todos os hiperparâmetros do modelo, exceto a partição de validação cruzada. Usamos o teste de Wilcoxon se comparássemos as métricas entre conjuntos de modelos que variam em hiperparâmetros, pois não se esperaria mais uma distribuição de métrica de desempenho unimodal nesses casos.

Arquiteturas de rede feed-forward

Aqui, descrevemos as arquiteturas propostas dos modelos que predizem a especificidade do antígeno de um receptor de células T (TCR) com base na alça CDR3 de ambas as cadeias ɑ e β e em covariáveis ​​específicas de células. Observe que as influências determinantes da especificidade das alças CDR1 e CDR2 (Cole et al, 2009 Madura et al, 2013 Stadinski et al, 2014) e regiões distais (Harris et al, 2016a, b) também foram demonstrados, mas não foram medidos no ensaio de pMHC de célula única. Todas as redes apresentadas contêm uma incorporação inicial de aminoácidos, um bloco de incorporação de dados de sequência e um bloco final de camada densamente conectada.

Incorporação de aminoácidos

A escolha da incorporação de aminoácidos inicial pode impactar os dados e a eficiência dos parâmetros do modelo e, portanto, pode impactar o poder preditivo dos modelos treinados em conjuntos de dados que estão atualmente disponíveis. Usamos embeddings de aminoácidos codificados one-hot, embeddings inspirados na substituição evolutiva (BLOSUM) e embeddings aprendidos. Os embeddings aprendidos foram uma convolução 1 × 1 no topo de uma codificação BLOSUM e foram anexados à pilha de camadas do modelo de sequência. Aqui, os canais são as incorporações iniciais de aminoácidos (escolhemos BLOSUM50) e os filtros são as incorporações de aminoácidos aprendidas. Essa incorporação aprendida pode reduzir o tamanho do parâmetro da pilha de camadas do modelo de sequência. Todos os ajustes apresentados no manuscrito, exceto no Apêndice Fig S1, são baseados em tal incorporação aprendida com cinco filtros. Prevemos que embeddings baseados em sequência ganharão relevância no contexto de extrapolação entre antígenos no futuro. Aqui, a eficiência dos parâmetros nos modelos de sequência desempenhará um papel importante e a convolução 1 × 1 apresentada aqui é um primeiro passo intuitivo nessa direção.

Incorporação de dados de sequência

Selecionamos vários tipos de camadas no bloco de incorporação de dados de sequência: camadas recorrentes (GRU e LSTM bidirecionais), autoatenção, camadas convolucionais (convoluções simples e semelhantes a início) e camadas densamente conectadas como referência. Tipos de camadas recorrentes e camadas de autoatenção eram anteriormente úteis para modelar a linguagem (Vaswani et al, 2017) e epítopo (Wu et al, 2019) dados. Tipos de camada convolucional têm sido úteis para modelar epítopo (Han & Kim, 2017 Vang & Xie, 2017) e imagem (Szegedy et al, 2015) dados. As camadas do modelo de sequência retêm informações posicionais nas camadas subsequentes e podem, assim, construir uma representação cada vez mais abstrata da sequência. Para conseguir isso em redes recorrentes, escolhemos a saída de uma camada para ser um estado de rede em posição que resulta em um tensor de saída de tamanho (lote, posições × 2, dimensão de saída) para uma rede bidirecional. Essa codificação de posição ocorre naturalmente em redes convolucionais e de autoatenção. Não usamos transformações de recurso com sinais posicionais (Vaswani et al, 2017) nas redes de autoatenção, de modo que a rede não tenha conhecimento da estrutura de sequência original, mas ainda possa reter a estrutura inferida nas camadas subsequentes. Apresentamos modelos de ajuste na alça CDR3 de ambas as cadeias ɑ e β do TCR (Fig. 1B) e os modelos se encaixam na alça CDR3 da cadeia β e na sequência do antígeno (Figura 3B). Em ambos os casos, precisamos integrar duas sequências. Para este fim, usamos pilhas de camadas de incorporação de sequência separadas para cada sequência (todos os modelos apresentados na Fig. 1 e os modelos indicados como "separados" na Fig. 3) ou anexando as duas sequências preenchidas e usando uma única pilha de camadas de incorporação de sequência (modelos indicados como “concatenados” na Fig. 3). Reduzimos a codificação posicional a um espaço latente de dimensionalidade fixa na última camada de incorporação de sequência de redes recorrentes pelo estado emitido do modelo no último elemento da sequência em cada direção. Esta última camada permite o uso das mesmas camadas densas finais, independentemente do comprimento da sequência de entrada. As redes convolucionais e de autoatenção não foram construídas para serem independentes do comprimento da sequência. No entanto, preenchemos as sequências de entrada para mitigar esse problema nos dados tratados neste documento. Usamos uma conexão residual em todas as camadas de incorporação de sequência. Outros hiperparâmetros específicos de camada podem ser extraídos do código fornecido com este manuscrito (Dataset EV1 e EV2).

Camadas finais densamente conectadas

Alimentamos a ativação gerada no bloco de incorporação de sequência em uma rede densa que pode integrar as informações da sequência com covariáveis ​​contínuas ou categóricas do doador e específicas da célula. Modelamos o evento de ligação como uma distribuição de probabilidade sobre dois estados (ligado e não ligado) e calculamos o desvio da previsão do modelo de eventos de ligação observados por meio da perda de entropia cruzada. Em primeiro lugar, pode-se usar tais modelos para prever eventos de ligação em um único antígeno representado como um único nó de saída com uma função de ativação sigmóide. Em segundo lugar, pode-se modelar um evento de ligação único entre um painel de antígenos com um vetor de nós de saída (um para cada antígeno e um nó para não ligação) que são transformados com uma função de ativação softmax.

Processamento de covariáveis

Montamos uma matriz de design inspirada na modelagem linear para usar como uma matriz de covariável. Modelamos o doador como uma covariável categórica, resultando em uma codificação one-hot do doador. Modelamos contagens totais, contagens de pMHC de controle negativo e contagens de proteínas de superfície como covariáveis ​​contínuas. Nós registramos (x + 1) contagens de pMHC de controle negativo transformadas e contagens de proteínas de superfície para aumentar a estabilidade do treinamento. Modelamos as contagens totais como a contagem total de mRNAs por célula dividida pela contagem total média.

Treinamento, validação e divisões de teste

Usamos dados de treinamento para calcular atualizações de parâmetros, dados de validação para controlar overfitting e dados de teste para comparar modelos em hiperparâmetros. O treinamento do modelo foi encerrado quando um número máximo de épocas foi atingido ou se a perda de validação não estava mais diminuindo. Neste último caso, o modelo com a validação mais baixa em uma janela deslizante de n épocas até a última época foi escolhida n é fornecido nos scripts de pesquisa de grade (Dataset EV3). As métricas de modelo apresentadas neste manuscrito são métricas avaliadas nos dados de teste para modelos selecionados em entropia cruzada (predição de ligação categórica) ou erro de log quadrático médio (predição de contagem de dextramer) dos dados de validação. Fornecemos curvas de treinamento para todos os modelos que contribuíram para os painéis neste manuscrito no Dataset EV3.

Otimização

Usamos o otimizador ADAM em todo o manuscrito para todos os modelos. Usamos cronogramas de taxa de aprendizado que reduzem a taxa de aprendizado no momento do treinamento, uma vez que os platôs na métrica de validação são atingidos. A taxa de aprendizado inicial e todos os hiperparâmetros restantes (tamanho do lote, número de épocas, paciência, etapas por época) foram variados conforme indicado na lista de hiperparâmetros de pesquisa da grade.

Objetivos de ajuste de modelo

Escolhemos a perda de entropia cruzada em valores de ativação de saída transformados por sigmóide ou softmax para treinar modelos que prevêem eventos de ligação binarizados e erro logarítmico médio quadrático (msle) em valores de ativação de saída exponenciados para modelos que prevêem afinidades de ligação contínuas (contagem).

Métricas de desempenho

Usamos AUC ROC, pontuações F1, taxas de falso-negativo e taxas de falso-positivo no estudo para avaliar os modelos que predizem as probabilidades de ligação. AUC ROC é útil se as observações cobrem toda a gama de limites de classificação e é útil porque fornece uma medida que resume todos os limites de classificação escalar. As pontuações F1 sempre podem ser usadas para avaliar um classificador, mas dependem de um limite estrito. Usamos AUC ROC sempre que possível, mas complementado com pontuações F1 se a pontuação AUC ROC pode sofrer de um suporte desarticulado de dados de teste definidos no limiar de classificação. Taxas de falso-negativo e falso-positivo são usadas no Apêndice Fig S4 para enfatizar como os modelos treinados em dados de célula única generalizam para dados de IEBD e VDJdb nas classes negativa e positiva separadamente. Usamos o R 2 para avaliar o desempenho de modelos que previram contagens de pMHC (espaço inteiro positivo).

Processamento de dados do repertório imunológico de uma única célula (célula T CD8 +)

Processamento de dados primários

Baixamos os dados completos de todos os quatro doadores de outro estudo (10x Genomics, 2019). Todo o processamento de dados para cada ajuste de modelo é documentado no código do pacote (Dataset EV1) e scripts de pesquisa de grade (Dataset EV2). O número de clonotipos de células T por antígeno variou drasticamente entre a ordem de 10 0 e 10 4 (Apêndice Fig. S3A e B). Posteriormente, selecionamos os oito antígenos mais comuns (ELAGIGILTV, GILGFVFTL, GLCTLVAML, KLGGALQAK, RLRAEAQVK, IVTDFSVIK, AVFDRKSDAK, RAKFKQLL) para ajustes de modelo de painel categórico para evitar problemas com desequilíbrios de classe. Usamos a previsão de evento de ligação binarizada pelos autores do conjunto de dados (10x Genomics, 2019 rotulado como “* _binder” nos arquivos “* _binarized_matrix.csv”) como um rótulo para previsão. Para o caso contínuo, no qual previmos contagens de pMHC, escolhemos as colunas de dados de contagem correspondentes no mesmo arquivo. Em seguida, realizamos várias camadas de filtragem de observação: (i) remoção de dupleto, (ii) amostragem reduzida de clonotipo e (iii) amostragem reduzida de classe. Foi mostrado anteriormente que os dupletos, ou seja, gotículas contendo duas células direcionadas com o mesmo código de barras, que não podem ser distinguidas nas etapas de análise a jusante, tendem a ser enriquecidas em subconjuntos de clusters derivados do transcriptoma (Wolock et al, 2019).Propomos o uso do número de alelos da cadeia de TCR reconstruídos para identificar dupletos potenciais e demonstrar que os dubletes assim caracterizados são de fato enriquecidos em um cluster particular em cada doador (Figura do Apêndice S2A-D). Existem células que possuem dois alelos ativos para qualquer uma das cadeias de TCR, mas eles não podem ser facilmente separados dos dupletos que surgem no processo de separação celular. Para evitar o viés dos resultados apresentados por dupletos celulares em potencial, optamos por excluir todas as células que apresentam mais de um alelo para a cadeia ɑ ou β. Investigamos ainda mais a contribuição geral de moléculas potencialmente ambientais que dão origem a todas as células T observadas e descobrimos que as cadeias de alta frequência não dominam o sinal geral (Apêndice Fig S2E e F). Esta análise apresenta um limite superior para o impacto das moléculas ambientais neste experimento, pois os efeitos evolutivos provavelmente também contribuem para a super-representação de sequências de cadeia específicas. Posteriormente, removemos todos os códigos de barras celulares que contêm mais de uma cadeia ɑ ou β, uma vez que as células T CD8 + maduras devem ter apenas um único alelo funcional das cadeias ɑ e β. Em seguida, reduzimos a amostragem de cada clonótipo até um máximo de 10 observações para evitar desviar os dados de treinamento ou teste para clones grandes. Aqui, usamos clonotipos conforme definidos pelos autores do conjunto de dados nos arquivos “* _clonotypes.csv” (10x Genomics, 2019). Por último, reduzimos a amostra da classe maior até um máximo de duas vezes o tamanho da classe menor ao prever um evento de ligação binária para um único antígeno. Não realizamos esta última etapa em cenários de previsão de contagem e multiclasse. Preenchemos cada sequência de CDR3 para um comprimento de 40 aminoácidos e concatenamos essas observações de cadeia preenchida para uma sequência de comprimento de 80 para modelos que foram treinados em ambas as cadeias. Realizamos validação cruzada de deixar um doador de fora em modelos que não tomaram a identidade do doador como uma covariável. Amostramos 25% dos clonotipos de dados completos e atribuímos todas as células correspondentes ao conjunto de teste para todos os modelos que usaram a covariável de doador. O último caso rendeu 68.716 clonotipos e 91.495 células em todos os quatro doadores. Todas as validações cruzadas mostradas em diferentes modelos são baseadas na validação cruzada tripla com divisões de teste-trem propagadas, resultando na mesma divisão em todos os hiperparâmetros. Apresentamos uma análise da diversidade de clonotipos encontrada neste conjunto de dados no Apêndice Fig S6.

Binarização de contagens de pMHC de célula única em estados ligados e não ligados

Usamos a binarização descrita na publicação original (10x Genomics, 2019) para as contagens brutas para receber rótulos de resultados binários: Uma contagem de UMI de pMHC total maior que 10 e pelo menos cinco vezes tão alta quanto a contagem de UMI mais alta observada em todos os negativos pMHCs de controle foi necessário para um evento de ligação. Se mais de um pMHC passou nesses critérios, o pMHC com a maior contagem UMI foi escolhido como o ligante único.

Conjunto de conjunto de teste para modelos de ajuste em dados IEDB

Esta seção descreve como o teste descrito na Fig 3E e no Apêndice Fig S5C foi preparado. As células foram filtradas como descrito acima. Em seguida, extraímos um par de ligação do antígeno TCR por célula desta lista. Usamos os pares de antígeno TCR restantes como exemplos negativos validados e reduzimos a amostra para o número de observações positivas para manter o equilíbrio de classe. Todas as validações cruzadas mostradas em diferentes modelos são baseadas na validação cruzada tripla com divisões de teste-trem propagadas, resultando na mesma divisão em todos os hiperparâmetros.

Processamento de dados IEDB

Processamento Primário

Baixamos os dados do site do IEDB (Vita et al, 2019) com os seguintes filtros: epítopo linear, restrição de MHC a HLA-A * 02: 01 e organismo como humano e apenas humano. Isso gerou uma lista de TCR correspondentes (principalmente CDR3s de cadeia β) com antígenos ligados. Atribuímos sequências de TCR a um único clonótipo se elas fossem perfeitamente combinadas e reduzimos a amostragem de todos os clonótipos para uma única observação. Nós apenas extraímos as sequências de cadeia β e CDR3 para um comprimento de 40 aminoácidos. Enchemos as sequências de antígenos até um comprimento de 25 aminoácidos. Amostramos 10% de todas as observações como um conjunto de teste. Geramos amostras negativas para os conjuntos de treinamento e teste separadamente, gerando pares não observados de TCR e antígenos. Aqui, assumimos que todos os TCRs se ligam a um antígeno exclusivo do conjunto de todos os antígenos presentes no banco de dados, de modo que qualquer outro emparelhamento não resultaria em um evento de ligação. Este procedimento rendeu 9.697 observações para os conjuntos positivos e negativos antes da divisão do teste-treinamento de 71 antígenos.

Conjunto de conjunto de teste para modelos de ajuste em dados IEDB

Esta seção descreve como o teste descrito no Apêndice Fig S5A foi preparado. Para explorar a capacidade dos modelos TcellMatch de incorporação de antígeno de generalizar para antígenos invisíveis, ajustamos esse modelo no subconjunto de antígenos de alta frequência de IEDB com pelo menos cinco sequências de TCR exclusivas e testamos os modelos nos antígenos restantes. Todas as validações cruzadas mostradas em diferentes modelos são baseadas na validação cruzada tripla com divisões de teste-trem propagadas, resultando na mesma divisão em todos os hiperparâmetros.

Processamento de dados VDJdb

Processamento Primário

Fornecemos uma análise exploratória deste conjunto de dados no Apêndice Fig S3 “exploit_vdjdb_data. *”. Baixamos os dados do VDJdb (Shugay et al, 2018) website com os seguintes filtros: Espécie: humano, Gene (cadeia): TRB, MHC Alelo (s) da primeira cadeia: HLA-A * 02: 01. Isso rendeu 3.964 registros de 40 antígenos. Atribuímos sequências de TCR a um único clonótipo se elas fossem perfeitamente combinadas e reduzimos a amostragem de todos os clonótipos para uma única observação. Nós apenas extraímos as sequências de cadeia β e CDR3 para um comprimento de 40 aminoácidos. Enchemos as sequências de antígenos até um comprimento de 25 aminoácidos.

Conjunto de teste de montagem de VDJdb para modelos ajustados em dados IEDB

Esta seção descreve como o teste representado na Fig. 3D e no Apêndice da Fig. S5B foi preparado. Sub-selecionamos observações com antígenos correspondentes ou não correspondentes em relação ao conjunto de treinamento, dependendo da aplicação (descrita na legenda da figura ou no texto principal). Todas as validações cruzadas mostradas em diferentes modelos são baseadas na validação cruzada tripla com divisões de teste-trem propagadas, resultando na mesma divisão em todos os hiperparâmetros.


Reconhecimentos

Os autores agradecem a Martin Hess pelas discussões úteis sobre a ferramenta CoverageCalculator. R.T. também agradece várias discussões estimulantes com seus colegas Sr. VA Ramesh, Sr. S Suryanarayana e Sr. Rohan Mishra durante o curso deste estudo. Este trabalho foi apoiado por uma bolsa da H.A.N (University Grants Commission - Universidade com Potencial de Excelência - bolsa II) e também pela bolsa principal do Center for DNA Fingerprinting and Diagnostics (CDFD). R.T. recebe bolsas de estudo para pesquisas júnior e sênior da University Grants Commission (UGC). Agradecemos também ao Departamento de Biotecnologia do Governo da Índia, patrocinado pelo Bioinformatics Infrastructure Facility (BIF) da School of Life Sciences da University of Hyderabad. Por último, mas não menos importante, agradecemos a concessão do projeto INNO Indigo para H.A.N do Departamento de Ciência e Tecnologia (DST), Governo da Índia, por sua ajuda financeira para despesas de processamento de artigos (APC).


Matriz Blosum com probabilidades em vez das pontuações positivas e negativas - Biologia

Notação de sintaxe abstrata 1 (ASN.1)

ASN.1 é uma linguagem de descrição de dados padrão usada para codificar dados estruturados. ASN.1 permite que o conteúdo e a estrutura dos dados sejam lidos e trocados entre uma variedade de programas de computador e plataformas. ASN.1 é a linguagem usada para armazenar e manipular dados no NCBI. Todo o software NCBI lê e grava ASN.1.

O número de acesso é o identificador mais geral usado nos bancos de dados de sequência do NCBI. Este é o identificador que deve ser usado ao citar um registro de banco de dados em uma publicação. O número de acesso aponta para um registro de sequência e não muda quando a sequência é modificada. No sistema Entrez, usar o número de acesso como uma consulta recuperará a versão mais recente do registro. O histórico de atualização de um determinado registro de sequência é rastreado pelo número de adesão. As alterações nos números da versão ocorrem apenas quando a sequência real de um registro foi modificada e não refletem nenhuma alteração na anotação. A versão específica de um registro também é rastreada por outro identificador que é principalmente para uso interno do NCBI, chamado de número GI.

Um algoritmo é um caminho formal por etapas para resolver um problema, por exemplo, o problema de encontrar alinhamentos locais de alta pontuação entre duas sequências. Os algoritmos são a base dos programas de computador.

A pontuação de alinhamento é um número atribuído a um alinhamento em pares ou múltiplo de sequências que fornece um valor numérico que reflete a qualidade do alinhamento. As pontuações de alinhamento são geralmente calculadas referindo-se a algum tipo de tabela de substituição ou matriz de pontuação de alinhamento e somando os valores para cada par ou coluna no alinhamento. (Veja também pontuação bruta e pontuação de bits). Com certas matrizes de pontuação, altas pontuações de alinhamentos locais sem lacunas entre duas sequências aleatórias têm a propriedade especial de seguir a distribuição de valores extremos. Esta propriedade permite que um nível de significância seja atribuído às pontuações de alinhamento local obtidas em pesquisas de banco de dados usando ferramentas como BLAST e FASTA. (Veja também Esperar valor.)

Uma matriz de pontuação é uma tabela de valores usada para atribuir uma pontuação numérica a um par ou coluna de resíduos alinhados em um alinhamento de sequência. O tipo mais simples, uma matriz de identidade, atribui um valor alto para uma correspondência e algum valor baixo, geralmente negativo, para uma incompatibilidade. A matriz de identidade é usada no programa BLAST de nucleotídeo-nucleotídeo do NCBI. Matrizes de pontuação de alinhamento de proteínas são geralmente mais complicadas e levam em consideração a abundância relativa dos aminoácidos em proteínas reais e a observação de que alguns aminoácidos se substituem mais facilmente em proteínas relacionadas (por exemplo, Phe e Tyr) e outros não ( por exemplo, Phe e Asp). Uma maneira de gerar tal matriz é examinar alinhamentos de proteínas reais que são conhecidas por serem homólogas (ver Homolog) e tabular as frequências de substituição dos vários pares de aminoácidos em todas as posições. A tabela de frequência resultante é então convertida em uma matriz aditiva de log-odds tomando o log da razão da frequência de substituição observada para um par particular e a frequência de substituição de fundo. As séries PAM e BLOSUM são exemplos de matrizes de pontuação de proteínas amplamente utilizadas que são derivadas dessa maneira. As matrizes descritas acima não levam em consideração as diferenças nas frequências de substituição em diferentes posições nos alinhamentos. Matrizes de pontuação específicas para posições mais sensíveis também podem ser geradas. Pontuações de alinhamentos locais de sequências aleatórias derivadas dessas matrizes de log-odds são descritas pela distribuição de valores extremos. Assim, níveis de significância podem ser atribuídos a resultados de pesquisas de banco de dados com essas matrizes usando ferramentas como BLAST e FASTA. (Veja também Esperar valor.)

Alus são a classe mais comum de elemento repetitivo curto, intercalado (SINE) no genoma humano. Alus pode representar mais de 10% do genoma humano. Eles parecem ser derivados de um pseudogene de partícula de reconhecimento de sinal. O nome Alu deriva do fato de que esses elementos geralmente contêm um AluI local de reconhecimento da enzima de restrição.

Uma montagem de sequência é uma grande sequência ou conjunto ordenado de sequências que podem ser derivadas de sequências menores sobrepostas e, às vezes, ancoradas a um genoma ou mapa de escala cromossômica usando informações de conteúdo STS e outras evidências.

B

Cromossomo Bacteriano Artificial (BAC)

Um BAC é um grande vetor de clonagem de inserção capaz de lidar com grandes segmentos de DNA clonado, normalmente em torno de 150 kb. BACs podem ser propagados em cepas de laboratório de Escherichia coli. Esses vetores são usados ​​na construção de bibliotecas genômicas para projetos de sequenciamento em escala de genoma, incluindo humanos, camundongos, Arabidopsise arroz.

BankIt é um formulário da Web para enviar sequências ao GenBank.

Ferramenta Básica de Pesquisa de Alinhamento Local (BLAST)

BLAST é a ferramenta de pesquisa de similaridade de sequência do NCBI. Ele encontra alinhamentos locais de alta pontuação entre uma sequência de consulta e sequências de banco de dados de nucleotídeos e proteínas. Embora o BLAST seja menos sensível do que o algoritmo Smith-Waterman completo, ele fornece um meio-termo útil entre velocidade e sensibilidade, especialmente para pesquisar grandes bancos de dados. Como o BLAST reporta pontuações de alinhamento local, ele fornece estatísticas que podem permitir que alinhamentos biologicamente interessantes sejam distinguidos de alinhamentos aleatórios.

A pontuação de bits representa o conteúdo da informação em um alinhamento de sequência. É expresso em unidades logarítmicas de base 2. A pontuação de bits é, em essência, uma pontuação normalizada ajustada pelos parâmetros de escala do banco de dados e da matriz. Portanto, pontuações de bits para diferentes pesquisas podem ser comparadas e apenas o tamanho do espaço de pesquisa é necessário para calcular a significância (valor esperado) da pontuação. A relação entre o valor esperado (E) e a pontuação de bits (S ') é mostrada na equação 3 abaixo.

As matrizes de substituição BLock são um conjunto de matrizes de pontuação de alinhamento de probabilidade logarítmica de proteínas calculadas a partir de frequências de substituição obtidas a partir de alinhamentos múltiplos sem lacuna de proteínas reais. Cada matriz BLOSUM é identificada com um número que indica o percentual de corte de identidade para inclusão nessa matriz. Por exemplo BLOSUM62, inclui informações de substituição para proteínas até 62% idênticas no alinhamento, BLOSUM90 até 90% idênticas. Cada matriz BLOSUM funciona melhor para encontrar proteínas em um determinado nível de similaridade. Conseqüentemente, o BLOSUM90 é melhor para encontrar proteínas mais estreitamente relacionadas, enquanto o BLOSUM62 é melhor para encontrar proteínas mais distantemente relacionadas. Experimentos mostraram que o BLOSUM62 também funciona bem para encontrar proteínas semelhantes. Por esta razão, BLOSUM62 é a matriz de pontuação de proteína padrão para NCBI BLAST.

C

No sentido molecular, um clone é uma cópia física de um pedaço de DNA. O termo é mais frequentemente usado para se referir ao DNA do vetor de clonagem recombinante contendo esta cópia, tal como um plasmídeo, BAC ou DNA de bacteriófago que pode ser propagado em uma bactéria ou outro hospedeiro microbiano.

Um cluster é um grupo de sequências associadas entre si, geralmente por algum procedimento que depende da similaridade de sequência. Esses clusters de sequências são usados ​​para produzir os conjuntos de dados UniGene e os conjuntos de dados de grupos ortólogos (COGS).

Um COG é um grupo de proteínas relacionadas ou grupos de proteínas (parálogos) de diferentes genomas que se acredita derivarem de um gene ancestral comum. COGs são formados com base na similaridade de sequência usando uma abordagem baseada em BLAST. COGs foram originalmente feitos para os genomas microbianos completos, mas o conjunto de dados está se expandindo para incluir organismos mais complexos. Os dados de COGs são muito úteis para anotar genes em genomas microbianos e podem ser usados ​​para fornecer classificação funcional potencial para proteínas não caracterizadas. (Veja também paralog e ortholog.)

Cn3D (pronuncia-se "ver em três dee") é o visualizador de estrutura do NCBI. Ele lê dados de estrutura Entrez e renderiza estruturas únicas ou alinhamentos estruturais do banco de dados de modelagem molecular do NCBI (MMDB). O Cn3D funciona como um aplicativo auxiliar para o navegador da Web e será iniciado automaticamente quando o navegador fizer download dos dados da estrutura NCBI. O Cn3D também pode funcionar como um visualizador autônomo e pode atuar como um cliente de rede para baixar estruturas do NCBI. Ele também possui um BLAST integrado e capacidade de rosqueamento e pode criar alinhamentos de sequência para ajustar sequências semelhantes a estruturas conhecidas.

O CDART fornece um navegador gráfico que permite encontrar proteínas com uma arquitetura de domínio semelhante (conteúdo e organização), começando com os resultados de uma pesquisa de CDD.

Pesquisa de banco de dados de domínio conservado (CDD)

O CDD Search usa BLAST específico da posição reversa (RPS-BLAST) para identificar domínios conservados contidos em uma consulta de proteína. Os bancos de dados CDD são matrizes de pontuação específicas de posição (PSSMs) criadas a partir de alinhamentos de sequência múltiplos de três bancos de dados de domínio: SMART, PFAM e LOAD.

Contig é a abreviação de sequência contígua. Contigs são sequências primárias sobrepostas montadas. O termo contig surge em dois contextos diferentes nos bancos de dados do NCBI. As sequências de rascunho (divisão HTG) conterão dois ou mais contigs montados a partir de leituras de sequenciamento feitas a partir de bibliotecas de plasmídeo para esse clone. O NCBI também produz contigs feitos pela montagem de registros do GenBank sobrepostos a partir de projetos de genoma em grande escala, como o projeto do genoma humano. Esses contigs estão incluídos nos bancos de dados NCBI RefSeq e recebem números de acesso que começam com o prefixo NT_.

Um banco de dados com curadoria é um banco de dados derivado que contém registros moleculares que são compilados e editados a partir de dados moleculares primários por especialistas que mantêm e são responsáveis ​​pelo conteúdo dos registros. O banco de dados Swiss-Prot é um exemplo importante de banco de dados de sequência de proteínas com curadoria. O NCBI produz um conjunto de dados RefSeq não redundante com curadoria de transcrições e proteínas para organismos importantes.

D

Em biologia molecular, um banco de dados derivado contém informações derivadas e compiladas de dados moleculares primários, mas inclui algum tipo de informação adicional fornecida por curadores especializados ou procedimentos computacionais automatizados.

Um banco de dados de sequência de nucleotídeos primária que é mantido como parte do Centro de Biologia da Informação e Banco de Dados de DNA do Japão (CIB / DDBJ) sob o Instituto Nacional de Genética (NIG) no Japão. A DDBJ começou a aceitar submissões de sequências de DNA em 1986 e faz parte da International Nucleotide Sequence Database Collaboration, que também inclui o GenBank e o banco de dados de sequências de nucloeotídeos EMBL.

Um domínio é uma unidade estrutural discreta de uma proteína. Em princípio, os domínios da proteína são capazes de dobrar independentemente do resto da proteína. Os domínios podem frequentemente ser identificados por abordagens não estruturais baseadas em sequências de aminoácidos conservadas. A pesquisa de CDD do NCBI usa informações de alinhamentos de múltiplas sequências com curadoria para identificar domínios em sequências de proteínas.

A sequência de rascunho é uma sequência genômica ou de cDNA inacabada. Veja HTG e HTC.

E

O e-PCR é uma ferramenta de análise que testa uma sequência de DNA quanto à presença de locais marcados com sequência (STSs). O e-PCR procura STSs em sequências de DNA procurando por subseqüências que correspondam muito aos primers de PCR e tenham a ordem, orientação e espaçamento corretos que poderiam plausivelmente preparar a amplificação de um produto de PCR de comprimento correto.

Banco de dados do Laboratório Europeu de Biologia Molecular (EMBL)

Um banco de dados de sequência de nucleotídeos produzido e mantido no European Bioinformatics Institute (EBI) em Hinxton, Reino Unido, que colabora com o GenBank e o DNA Database of Japan (DDBJ) para formar a International Nucleotide Sequence Database Collaboration.

Ensembl é um projeto conjunto entre a EBI-EMBL e o Sanger Institute para fornecer anotação automática de genomas eucarióticos.

Entrez é um sistema integrado de busca e recuperação que integra informações de vários bancos de dados no NCBI, incluindo sequências de nucleotídeos e proteínas, estruturas 3D e domínios estruturais, genomas, dados de variação (SNPs), dados de expressão gênica, dados de mapeamento genético, estudos populacionais, OMIM, taxonomia, livros online e literatura biomédica.

Uma organização acadêmica sem fins lucrativos que realiza pesquisas em bioinformática e mantém o banco de dados de sequência de nucleotídeos EMBL.

Um recurso dentro do Map Viewer do genoma humano que fornece uma exibição gráfica das evidências moleculares que suportam a existência de um modelo de gene. ev exibe sequências de referência, mRNAs do GenBank, transcritos conhecidos ou potenciais anotados e ESTs que se alinham à área genômica de interesse.

Nas estatísticas BLAST, o valor Esperado é o número de alinhamentos com uma pontuação específica, ou uma pontuação melhor, que se espera que ocorram por acaso ao comparar duas sequências aleatórias. A relação entre o valor esperado e a pontuação de alinhamento é dada pela equação 1

Na Equação 1, e é a base da escala do logaritmo natural, n e m são os comprimentos das duas sequências, essencialmente o tamanho do espaço de pesquisa para pesquisa de banco de dados, e K e lambda são fatores de escala para o espaço de busca e o sistema de pontuação, respectivamente. A pontuação de bits incorpora lambda e K para que as pontuações possam ser comparadas de forma significativa quando diferentes bancos de dados e sistemas de pontuação forem usados.

Tag de sequência expressa (EST)

Uma sequência de DNA curta (300-1000 nucleotídeos), passagem única e leitura única derivada de um clone de cDNA escolhido aleatoriamente. As sequências EST compõem a maior divisão do GenBank. Existem numerosos projetos de sequenciamento de alto rendimento que continuam a produzir um grande número de sequências EST para organismos importantes. Muitos ESTs são classificados em grupos específicos de genes no conjunto de dados UniGene.

F

Uma ferramenta de busca por similaridade de seqüência desenvolvida por William Pearson e David Lipman. O termo FASTA também é usado para identificar um formato de texto para sequências que é amplamente usado. Um arquivo de sequência formatado em FASTA pode conter várias sequências. Cada sequência no arquivo é identificada por um título de linha única precedido pelo sinal de maior que (">"). Exemplo.

A tabela de características é a parte do registro do GenBank que fornece informações sobre as características biológicas que foram anotadas na sequência de nucleotídeos, incluindo regiões codificantes e não codificantes, genes, variações e locais marcados com sequência. A International Sequence Database Collaboration produz um documento que descreve e identifica os recursos permitidos nos registros GenBank, DDBJ e EMBL.

Protocolo de transferência de arquivos (FTP)

FTP é um protocolo padrão da Internet usado para transferir arquivos de e para um site de rede remoto.

Mapa de hibridização de fluorescência in situ (FISH)

Um mapa FISH é um mapa citogenético derivado da localização de sondas marcadas com fluorescência nos cromossomos. Os genes são mapeados de acordo com sua localização citogenética (posição da banda) no cromossomo.

G

GenBank é um banco de dados de sequência de nucleotídeos primário produzido e mantido no National Center for Biotechnology Information (NCBI) do National Institutes of Health (NIH) em Bethesda, MD, EUA. GenBank colabora com EMBL e DDBJ para formar a Colaboração Internacional de Banco de Dados de Sequência de Nucleotídeos.

As divisões do GenBank são partições dos dados do GenBank em categorias com base na origem da sequência. No início, as divisões do GenBank foram estabelecidas de forma que uma divisão fosse um arquivo na distribuição do GenBank. No entanto, o número de divisões do GenBank não acompanhou o crescimento dos dados de sequência - a divisão EST agora tem mais de 150 arquivos. Existem atualmente 17 divisões do GenBank.

Formato GenBank Flatfile

Este é o formato dos registros de sequência no lançamento de flatfile do GenBank. Este é um formato somente de texto que contém várias entradas ou registros. Cada registro no arquivo de texto grande, também chamado de flatfile, começa com uma linha LOCUS e termina com uma única linha que consiste em um par de barras ("//"). O termo "formato GenBank" é freqüentemente usado para se referir ao formato de registros individuais dentro do flatfile. Cada registro contém um cabeçalho contendo os identificadores do banco de dados, o título do registro, referências e informações do remetente. O cabeçalho é seguido pela tabela de recursos e, em seguida, pela própria sequência. O flatfile do GenBank é descrito em detalhes nas notas de lançamento do GenBank. No sistema Entrez, o formato GenBank é o formato de exibição padrão para entradas de sequência não em massa.

Gene Expression Omnibus (GEO)

GEO é um banco de dados primário do NCBI que é um repositório arquivado para dados de expressão gênica derivados de diferentes plataformas experimentais.

Um modelo de gene é um mapeamento das características do gene, como regiões codificantes e limites do íntron do exon, no DNA genômico de um organismo. Os modelos de genes normalmente fornecem um transcrito previsto e uma sequência de proteína. Um tipo simples de modelo de gene pode ser feito alinhando uma sequência expressa (cDNA) com a sequência de DNA genômico. Limites de íntron de exon mais precisos podem ser identificados restringindo os segmentos alinhados usando sinais de splicing de consenso. Este tipo de modelo de gene baseado em alinhamento é usado para gerar muitos dos transcritos do modelo NCBI RefSeq para genomas superiores. As características do gene também podem ser previstas computacionalmente na ausência de sequências expressas alinhadas. As previsões de genes candidatos mais simples podem ser feitas no DNA genômico microbiano pesquisando quadros de leitura abertos longos. As pesquisas de similaridade de sequência de banco de dados com as traduções previstas dessas ORFs são usadas para apoiar essas previsões de genes. A predição computacional de genes em genomas de eucariotos superiores é complicada pela interrupção das regiões codificadoras de genes por sequências intrônicas. Existem vários métodos que são usados ​​na predição de genes eucarióticos. O NCBI usa o programa GenomeScan para anotar genes putativos nos genomas de humanos, camundongos e ratos.

Um mapa de ligação é uma exibição ordenada de informações genéticas referenciadas a grupos de ligação (em última análise, cromossomos) em um genoma. As unidades de mapeamento (centiMorgans) são baseadas na frequência de recombinação entre vários marcadores polimórficos traçados através de um pedigree. Um centiMorgan é igual a um evento de recombinação em 100 meioses.

Grupo de Genética de Computadores (GCG)

O GCG é um grupo de desenvolvimento de software de bioinformática, originalmente no Departamento de Genética da Universidade de Wisconsin, mais tarde existindo como uma empresa privada e se fundindo com a Oxford Molecular, MSI e Synopsis para formar coletivamente a Accelerys. O GCG é amplamente conhecido por seu pacote de software de análise de sequência, apropriadamente conhecido como Wisconsin Package. Os iniciais GCG têm sido amplamente usados ​​como sinônimo desse pacote.

Sequência de pesquisa de genoma (GSS)

As sequências GSS compreendem uma divisão de sequência em massa do GenBank. As sequências GSS são, em essência, o equivalente genômico dos ESTs. A divisão GSS contém leituras únicas e de primeira passagem do DNA genômico. Os registros GSS típicos são pesquisas de sequenciamento inicial e leituras finais de grandes clones de inserção de bibliotecas genômicas, sequências genômicas capturadas por exon e sequências de PCR Alu.

GenomeScan é um programa de previsão de genes (algoritmo) desenvolvido por Christopher Burge no Massachussetts Institute of Technology. Este é o algoritmo usado no NCBI para produzir modelos de genes para genomas superiores.

O número GI é um identificador atribuído a todas as sequências no NCBI. O número GI aponta para uma versão específica de um registro de sequência. Esse identificador é amplamente substituído pelo número de adesão.versão para usuários externos. GI significa GenInfo, um sistema de banco de dados do NCBI que precedeu o sistema Entrez.

Um alinhamento global é um alinhamento de sequência que estende o comprimento total das sequências que estão sendo comparadas. Os procedimentos de alinhamento global geralmente irão produzir um alinhamento que inclui todo o comprimento de todas as sequências, incluindo regiões que não são semelhantes, e podem ser feitos para produzir alinhamentos sem sentido entre sequências não relacionadas. Compare com o alinhamento local.

O Caminho Dourado refere-se aos projetos de anotação e montagem do genoma humano e de camundongo na Universidade da Califórnia em Santa Cruz (UCSC).

H

Sequência genômica de alto rendimento (HTG)

As sequências HTG compreendem uma divisão Genbank contendo sequência genômica inacabada. Os registros HTG normalmente são sequências de montagens incompletas de BAC ou outros grandes clones de inserção. O GenBank reconhece quatro estágios de conclusão (fases) para essas sequências. Os registros da fase 0 contêm uma ou algumas leituras de passagem única de um determinado clone genômico. Os registros da fase 1 contêm dois ou mais contigs montados dos dados da sequência, no entanto, os contigs são desordenados e não orientados e ainda há lacunas na sequência. Os registros da fase 2 também contêm dois ou mais contigs com lacunas, mas a ordem e a orientação são conhecidas. Uma vez que as lacunas de sequência são resolvidas e há cobertura de sequência suficiente para fornecer uma precisão de 99,99%, o registro passa para a fase 3 e deixa a divisão HTG para a divisão taxonômica apropriada do GenBank, uma sequência humana se moveria para a divisão do pirmato (PRI) , uma sequência do mouse para a divisão do roedor (ROD).

CDNA de alto rendimento (HTC)

HTC é uma divisão do GenBank que contém sequências de cDNA de rascunho. Os registros HTC são semelhantes aos ESTs, mas geralmente contêm mais informações. Ao contrário dos ESTs, mas como os registros do genomic draft (HTG), as sequências de HTC podem ser atualizadas com dados de sequência adicionais e passar para a divisão tradicional apropriada do GenBank.

Duas entidades biológicas (estruturas ou moléculas) são consideradas homólogas (ou homólogas) se for considerado que descendem de uma estrutura ou molécula ancestral comum. Partes do corpo e genes correspondentes em espécies diferentes ou na mesma espécie podem ser homólogos. O termo foi freqüentemente estendido para incluir sequências também. No entanto, é incorreto relatar uma homologia relativa ou percentual de homologia, como às vezes se diz das sequências, os genes ou as sequências são homólogos ou não. Veja também ortólogo e parálogo

Comitê de Nomenclatura do Genoma Humano

O HGNC é uma organização sem fins lucrativos localizada na University College London que atribui nomes e símbolos de genes autorizados e exclusivos para todos os genes humanos conhecidos.

Mapas de homologia de camundongos humanos

Os mapas de homologia de camundongos humanos mostram as regiões cromossômicas sintênicas entre os dois organismos e permitem que as sequências correspondentes e outras informações relacionadas sejam recuperadas de um organismo dado um gene ou localização de mapa no outro. Os dados usados ​​para construir esses mapas de homologia são derivados de conjuntos de genoma humano UCSC e NCBI e o mapa do genoma MGD de camundongo e mapas de híbridos de radiação Whitehead / MRC.

I-L

O ISDC envolve os três principais repositórios de sequências de nucleotídeos primários, GenBank, o DDBJ (Banco de Dados de DNA do Japão) e os bancos de dados EMBL (Laboratório Europeu de Biologia Molecular). Cada banco de dados tem seu próprio conjunto de ferramentas de envio e recuperação, mas os três trocam dados diariamente e compartilham padrões de envio e anotação de sequência. Todos os três compartilham dados para que todos contenham o mesmo conjunto de dados de sequência.

Sequências repetitivas intercaladas são principalmente cópias degeneradas de elementos transponíveis - também chamados de elementos móveis - que, em humanos, constituem mais de um terço do genoma. Os elementos móveis mais comuns são LINEs e SINEs (elementos nucleares intercalados longos e curtos, respectivamente). As famílias de repetições Alu são os SINEs primários em primatas.

Elementos nucleares longos intercalados são uma classe de elementos transponíveis, também chamados de repetição intercalada. Estes constituem cerca de 20% do genoma humano. Um LINE típico tem 6 KB de comprimento e codifica uma transcriptase reversa e uma enzima DNA-nick-looping, permitindo que ela se mova pelo genoma de forma autônoma. LINEs também são chamados de retrotransposons não-LTR.

LinkOut é um serviço de registro para criar links de artigos, periódicos ou dados biológicos específicos no Entrez para recursos em sites externos. Terceiros podem fornecer um URL, nome de recurso, breve descrição de seu site e especificação dos dados NCBI a partir dos quais gostariam de estabelecer links.

LOAD é a biblioteca de domínios antigos, um pequeno número de alinhamentos de domínio conservados que se somam às matrizes de pontuação específicas de posição (PSSMs ou perfis) no Conserved Domain Database (CDD) no NCBI. A maioria dos domínios em CDD vem dos bancos de dados SMART, Simple Modular Architecture Research Tool e Pfam.

Um alinhamento local é um alinhamento de alta pontuação entre as subseqüências de duas ou mais seqüências mais longas. Ao contrário de um alinhamento global, pode haver vários alinhamentos locais de alta pontuação entre as sequências. Os alinhamentos locais são úteis para pesquisas de banco de dados porque suas pontuações podem ser usadas para avaliar a significância biológica dos alinhamentos encontrados. (Veja também Pontuação de Alinhamento e Valor Esperado.) Os alinhamentos locais são produzidos pelas populares ferramentas de pesquisa de similaridade de seqüência BLAST e FASTA.

LocusLink é um recurso NCBI que fornece uma interface de consulta única para uma sequência de curadoria e informações descritivas sobre loci genéticos. É um bom lugar para começar a busca por informações sobre um determinado gene. LocusLink atualmente contém loci humanos, camundongos, ratos, peixes-zebra, mosca-das-frutas e HIV-1.


Sequência de baixa complexidade

A sequência de baixa complexidade é uma região de sequência de aminoácidos ou nucletida com uma composição de resíduo tendenciosa. A sequência de baixa complexidade inclui execuções homopoliméricas, repetições de curto período e alguma sobre-representação mais sutil de um ou alguns resíduos. Essas sequências muitas vezes parecem muito redundantes, por exemplo, a sequência de proteína PADPPPDPPPP ou a sequência de nucleotídeos AAATTTAAAAAT. Regiões de baixa complexidade podem resultar em altas pontuações enganosas em pesquisas por similaridade de sequência. Essas pontuações refletem o viés da composição, em vez de um alinhamento significativo de posição por posição. Os programas de filtro geralmente são usados ​​para eliminar essas correspondências potencialmente confusas dos resultados da pesquisa por similaridade de sequência. Os programas NCBI BLAST usaram filtros que substituem regiões de baixa complexidade na sequência de consulta por um resíduo anônimo (n para ácido nucleico, X para aminoácido). Essas regiões são, portanto, efetivamente removidas da pesquisa porque esses resíduos anônimos são tratados como incompatibilidades pelo BLAST programas.

M

O Map Viewer é um componente de software do NCBI Entrez Genomes que fornece recursos de navegação especiais para genomas de organismos superiores. Ele permite visualizar e pesquisar o genoma completo de um organismo, exibir mapas de cromossomos e ampliar progressivamente níveis maiores de detalhes, até os dados da sequência. Se vários mapas estiverem disponíveis para um cromossomo, ele os exibirá alinhados uns aos outros com base em marcadores e nomes de genes compartilhados e, para os mapas de sequência, com base em um sistema de coordenadas de sequência comum. O número e os tipos de mapas disponíveis variam por organismo, mas incluem mapas para: genes, contigs, caminho de blocos BAC, STSs, clones mapeados por FISH, ESTs, modelos GenomeScan e SNPs.

MEDLINE é a principal base de dados bibliográfica do NLM, cobrindo os campos da medicina, enfermagem, odontologia, medicina veterinária, sistema de saúde e ciências pré-clínicas. MEDLINE contém citações bibliográficas e resumos de autores de mais de 4.600 periódicos biomédicos publicados nos Estados Unidos e 70 outros países. O arquivo contém mais de 11 milhões de citações que datam de meados de 1960. A cobertura é mundial, mas a maioria dos registros são de fontes em inglês ou têm resumos em inglês. MEDLINE está incluído no PubMed, que contém citações adicionais.

MegaBLAST é uma ferramenta de alinhamento local de pares de nucleotídeos otimizada para encontrar alinhamentos longos entre sequências quase idênticas. MegaBLAST é mais útil para comparar sequências da mesma espécie e é particularmente adequado para tarefas como agrupamento de ESTs, alinhamento de clones genômicos ou alinhamento de sequências de cDNA e DNA genômico. O MegaBLAST pode ser até 10 vezes mais rápido do que muitos programas de similaridade de sequência padrão, incluindo o BLAST de nucleotídeo-nucleotídeo padrão. Ele também lida com eficiência com sequências de DNA muito mais longas. MegaBLAST é o único programa BLAST no site do NCBI que pode realizar pesquisas em lote.

Model Maker é uma ferramenta associada ao Map Viewer que permite visualizar as evidências (mRNAs, ESTs e predições de genes) que foram alinhadas à sequência genômica montada para construir um modelo de gene. O Model Maker também permite editar o modelo selecionando ou removendo exons putativos. O Model Maker pode então exibir a sequência de mRNA e ORFs potenciais para o modelo editado e salvar os dados da sequência de mRNA para uso em outros programas. O Model Maker pode ser acessado a partir de mapas de sequência exibidos no Map Viewer. Para ver um exemplo, siga o link "mm" ao lado de qualquer gene anotado no mapa humano "Gene_Sequence" no Map Viewer.

O banco de dados de estrutura do NCBI, MMDB, contém estruturas biomoleculares tridimensionais determinadas experimentalmente obtidas do Protein DataBank (PDB). Os modelos teóricos do PDB não são importados. O MMDB foi projetado para ter flexibilidade e, como tal, é capaz de arquivar dados estruturais convencionais, bem como futuras descrições de biomoléculas, como aquelas geradas por microscopia eletrônica (modelos de superfície). A maioria dos dados de estrutura 3D são obtidos de cristalografia de raios-X e espectroscopia de RMN.

Um motivo é um nucleotídeo curto e bem conservado ou sequência de aminoácidos que representa um domínio funcional mínimo. Freqüentemente, é um consenso para várias sequências alinhadas. O banco de dados PROSITE é uma coleção popular de motivos de proteínas, incluindo motivos para sítios catalíticos de enzimas, sítios de fixação de grupos protéticos (heme, biotina, etc.) e regiões envolvidas na ligação de outra proteína. Exemplos de motivos de DNA são locais de ligação a fatores de transcrição.

N

O NCBI é uma divisão da National Library of Medicine no National Institutes of Health em Bethesda, MD. O NCBI foi estabelecido em 1988 para criar sistemas automatizados para armazenar e analisar o conhecimento sobre biologia molecular, bioquímica e genética para apoiar o uso de tais bancos de dados e software pela comunidade científica para coordenar esforços para reunir informações de biotecnologia nacional e internacionalmente e para realizar pesquisa em biologia computacional. Atualmente, o NCBI mantém o banco de dados GenBank junto com vários bancos de dados relacionados.

O Instituto Nacional de Genética (NIG) foi estabelecido em 1949 em Mishima, Japão, e reorganizado em 1988 como um instituto de pesquisa interuniversitária em genética. O Instituto atualmente oferece educação de pós-graduação em genética e também mantém o Banco de Dados de DNA do Japão.

Não redundante é um termo usado para descrever bancos de dados de sequência de nucleotídeos ou aminoácidos que contêm apenas uma cópia de cada sequência única. Bancos de dados não redundantes têm a vantagem de tamanho menor e, portanto, tempos de pesquisa mais curtos e estatísticas mais significativas. O banco de dados padrão na maioria das páginas da web do BLAST de proteína é rotulado como "nr". Este é um banco de dados não redundante onde várias cópias da mesma sequência, como as sequências correspondentes da mesma proteína de SWISS-PROT, PIR e GenPept, são combinadas para fazer uma entrada de sequência. O banco de dados de nucleotídeos padrão na página da web BLAST nucleotídeo-nucleotídeo padrão também é rotulado como "nr", mas não é mais um banco de dados não redundante.

O

Herança Mendeliana Online no Homem (OMIM)

OMIM é um catálogo de genes humanos e doenças genéticas de autoria e edição do Dr. Victor A. McKusick e seus colegas na Johns Hopkins e em outros lugares, e desenvolvido para a World Wide Web pelo NCBI. O banco de dados contém informações textuais, referências e links copiosos para MEDLINE e registros de sequência no sistema Entrez do NCBI, além de links para recursos adicionais relacionados no NCBI e em outros lugares.


Quadro de leitura aberto (ORF)

Uma ORF é uma sequência de DNA (ou mRNA) que é potencialmente capaz de codificar um polipeptídeo. ORFs começam com um códon de início (ATG) e são lidos em tripletos até que terminem com um códon STOP (TAA, TGA ou TAG no código padrão). O localizador de ORF do NCBI é útil para identificar ORFs em cDNA ou em DNA genômico sem íntron.

Ortólogos são genes derivados de um ancestral comum por descendência vertical. Isso geralmente é afirmado como o mesmo gene em espécies diferentes. Em contraste, parálogos são genes dentro do mesmo genoma que evoluíram por duplicação.

Os genes da hemoglobina são um bom exemplo. Dois genes separados (proteínas) constituem a molécula de hemoglobina (alfa e beta). As sequências de DNA alfa e beta são muito semelhantes e acredita-se que tenham surgido da duplicação de um único gene, seguida de evolução separada em cada uma das sequências. Alfa e beta são considerados parálogos. Alfa hemoglobinas em diferentes espécies são consideradas ortólogos.

P

A matriz de pontuação de mutação percentual aceita original (ver M.O. Dayhoff, ed., 1978, Atlas de Sequência e Estrutura de Proteínas, Vol 15) foi derivado da observação de quantas vezes diferentes aminoácidos substituem outros aminoácidos na evolução e foi baseado em um conjunto de dados relativamente pequeno de 1.572 mudanças em 71 grupos de proteínas intimamente relacionadas. Além disso, os valores da matriz são baseados no modelo de que uma sequência é derivada da outra por uma série de mutações independentes, cada uma alterando um aminoácido na primeira sequência para outro aminoácido na segunda. PAM250 era uma matriz muito popular, mas agora é frequentemente substituída pela série de matrizes BLOSUM, particularmente quando se procura por proteínas relacionadas de forma mais remota. As matrizes de PAM com números mais baixos correspondem aproximadamente às matrizes BLOSUM com números mais altos.

Os paralogos são geralmente descritos como genes dentro do mesmo genoma que evoluíram por duplicação. Veja Ortholog.

Pfam é um banco de dados de regiões ou domínios de proteínas conservadas. É um dos três bancos de dados que compõem o Conserved Domain Database (CDD) do NCBI. Os outros dois são SMART e LOAD.

Um PopSet é um conjunto de sequências de DNA que foram coletadas para analisar a relação evolutiva de uma população. A população pode se originar de diferentes membros da mesma espécie ou de organismos de diferentes espécies. Eles são enviados ao GenBank por meio do programa Sequin, geralmente como um alinhamento de sequência.


BLAST de início de acerto de posição (PHI-BLAST)

PHI-BLAST é uma variação do BLAST projetada para pesquisar proteínas que contêm um padrão especificado pelo usuário e são semelhantes à sequência de consulta na vizinhança do padrão. Esse requisito duplo destina-se a reduzir o número de ocorrências do banco de dados que contêm o padrão e provavelmente não apresentam homologia verdadeira com a consulta.


BLAST Iterado Específico de Posição (PSI-BLAST)

PSI-BLAST é um derivado da proteína-proteína BLAST que é mais sensível porque incorpora taxas de substituição específicas de posição no sistema de pontuação. Isso torna o PSI-BLAST útil para encontrar proteínas relacionadas muito distantemente. O PSI-BLAST funciona gerando primeiro uma matriz de pontuação específica de posição (PSSM) a partir das sequências encontradas em uma pesquisa BLAST padrão. O banco de dados é então pesquisado com o PSSM. O PSI-BLAST pode ser executado em várias iterações com um novo PSSM sendo feito a partir das novas informações coletadas na pesquisa anterior.


Matriz de pontuação específica de posição (PSSM)

Um PSSM é uma matriz de pontuação de alinhamento que fornece pontuações de substituição para cada posição em uma sequência de proteína. Os PSSMs são frequentemente baseados nas frequências de cada substituição de aminoácido em cada posição de alinhamento da sequência de proteína. Isso dá origem a uma matriz de pontuação que tem o comprimento do alinhamento como uma dimensão e as possíveis substituições na outra. Em um PSSM, uma subposição específica, por exemplo, Ser substituindo Thr, pode ter uma pontuação diferente em diferentes posições no alinhamento. Isso está em contraste com uma matriz independente de posição como BLOSUM62, onde a substituição Ser Thr obtém a mesma pontuação, não importa onde ocorre na proteína. PSSMs são modelos mais realistas para sequências de proteínas relacionadas, uma vez que as taxas de substituição devem variar ao longo do comprimento de uma proteína, algumas posições alinhadas, como os resíduos do sítio ativo, são mais importantes do que outras.

No contexto de alinhamentos exibidos na saída do BLAST, os positivos são aquelas substituições não idênticas que recebem uma pontuação positiva na matriz de pontuação subjacente, BLOSUM62 por padrão. Na maioria das vezes, os positivos indicam uma substituição conservadora ou substituições que são frequentemente observadas em proteínas relacionadas.

Um banco de dados de sequência primária contém sequências enviadas pelos pesquisadores que originalmente produziram os dados. Em bancos de dados de sequência primária, os remetentes da sequência controlam o conteúdo e a disposição dos dados. O GenBank é um exemplo de banco de dados primário. O conteúdo, a precisão e a atualização das sequências do GenBank são em grande parte responsabilidade do remetente. Isso contrasta com um banco de dados com curadoria, como RefSeq ou SWISS-PROT, onde informações adicionais são adicionadas a cada registro pela equipe que mantém o banco de dados.

ProbeSet é uma visão experimental do Gene Expression Omnibus (GEO) do NCBI, que é um repositório de matriz de expressão e hibridização de genes. O ProbeSet tem como objetivo facilitar as pesquisas no banco de dados GEO e vincular os resultados da pesquisa a recursos internos e externos, sempre que possível.

As correspondências de proteínas para ESTs (ProtEST) são as melhores correspondências de proteínas para traduções de sequências EST no UniGene. As sequências de nucleotídeos (mRNAs, bem como ESTs) são combinados com possíveis produtos de tradução por meio de comparação de sequência usando BLASTX com um valor esperado de 1x10-6. As sequências são comparadas com proteínas de oito organismos e a melhor combinação em cada organismo é registrada. As sequências de nucleotídeos UniGene podem, portanto, ter até oito correspondências no ProtEST.
A fim de excluir sequências de proteínas que sejam traduções ou modelos estritamente conceituais, as proteínas utilizadas no ProtEST são aquelas originadas das bases de dados estruturais SwissProt, PIR, PDB ou PRF.

PDB é o repositório para o processamento e distribuição de dados de estrutura macromolecular biológica 3-D. Em abril de 2002, o PDB continha quase 18.000 estruturas, incluindo mais de 1.000 ácidos nucléicos e 400 modelos teóricos. Exceto para modelos teóricos, os dados do PDB são usados ​​para produzir o banco de dados de estrutura do NCBI, MMDB e são incluídos nos bancos de dados BLAST padrão ("nr").

PIR é um banco de dados de sequência de proteínas com curadoria produzido e mantido pela National Biomedical Research Foundation da Georgetown University em Washington, D.C. As sequências de proteínas PIR estão incluídas no banco de dados BLAST "nr" e no sistema de proteínas Entrez. PIR contém mais de 200.000 entradas.

PRF é um banco de dados de sequência de proteínas mantido em Osaka, Japão, e é um dos bancos de dados de proteínas incluídos nas pesquisas de banco de dados BLAST "nr" e no sistema de proteínas Entrez. Versão 84, março de 2002, incluída
195.660 entradas.

PubMed, um serviço da National Library of Medicine, fornece acesso a mais de 11 milhões de citações MEDLINE, de mais de 4.300 periódicos biomédicos publicados nos Estados Unidos e 70 outros países. As citações cobrem os campos da medicina, enfermagem, odontologia, medicina veterinária, sistema de saúde e ciências pré-clínicas e datam de meados de 1960. O PubMed inclui periódicos adicionais de ciências biológicas não encontrados no MEDLINE, bem como links para muitos sites que fornecem artigos completos e outros recursos relacionados.

Q-R

Mapa de radiação híbrida (RH)

Um mapa híbrido de radiação é um mapa do genoma físico baseado em STS produzido pela primeira quebra de cromossomos de uma linha de células doadora com uma dose letal de radiação e, em seguida, resgatando as células por fusão com uma linha de células receptoras. As distâncias entre os marcadores são medidas em centirays (cR), com 1 cR representando uma probabilidade de 1% de que ocorreu uma quebra entre dois marcadores.

RasMol é um pacote de software de renderização de estrutura produzido na Universidade de Massachusetts. RasMol interpreta o formato nativo dos arquivos de estrutura do PDB.

Uma pontuação bruta na saída do BLAST é a pontuação não normalizada de um alinhamento de uma consulta e sequência de destino. A pontuação bruta é derivada diretamente da matriz de pontuação pela soma das pontuações de substituição individuais dos resíduos alinhados no alinhamento. Para BLAST com intervalo, a pontuação bruta também inclui penalidades de intervalo.

Polimorfismos de nucleotídeo único de referência (refSNP) são registros dbSNP com curadoria que definem um conjunto não redundante de marcadores usados ​​para anotação da sequência do genoma de referência e integração com outros recursos NCBI. Cada registro refSNP fornece uma lista resumida dos registros do solicitante em dbSNP e uma lista de recursos externos e links de banco de dados.

Seqüências de referência são registros de nucleotídeos ou proteínas com curadoria desenvolvidos pela equipe do NCBI. Eles tentam resumir as informações disponíveis sobre uma determinada sequência e fornecer a sequência e anotação mais confiável e atualizada. RefSeqs incluem proteínas e transcritos com curadoria, RNAs transcritos não codificantes, conjuntos contig e supercontig, modelos de genes e registros de cromossomos.

BLAST específico da posição reversa (RPS-BLAST)

RPS-BLAST é uma variação do BLAST em que uma sequência de consulta de proteína é pesquisada em um banco de dados de Matrizes de Pontuação Específicas de Posição pré-computadas, conforme usado no PSI-BLAST. Este tipo de pesquisa forma a base do CD-Search.

S-T

Um alinhamento de sequência é um resíduo por comparação de resíduo de duas ou mais sequências. No alinhamento, as posições relativas das sequências são ajustadas para otimizar (geralmente maximizar) a pontuação de alinhamento derivada por referência a alguma matriz de pontuação. Em alguns casos, lacunas com penalidades associadas podem ser inseridas em uma ou mais sequências para otimizar a pontuação de alinhamento.

STS de site com tag de sequência

Os STS são registros de sequência que contêm uma sequência curta de DNA genômico que pode ser amplificado exclusivamente pela reação em cadeia da polimerase (PCR) usando um par de primers. As sequências de primer e as condições de PCR são geralmente incluídas no registro. Os sites com sequência marcada compreendem a divisão STS GenBank. Esses marcadores são usados ​​em técnicas de mapeamento híbrido de ligação e radiação. Eles são úteis para integrar esses tipos de dados de mapeamento entre si e também com a sequência genômica montada. A ferramenta ePCR é útil para identificar marcadores STS conhecidos em uma sequência de DNA.

Sequin é um pacote de aplicativos autônomo produzido pelo NCBI que é uma plataforma para preparar e anotar sequências para envio ao GenBank.

Análise serial da expressão gênica (SAGE)

SAGE é um método experimental de geração de uma biblioteca de cDNA que contém fragmentos curtos concatenados (geralmente dez bases) chamados marcadores de todas as espécies de cDNA presentes na biblioteca. Essas marcas podem ser contadas para fornecer uma medida quantitativa da expressão do gene na biblioteca. Os recursos do mapa NCBI SAGE combinam sequências de tag SAGE para agrupamento UniGene para identificar genes expressos em bibliotecas SAGE e fornecer vários mecanismos para explorar padrões de expressão relativos em bibliotecas SAGE.

O sequenciamento Shotgun é um método de sequenciamento no qual um grande clone genômico é dividido em pequenos segmentos que são subclonados e sequenciados aleatoriamente. Uma vez que clones aleatórios suficientes tenham sido sequenciados, essas sub-sequências aleatórias são então montadas para estabelecer a sequência de inserção grande. Em alguns casos, um genoma inteiro pode ser fragmentado e clonado em pequenos vetores de inserção sem primeiro ser clonado e agrupado em grandes vetores de inserção. Esta última técnica é chamada de sequenciamento shotgun do genoma completo e tem sido usada com sucesso com muitos genomas menores e forneceu importantes montagens preliminares para os genomas humano, de camundongo e de arroz.

SINEs (Short Interpersed Repeats) são elementos repetidos transponíveis no genoma humano que são tipicamente 100-400 bp, abrigam um promotor interno da polimerase III e não codificam proteínas.

Polimorfismo de nucleotídeo único (SNP)

Estritamente falando, um SNP é uma variação ou polimorfismo na sequência do genoma envolvendo uma única posição de nucleotídeo. O NCBI mantém o dbSNP como um repositório primário de dados SNP. Os dados SNP no NCBI também incluem algumas variações envolvendo várias posições, como polimorfismos repetidos.

Banco de dados de cariotipagem espectral e hibridização genômica comparativa (banco de dados SKY / CHG)

SKY / CHG é um repositório de dados submetidos publicamente da SKY e CGH, que são técnicas citogenéticas moleculares fluorescentes complementares. SKY facilita a identificação de aberrações cromossômicas CGH pode ser usado para gerar um mapa de alterações do número de cópias de DNA em genomas de tumor.

SMART (ferramenta de recuperação de arquitetura modular simples) é um banco de dados de domínios conservados que permite a identificação automática e a anotação de domínios em sequências de proteínas fornecidas pelo usuário. Os dados SMART são usados ​​para criar um dos conjuntos de PSSMs usados ​​no CD-Search.

Algoritmo Smith Waterman

O algoritmo Smith-Waterman é um protocolo computacional de alinhamento local que usa programação dinâmica para encontrar todos os alinhamentos locais de alta pontuação possíveis entre um par de sequências. Este é o algoritmo de alinhamento local mais sensível, mas é computacionalmente caro demais para ser útil em pesquisas de alto rendimento de grandes bancos de dados de sequência. Os programas BLAST e FASTA são geralmente usados ​​nesses tipos de aplicações.

SWISS-PROT é um banco de dados altamente curado de sequências de proteínas estabelecido em 1986 e atualmente mantido pelo Instituto Suíço de Bioinformática e pelo Instituto Europeu de Bioinformática (EBI).

O TaxBrowser é um aspecto do sistema Entrez que permite navegar em registros de sequência, genoma e estrutura com base na classificação taxonômica do organismo de origem. O navegador de impostos permite acesso a todos os níveis da hierarquia taxonômica e pode ser usado para adquirir registros em qualquer nó taxômico.

TrEMBL (Translated EMBL) é um conjunto de dados de proteína derivado que é um suplemento anotado automaticamente para o SWISS-PROT. trEMBL contém todas as traduções de regiões de codificação de entradas de sequência de nucleotídeos EMBL. O conjunto de dados trEMBL serve como fonte de proteínas que podem eventualmente ser incorporadas ao SWISS-PROT.

U-Z

Um banco de dados criado e mantido no NCBI como um sistema experimental para particionar automaticamente sequências de nucleotídeos expressas em um conjunto não redundante de clusters orientados a genes. Cada cluster UniGene contém sequências que representam um gene único, bem como informações relacionadas, como a localização do mapa e os tipos de tecido em que o gene foi expresso. O UniGene é particularmente importante para reduzir a redundância e a complexidade dos dados EST e é um recurso importante para a descoberta do gene.

Um recurso criado e mantido no NCBI que relata informações sobre Sequence Tagged Sites (STS). Para cada STS, o UniSTS exibe as sequências de primer, tamanho do produto e informações de mapeamento, bem como referências cruzadas para outros bancos de dados NCBI.

Ferramenta de pesquisa de alinhamento vetorial (VAST)

Um algoritmo criado no NCBI que procura estruturas tridimensionais que são geometricamente semelhantes a uma estrutura de consulta, primeiro representando os elementos da estrutura secundária de cada estrutura como vetores e, em seguida, tentando alinhar esses conjuntos de vetores. O VAST é usado no NCBI para estabelecer relacionamentos entre estruturas e criar alinhamentos estruturais no sistema Entrez.

Um parâmetro do algoritmo BLAST que determina o comprimento dos segmentos de resíduo (nucleotídeos ou aminoácidos) nos quais o BLAST particiona a sequência de consulta. O dicionário de "palavras" resultante é então usado para pesquisar o banco de dados de sequência selecionado.

Cromossomo Artificial de Levedura (YAC)

Um YAC é um cromossomo artificial funcional (autorreplicante) amplamente utilizado como vetor para clones genômicos em projetos de sequenciamento envolvendo grandes genomas. Como o nome indica, os YACs são propagados em leveduras (Saccharomyces) Um clone YAC típico pode conter fragmentos de até

2 Mb. Um grande problema com os clones YAC é a tendência de se reorganizar no hospedeiro. A tecnologia YAC foi amplamente substituída por vetores de clonagem BAC.


Resultados

Primeiro, descrevemos as principais características da matriz LG assim estimada e, em seguida, comparamos seu desempenho na inferência de árvore com várias outras matrizes de substituição com diferentes opções e conjuntos de dados.

Matriz de substituição LG

Como afirmado acima, a matriz LG (conforme estimado usando o procedimento acima) é definida por 3 componentes: a taxa global (ρ), a distribuição de equilíbrio de aminoácidos (Π) e a matriz de permutabilidade (R) Descrevemos cada um desses componentes separadamente.

A taxa global (ρ) é igual a 1,11 e 1,07 para a primeira (LG1) e segunda (LG2) iterações, respectivamente. Isso indica que o LG é globalmente mais rápido do que o WAG, mas é difícil extrapolar as propriedades do LG a partir dessas descobertas. Para estudar a taxa de LG na inferência de árvore, medimos o comprimento da árvore obtido com a versão normalizada do LG e com o WAG, ambos usados ​​com 4 categorias gama e sítios invariantes. Os resultados são exibidos na tabela 1 para os alinhamentos de teste Pfam e TreeBase. Esta tabela também fornece uma comparação entre LG e WAG em relação à estimativa do parâmetro de forma gama (α). Esses resultados destacam uma diferença clara entre LG e WAG: as árvores LG são ∼10-15% mais longas em média do que as árvores WAG, e esse achado é observado em quase todos os alinhamentos de teste. Observamos também que a variabilidade das taxas entre os locais é maior (α é menor) com LG do que com WAG e, novamente, isso é observado com a maioria dos alinhamentos. Ambas as descobertas são consistentes, pois as distâncias evolutivas e os comprimentos dos ramos aumentam quando o valor de α diminui. Veremos que as árvores LG também tendem a ser mais prováveis ​​do que as árvores WAG. Tudo isso significa que o LG caracteriza melhor os padrões evolutivos do que o WAG e, portanto, captura mais substituições ocultas, o que resulta em árvores mais longas (para uma discussão sobre o comprimento da árvore e o valor de probabilidade, consulte Pagel e Meade 2005).

Comparação de WAG e LG em relação ao parâmetro de comprimento da árvore e formato gama

N OTA. — LG e WAG são executados com PHYML usando a opção Γ4 + I nos alinhamentos de teste TreeBase e Pfam. O comprimento da árvore é a soma de todos os comprimentos dos ramos. Α denota o parâmetro de forma gama LG / WAG é a média das razões entre os valores LG e WAG, em todos os alinhamentos. #LG & gt WAG conta o número de alinhamentos onde o valor LG é maior que o valor WAG, entre 59 e 500 alinhamentos para TreeBase e Pfam, respectivamente. O teste de sinal indica que todas essas contagens revelam diferenças altamente significativas entre LG e WAG (p-valor ≈ 0,0).

Comparação de WAG e LG em relação ao parâmetro de comprimento da árvore e formato gama


Assista o vídeo: Substitution Matrices: BLOSUM (Fevereiro 2023).