Em formação

Como a disponibilidade de um genoma de referência ajuda na análise de microssatélites?

Como a disponibilidade de um genoma de referência ajuda na análise de microssatélites?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou planejando usar microssatélites para examinar a estrutura da população em escala fina entre várias colônias de reprodução de pássaros. A maior parte do meu DNA será extraído de penas e o rendimento não é suficiente para RAD-seq.

Originalmente, planejei enviar amostras de DNA de vários indivíduos em duas de minhas colônias para uma empresa. Usarei DNA de sangue para este processo. Eles são capazes de me fornecer 20-30 microssatélites polimórficos e seus primers.

Agora parece que um genoma de referência estará disponível em breve e isso me leva às minhas perguntas. Em primeiro lugar, a disponibilidade de um genoma de referência torna o processo de identificação de microssatélites muito mais fácil que eu mesmo deveria identificá-los? Em segundo lugar, a disponibilidade de um genoma de referência aumenta a facilidade de genotipagem de indivíduos ou ajuda a minimizar o erro de genotipagem? Finalmente, há uma utilidade para o genoma de referência em meu contexto que não estou considerando?


Análise genômica da evolução da domesticação e pós-conquista espanhola da lhama e da alpaca

Apesar de sua importância econômica regional e sendo cada vez mais criado globalmente, as origens e a evolução da lhama e da alpaca permanecem mal compreendidas. Aqui relatamos genomas de referência para a lhama e para o guanaco e vicunha (seus supostos progenitores selvagens), comparamos com o genoma da alpaca publicado e re-sequenciamos sete indivíduos de todas as quatro espécies para entender melhor a domesticação e a introgressão entre a lhama e a alpaca.

Resultados

A análise filogenômica confirma que a lhama foi domesticada do guanaco e a alpaca da vicunha. A introgressão foi muito maior no genoma da alpaca (36%) do que na lhama (5%) e pode ser datada próxima à época da conquista espanhola, há aproximadamente 500 anos. Os padrões de introgressão são mais variáveis ​​no cromossomo X da alpaca, apresentando 53 genes conhecidos por terem fenótipos ligados ao X deletérios em humanos. Fortes assinaturas de introgressão em todo o genoma incluem complexos de receptores olfativos em ambas as espécies, resistência à hipertensão em alpaca e traços de lã / fibra em lhama. As assinaturas genômicas de domesticação na lama incluem características reprodutivas masculinas, enquanto na alpaca apresentam características de lã, características relacionadas ao olfato e de adaptação à hipóxia. A análise de expressão da região introgressada que é sintênica para HSA4q21 humano, um agrupamento de genes previamente associado à hipertensão em humanos sob condições de hipóxia, mostra um papel anteriormente não documentado para a regulação negativa de PRDM8 como um mecanismo de regulação transcricional potencial, análogo ao anteriormente relatado em grandes altitudes para fator 1α induzível por hipóxia.

Conclusões

As assinaturas de introgressão sem precedentes dentro de ambos os genomas de camelídeos domésticos podem refletir mudanças pós-conquista na agricultura e o colapso das práticas tradicionais de manejo.


Introdução

O adenocarcinoma de esôfago (EAC) é a sexta maior causa de mortes por câncer em todo o mundo 1. A incidência desse câncer está aumentando rapidamente nos países ocidentais. Além disso, as ferramentas e estratégias de detecção e tratamento precoce desse câncer ainda não são muito eficazes e a doença continua sem evolução clínica ruim 1. A doença está associada a uma condição pré-cancerosa, esôfago de Barrett, que gradualmente progride para EAC 2. Semelhante à maioria dos cânceres, o EAC também está associado a uma instabilidade genômica acentuada que surge em um estágio inicial e permite o acúmulo contínuo de alterações genômicas, algumas das quais contribuem para o desenvolvimento e progressão do câncer 3. A avaliação de polimorfismos de nucleotídeo único (SNPs) em genomas de pacientes mostrou que, além de EAC, alterações genômicas também podem ser vistas na maioria dos casos de esôfago de Barrett 4. A instabilidade de microssatélites também foi detectada no esôfago de Barrett e nos estágios 5 do EAC. Na verdade, as alterações do tipo genético e epigenético foram detectadas no estágio 6 do esôfago de Barrett. Também há evidências de que a instabilidade genômica aumenta com a progressão do esôfago de Barrett para o câncer. De forma consistente, a aneuploidia detectada em um subconjunto de casos de esôfago de Barrett demonstrou aumentar progressivamente com a progressão para EAC 7. Da mesma forma, foi relatado que as alterações no número de cópias abrangendo áreas relativamente grandes do genoma são raras na doença em estágio inicial, mas ocorrem com mais frequência e envolvem áreas maiores do genoma em estágios avançados 8. Além disso, foi demonstrado que, embora a carga mutacional em casos pré-cancerosos do esôfago de Barrett seja menor do que no EAC, é maior do que a observada em certos outros tipos de câncer 9,10.

O genoma de EAC é altamente aberrante, com aproximadamente dez variações de nucleotídeo único por milhão de par de bases 9. A instabilidade genômica e suas consequências podem provavelmente ser atribuídas à natureza quimiorresistente do EAC 11. Também há evidências que sugerem que a instabilidade genômica contribui para a progressão da doença 12 e está associada à baixa sobrevida na EAC 13. Usando EAC e mieloma múltiplo (MM) como sistemas modelo de câncer, relatamos que a recombinação homóloga (HR), um sistema de reparo de DNA proeminente, é espontaneamente elevada nesses cânceres e contribui para a instabilidade genômica 14,15,16, desenvolvimento de resistência aos medicamentos 16, e manutenção do comprimento dos telômeros e crescimento do tumor 17. Também demonstramos que o ácido e a bile, principais conteúdos do refluxado gastroesofágico, induzem a atividade da HR em células humanas 14. Os ácidos biliares também podem causar danos oxidativos ao DNA nas células do esôfago de Barrett 18. Como o dano ao DNA pode ativar a HR, o microambiente específico do esôfago de Barrett / EAC (exposto ao ácido e bile) pode contribuir para a desregulação da HR e da estabilidade do genoma.

Neste estudo, usamos uma abordagem genômica integrada para identificar mediadores de instabilidade genômica em EAC. A significância funcional desses genes foi confirmada em telas de nocaute e superexpressão. Três desses genes (TPX2, TTK, e RAD54B) representando diversas vias foram avaliados in vitro e in vivo. Demonstramos que os genes identificados neste estudo e seus inibidores (como TTK inibidor usado neste estudo) têm o potencial de inibir / reduzir a instabilidade genômica e o crescimento de células cancerosas in vitro e in vivo. Esses inibidores também têm o potencial de reduzir a instabilidade genômica induzida pela quimioterapia, enquanto aumentam sua citotoxicidade.


O que é um microssatélite?

Microssatélite é uma seção de DNA que tem repetições de sequência simples de 1 a 10 pares de bases de comprimento. Os microssatélites também são chamados repetições de sequência curta (SSR) ou repetições tandem simples (STR). Existem dois tipos de microssatélites denominados microssatélites simples e microssatélites compostos. Microssatélites simples consistem em apenas um tipo de sequências de repetição. Os microssatélites compostos consistem em mais de um tipo de repetição. Os microssatélites mais comumente possuem regiões poli A / T. Os microssatélites são codominantes e abundantes em genomas eucarióticos.

Semelhante aos minissatélites, os microssatélites também apresentam polimorfismo entre os indivíduos. O número de repetições para um dado microssatélite varia entre os indivíduos. Portanto, microssatélites também podem ser usados ​​como marcadores genéticos em impressões digitais de DNA. O polimorfismo de microssatélites pode ser facilmente identificado por PCR e eletroforese em gel. A região flanqueadora de microssatélites é altamente conservada em espécies relacionadas.


Genomas do oídio pulverulento

Os genomas de várias espécies de oídio, formae speciales, e os isolados foram sequenciados, parcialmente montados, anotados e analisados ​​(Tabela 1). Os mais bem estudados até hoje são os de Blumeria graminis f.sp. Hordei, B. graminis f.sp. tritici e Erysiphe necator, que causa bolor na cevada (Hordeum vulgare), trigo (Triticum aestivum) e boatos (Vitis vinifera), respectivamente (Spanu et al., 2010 Spanu e Panstruga, 2012 Hacquard et al., 2013 Wicker et al., 2013 Jones et al., 2014 Panstruga e Spanu, 2014). Algumas informações limitadas sobre o oídio da ervilha (E. pisi) e um Arabidopsis thaliana-infecção do oídio (Golovinomyces orontii) também está disponível (Spanu et al., 2010). Um novo conjunto significativo de análises está atualmente em andamento no contexto do Projeto JGI CSP & # x201CComparative Genomics of Powdery Oldios e Plantas Associadas & # x201D (JGI 1) para expandir o espectro taxonômico e patogênico: este esforço incluirá os fungos que causam o pó míldios na videira (E. necator), lúpulo (Podosphaera macularis), brássicas (E. cruciferarum, G. orontii), tomate [Pseudooidium (neo-)Lycopersici], alface (G. cichoracearum ), Pimenta (Leveillula taurica), pepino (P. xanthii) e morango (P. aphanis).

TABELA 1. Compilação de estudos ômicos de oídio.

Os esforços iniciais de sequenciamento produziram alguns resultados surpreendentes e inesperados. A primeira surpresa foi que os tamanhos do genoma são muito maiores do que o esperado. Na época, dois conjuntos de ideias influenciaram a expectativa: o tamanho médio dos genomas de ascomicetos filamentosos que foram totalmente sequenciados e montados era de cerca de 40 Mb (por exemplo, Neurospora crassa e Magnaporthe oryzae Galagan et al., 2003 Dean et al., 2005) além disso, o estilo de vida parasitário obrigatório do oídio previa uma redução no tamanho e complexidade do genoma, em linha com a tendência de simplificação generalizada do corpo, desenvolvimento e genomas observada em muitos parasitas (Poulin e Randhawa, 2015). Esta previsão revelou-se espetacularmente errada: os genomas de B. graminis e E. necator as espécies são, na verdade, & # x223C120 & # x2013180 Mb, ou seja, várias vezes maiores do que ascomicetos intimamente relacionados. Resultados comparáveis ​​foram observados em alguns fungos taxonomicamente não relacionados que têm estilos de vida biotróficos semelhantes, como os fungos que causam ferrugem (Duplessis et al., 2011) e o tru & # xFB04es micorrízico (Martin et al., 2010).

Em todos esses casos, a expansão extraordinária no tamanho do genoma é causada por um acúmulo massivo de DNA repetitivo que é o resultado da atividade retrotransposon ao longo da evolução desses fungos (Spanu et al., 2010 Wicker et al., 2013 Jones et al. al., 2014 Amselem et al., 2015a). Há evidências de que esses retrotransposons ainda estão ativos, porque vários transcritos e proteínas codificadas por esses elementos foram identificados em transcriptomas e proteomas de oídio, respectivamente (Jones et al., 2014 Amselem et al., 2015b ver também abaixo).

O aumento no tamanho do genoma do oídio é acompanhado por uma redução no número de genes codificadores de proteínas. Cerca de 6.500 genes codificadores de proteínas foram identificados em B. graminis e E. necator (Spanu et al., 2010 Wicker et al., 2013 Jones et al., 2014), um número que é consideravelmente menor do que na maioria dos outros fitopatógenos fúngicos (Schmidt e Panstruga, 2011). No geral, essas tendências opostas resultam em uma diminuição acentuada na densidade do gene em comparação com fungos taxonomicamente relacionados (Figura 1). Essa redução é o resultado do menor tamanho das famílias de genes, da quase ausência de parálogos e da eliminação de alguns genes centrais de ascomicetos conservados, incluindo a perda de algumas vias metabólicas (Spanu et al., 2010 Wicker et al., 2013 Jones et al., 2014). No entanto, os genes para a maioria das vias de sinalização canônicas ainda estão presentes e intactos no B. graminis f.sp. Hordei genoma (Kusch et al., 2014). A perda de genes que são conservados pode ser atribuída à interrupção dos loci causada pela retrotransposição (Spanu et al., 2010). A ausência de um conjunto semelhante de vias metabólicas em parasitas de plantas muito distantemente relacionados, como oídio, fungos de ferrugem e oomicetos de míldio (Spanu et al., 2010) é provavelmente um indicador da evolução convergente desses patógenos obrigados a habitar um nicho ecológico comum & # x2013 a célula vegetal viva.

FIGURA 1. Baixa densidade gênica em genomas de fungos do oídio. As densidades de genes codificadores de proteínas de genomas hemiascomicetos e ascomicetos foram calculadas com base nos tamanhos de genomas publicados e nas contagens de genes dos genomas anotados. Os valores são plotados como um diagrama de barras que mostra as posições taxonômicas relativas (de maneira semelhante à usada para exibir o tamanho relativo do genoma em um estudo anterior Spanu et al., 2010). A densidade genética média de hemiascomicetes (linha preta) e ascomicetes (linha verde) é indicada. A densidade do gene na anotada Blumeria graminis genomas (barras vermelhas) e do fungo tru & # xFB04e micorrízico (Tuber melanosporum) são notavelmente mais baixos do que os de outros ascomicetes. Este é o resultado tanto do tamanho do genoma aumentado quanto da perda de alguns genes codificadores de proteínas, conforme discutido no texto.

As primeiras análises comparativas de diferentes isolados da cevada e do oídio demonstraram que os genomas existentes são essencialmente mosaicos gerados ao longo de dezenas de milhares de anos por raros eventos de recombinação sexual que datam de antes da domesticação dos respectivos cereais hospedeiros (Hacquard et al., 2013, Wicker et al., 2013). A manutenção da diversidade de isolados no nível genômico sugere que ainda há muito potencial para adaptação.

A geração e manutenção de grandes genomas, cheios de DNA repetitivo, é presumivelmente cara em termos metabólicos e arriscada em termos genéticos, porque pode levar à ruptura do gene por elementos genéticos móveis. Há evidências de que este & # x201Ccost & # x201D é balanceado pelas vantagens apresentadas pela retrotransposição ativa. Mas quais são os termos dessa troca? A chave para explicar isso é a existência de uma superfamília extraordinariamente expandida de proteínas candidatas efetoras (CSEPs) específicas para espécies ou bolor, por um lado. Várias centenas de CSEPs foram identificados nos genomas do oídio da cevada e do trigo (Pedersen et al., 2012 Wicker et al., 2013 Kusch et al., 2014 Figura 2). Por outro lado, os genes que codificam CSEPs estão associados a DNA derivado de retrotransposons (Pedersen et al., 2012), assim como alguns dos genes de avirulência atípicos identificados em B. graminis, que codificam proteínas não CSEP (Ridout et al., 2006 Bourras et al., 2015 Amselem et al., 2015b). O conceito de que proteínas efetoras em patógenos de plantas filamentosas estão localizadas em regiões particularmente plásticas dos genomas foi observado pela primeira vez em oomicetos (Raffaele et al., 2010). No fungo do oídio da cevada, intimamente relacionado CSEP parálogos estão fisicamente ligados a DNA repetitivo semelhante, sugerindo que o aumento de CSEP os números no genoma podem ter sido causados ​​por eventos de recombinação que levam a duplicações gênicas (Pedersen et al., 2012). Na verdade, a análise do genoma de E. necator revelou que a variação do número de cópias é um fenômeno frequente nesta espécie de oídio, com ca. 1 & # x20135% dos conjuntos de cinco isolados diferentes que estão sujeitos a esta adaptação genômica estrutural. Um exemplo notável de variação do número de cópias no E. necator genoma relaciona-se com o EnCYP51 gene. Este gene codifica um citocromo P450 lanosterol C-14 & # x03B1-desmetilase, que é uma enzima chave envolvida na biossíntese de esteróis fúngicos. A respectiva proteína é o alvo de uma classe de fungicidas denominados DMIs (inibidores da esterol desmetilase). Uma única troca de aminoácido no CYP51 (Y136F) torna esta proteína insensível aos fungicidas DMI. Análise de sequência de DNA de 89 E. necator isolados mostraram ampla variação no número de cópias de EnCYP51, variando de uma a quatorze cópias, o que geralmente se correlacionou com a ocorrência da mutação Y136F. Isolados coletados de vinhedos tratados com fungicida eram tipicamente resistentes a fungicidas e tinham vários CYP51 cópias que codificam a variante Y136F (Jones et al., 2014). Tomados em conjunto, os grandes e altamente repetitivos genomas do oídio podem representar substratos ideais para uma extensa plasticidade do genoma.

FIGURA 2. Genes efetores candidatos em B. graminis. Vários termos são usados ​​para nomear B. graminis candidatos a efetores na literatura publicada: candidatos a proteínas efetoras secretadas (CSEPs), candidatos a proteínas efetoras (CEPs) e Blumeria candidatos efetores (BECs). Alguns desses conjuntos se sobrepõem, conforme mostrado aqui para B. graminis f.sp. Hordei no diagrama de Euler. As CSEPs foram originalmente definidas como proteínas codificadas por genes anotados bioinformaticamente cujos produtos são previstos para serem secretados e que não possuem ortólogos em fungos de oídio não pulverulento (encontrados por pesquisas do BLAST em Spanu et al., 2010). As BECs foram definidas como proteínas identificadas por espectrometria de massa de proteínas que estão especificamente associadas a haustórios e que se prevê serem secretadas (Pliego et al., 2013). Os cinco BECs que não são CSEPs incluem proteínas de virulência, como BEC1005 e BEC1019, que se assemelham a uma endoglicosidase e uma metaloprotease, respectivamente (Pliego et al., 2013 Whigham et al., 2015). Observe o alto grau de sobreposição entre CSEPs e BECs ilustrado pelo diagrama de Euler. Os números fornecidos para essas duas categorias são valores atualizados de Pedersen et al. (2012) e Bindschedler et al. (2011). CEPs referem-se a proteínas codificadas por genes em B. graminis f.sp. tritici que foram identificados com base em evidências de seleção positiva (Wicker et al., 2013). Embora o último tipo de análise não tenha sido realizado para o patógeno da cevada, pode-se supor que existam números semelhantes porque a maioria dos genes codificadores de proteínas tem ortólogos em ambos formae speciales. O tamanho dos conjuntos, conforme mostrado no diagrama, é proporcional ao número de candidatos efetores identificados.

Muitos B. graminis CSEPs mostram evidências significativas de pressão de seleção evolutiva positiva, o que causou diversificação da sequência das proteínas codificadas (Pedersen et al., 2012 Wicker et al., 2013). De fato, um novo conjunto de genes que codificam proteínas efetoras candidatas (CEPs) foi identificado por causa de razões incomumente altas de substituições não sinônimas para sinônimas que resultam da pressão de seleção positiva (Figura 2). Notavelmente, os CEPs não têm sinais evidentes de secreção canônica (peptídeos de sinal) e, portanto, são distintos dos CSEPs (Wicker et al., 2013). Resta saber se e como essas proteínas são realmente translocadas para os hospedeiros, como é esperado de genuíno efetores. Vias secretoras não convencionais mal caracterizadas podem precisar ser invocadas aqui (Ding et al., 2012). Atualmente, poucos casos dessa secreção não canônica de proteínas derivadas de fitopatógenos foram relatados (Ospina-Giraldo et al., 2010 Lowe et al., 2015). Curiosamente, o genoma do patógeno do oídio da videira E. necator parece abrigar consideravelmente menos CSEPs do que o B. graminis genomas (aproximadamente 150 vs. 430 & # x2013550 CSEPs). Além disso, o 150 E. necator Candidatos efetores carecem de quaisquer sinais de seleção evolutiva positiva, o que pode indicar a ausência atual de um braço evolutivo extenso & # x2019s corrida entre E. necator e sua planta hospedeira, Vitis vinifera. Isso está de acordo com o fato de que a maioria das variedades de videira cultivadas não possui genes eficazes de resistência ao oídio e, portanto, são suscetíveis à doença (Jones et al., 2014). Os desafios atuais na genômica do oídio são: ampliar o espectro de espécies sequenciadas neste grupo monofilético, uma análise mais profunda da variação do genoma (incluindo a variação do número de cópias) em populações existentes, uma compreensão do potencial microevolutivo de curto prazo desses fungos e o estabelecimento de um genoma de referência totalmente montado e & # x201Cfinished & # x201D. O primeiro desses desafios (estender a cobertura em toda a ordem dos Erisífalos) será enfrentado nos próximos anos por meio dos esforços de um amplo consórcio internacional liderado por Shauna Somerville, Mary Wildermuth e colegas 2, uma esperança é que esta informação possa levar a descobertas e novas hipóteses que explicam a diversificação e adaptação do hospedeiro desses fungos patogênicos de plantas onipresentes ao longo de sua evolução a longo prazo.

A análise da diversidade do genoma da população, particularmente nos míldios dos cereais, pode fornecer informações valiosas sobre como as cepas se movem, se distribuem pelo espectro agronômico e mudam em resposta à implantação de hospedeiros com novas ou novas combinações de genes de resistência. Tal abordagem patogenômica de campo tem sido muito bem-sucedida em revelar mudanças dinâmicas na estrutura populacional da ferrugem amarela do trigo (Hubbard et al., 2015). Compreender as respostas genéticas e genômicas ao uso de fungicidas e compreender a evolução da resistência a pesticidas essenciais tem um grande potencial para aumentar nossa capacidade de mitigar os riscos para a segurança agrícola e alimentar. Este desafio não é atendido atualmente no oídio.

Em relação ao acima exposto, temos muito pouco conhecimento do potencial de geração de variação por meio de mudanças genéticas e / ou epigenéticas rápidas e de curto prazo no oídio. Uma análise sistemática das mudanças do genoma em ambientes isolados e controlados, possivelmente sob diversas pressões de seleção, será necessária para resolver este problema.

Todos esses desafios seriam muito facilitados pela disponibilidade de sequências de referência totalmente montadas e acabadas (Thomma et al., 2015). Todas as sequências do genoma do oídio publicadas até o momento são altamente fragmentadas. Isso se deve, em grande parte, ao caráter extremamente repetitivo do DNA genômico, que impossibilita a montagem completa com as tecnologias disponíveis. A natureza obrigatória dos próprios organismos também torna difícil a obtenção de grandes quantidades de DNA grande, intacto e puro não contaminado pelo hospedeiro ou outros microorganismos associados. A disponibilidade de novas tecnologias de sequenciamento de & # x201Cterceira geração & # x201D, em particular as metodologias de leitura longa direta (Faino e Thomma, 2014), juntamente com sequenciamento de & # x201Condgeração & # x201D muito profundo e avanços em computação e software prometem melhorar o conjuntos existentes significativamente. Resta saber se esses aprimoramentos fornecerão a montagem completa e a cobertura completa alcançada com outros ascomicetos filamentosos (Goodwin et al., 2011 Faino et al., 2015). Isso pode ser particularmente crítico porque, embora os genomas existentes tenham alta cobertura, os conjuntos atuais são especialmente pobres nas áreas ricas em repetições. Perversamente, essas são precisamente as áreas que parecem abrigar uma grande proporção dos genes altamente interessantes que codificam efetores candidatos (CSEPs e CEPs) e proteínas da família EKA (ver abaixo), que são de grande relevância para a compreensão do estabelecimento da relação com o hospedeiro, em particular aqueles que modulam o reconhecimento do hospedeiro (Bourras et al., 2015). Podemos, portanto, supor que o repertório efetor do oídio é ainda maior do que o conhecido atualmente. A verdadeira conclusão das sequências acabadas é, portanto, de grande importância a esse respeito.


Américas

O site será exibido em inglês.

Usamos esses cookies para garantir o funcionamento seguro e adequado de nosso site, eles são necessários para o funcionamento de nossos serviços e não podem ser desligados em nossos sistemas. Normalmente, eles são definidos apenas em resposta a ações feitas por você que correspondam a uma solicitação de serviços, como fazer login, usar um carrinho de compras ou preencher formulários. Você pode configurar seu navegador para bloquear ou alertá-lo sobre esses cookies, mas algumas partes de nossos serviços não funcionarão sem eles. Como os outros cookies que usamos, os cookies estritamente necessários podem ser cookies primários ou cookies de terceiros.

Usamos esses cookies para lembrar suas configurações e preferências. Por exemplo, podemos usar esses cookies para lembrar suas preferências de idioma.
Permitir cookies de preferência

Usamos esses cookies para coletar informações sobre como você interage com nossos serviços e para nos ajudar a medi-los e melhorá-los. Por exemplo, podemos usar esses cookies para determinar se você interagiu com uma determinada página.
Permitir cookies de desempenho / estatísticas

Nós e nossos parceiros de publicidade usamos esses cookies para fornecer anúncios, para torná-los mais relevantes e significativos para você e para rastrear a eficiência de nossas campanhas publicitárias, tanto em nossos serviços quanto em outros sites e mídias sociais.
Permitir cookies de marketing


O que é instabilidade de microssatélites (MSI)?

Instabilidade de microssatélites é o acúmulo de erros de inserção ou exclusão em sequências de repetição de microssatélites em células cancerosas como resultado de uma deficiência em uma ou mais proteínas principais de reparo de incompatibilidade de DNA (dMMR).

O teste de instabilidade de microssatélites (teste de MSI) mede a capacidade de uma célula de reparar erros na replicação do DNA. Cada vez que uma célula se divide, o DNA dessa célula é copiado. A maquinaria da célula às vezes comete erros ao copiar o DNA antes da divisão celular. Um desses erros é chamado de incompatibilidade, quando nucleotídeos extras são inseridos ou excluídos da fita de DNA recém-sintetizada e não há correspondências na fita modelo. As células normais têm um sistema, denominado reparo de incompatibilidade (MMR), para detectar e corrigir esses erros. Certas partes do genoma chamadas microssatélites são particularmente sensíveis a erros de incompatibilidade e servem como marcadores de deficiência de reparo de incompatibilidade (dMMR).

Sequências de microssatélites de repetição de mononucleotídeos encontradas em todo o genoma são particularmente sensíveis a erros de transcrição. Assim, a instabilidade de microssatélites de alta frequência (MSI-H) é considerada um marcador para a presença de mutações ou silenciamento de metilação de certos genes principais de DNA MMR.

Recentemente, o status do MSI foi redescoberto como um biomarcador para a resposta imunoterapêutica, tornando o status do MSI uma ferramenta cada vez mais relevante na pesquisa genética e imuno-oncológica.

A análise de MSI normalmente envolve a comparação de perfis alélicos de marcadores microssatélites gerados pela amplificação de pares correspondentes de amostras de tecido de teste e normal. Mudanças no tamanho do fragmento de amplificação na amostra de teste em comparação com a amostra normal correspondente são indicativas de MSI.

A Promega produziu o primeiro kit comercialmente disponível para pesquisa de MSI em 2004.


IGSR: The International Genome Sample Resource

Consulte VCF_4.0_sv para as convenções e extensões adotadas pelo Projeto 1000 Genomes para a codificação de variações estruturais no formato VCF 4.0.

0. Exemplo

VCF é um formato de arquivo de texto (provavelmente armazenado de forma compactada). Ele contém linhas de meta-informação, uma linha de cabeçalho e, em seguida, linhas de dados, cada uma contendo informações sobre uma posição no genoma.

Existe a opção de conter informações de genótipo em amostras para cada posição ou não.

Este exemplo mostra em ordem um bom SNP simples, um possível SNP que foi filtrado porque sua qualidade está abaixo de 10, um local no qual dois alelos alternativos são chamados, com um deles (T) sendo ancestral (possivelmente um erro de sequenciamento de referência ), um sítio denominado referência monomórfica (ou seja, sem alelos alternativos) e um microssatélite com dois alelos alternativos, um uma deleção de 3 bases (TCT) e o outro uma inserção de uma base (A). Os dados do genótipo são fornecidos para três amostras, duas das quais são faseadas e a terceira não faseada, com a qualidade do genótipo por amostra, a profundidade e as qualidades dos haplótipos (o último apenas para as amostras faseadas) fornecidas, bem como os genótipos. As chamadas de microssatélites não têm fase.

1. Linhas de meta-informação

As meta-informações do arquivo são incluídas após a string ##, geralmente como pares chave = valor.

O campo ‘formato de arquivo’ é sempre obrigatório e deve detalhar o número da versão do formato VCF. Por exemplo, para VCF versão 4.0, esta linha deve ser:

É fortemente encorajado que as linhas de informação que descrevem as entradas INFO, FILTER e FORMAT usadas no corpo do arquivo VCF sejam incluídas na seção de meta-informação. Embora sejam opcionais, se essas linhas estiverem presentes, elas devem ser completamente bem formadas.

Os campos INFO devem ser descritos da seguinte forma (todas as chaves são obrigatórias):

Os tipos possíveis para os campos INFO são: Inteiro, Flutuante, Sinalizador, Caractere e String.

A entrada de número é um inteiro que descreve o número de valores que podem ser incluídos no campo INFO. Por exemplo, se o campo INFO contiver um único número, esse valor deverá ser 1. No entanto, se o campo INFO descrever um par de números, esse valor deverá ser 2 e assim por diante. Se o número de valores possíveis variar, for desconhecido ou ilimitado, esse valor deve ser ‘.’. Os tipos possíveis são: Integer, Float, Character, String e Flag. O tipo 'Sinalizador' indica que o campo INFO não contém uma entrada de valor e, portanto, o número deve ser 0 neste caso. O valor da descrição deve estar entre aspas duplas.

FILTROS que foram aplicados aos dados devem ser descritos da seguinte forma:

Da mesma forma, os campos de genótipo especificados no campo FORMAT devem ser descritos da seguinte forma:

Os tipos possíveis para campos FORMAT são: Integer, Float, Character e String.

2. A sintaxe da linha de cabeçalho

A linha de cabeçalho nomeia as 8 colunas fixas obrigatórias. Essas colunas são as seguintes:

  1. #CHROM
  2. POS
  3. EU IRIA
  4. REF
  5. ALT
  6. QUAL
  7. FILTRO
  8. INFO

Se os dados do genótipo estiverem presentes no arquivo, eles serão seguidos por um cabeçalho de coluna FORMAT e, em seguida, por um número arbitrário de IDs de amostra. A linha de cabeçalho é delimitada por tabulação.

3. Linhas de dados

Campos fixos

Existem 8 campos fixos por registro. Todas as linhas de dados são delimitadas por tabulação. Em todos os casos, os valores ausentes são especificados com um ponto (“.”). Os campos fixos são:

  1. Cromossomo CHROM: um identificador do genoma de referência. Todas as entradas para um CHROM específico devem formar um bloco contíguo dentro do arquivo VCF. (String alfanumérica, obrigatório)
  2. Posição POS: A posição de referência, com a 1ª base tendo a posição 1. As posições são ordenadas numericamente, em ordem crescente, dentro de cada sequência de referência CHROM. (Inteiro, obrigatório)
  3. Lista separada por ponto e vírgula de ID de identificadores exclusivos, quando disponível. Se esta for uma variante dbSNP, é recomendável usar o (s) número (s) rs. Nenhum identificador deve estar presente em mais de um registro de dados. Se não houver nenhum identificador disponível, o valor ausente deve ser usado. (String alfanumérica)
  4. Base (s) de referência REF: Cada base deve ser uma de A, C, G, T, N. As bases devem estar em maiúsculas. Várias bases são permitidas. O valor no campo POS refere-se à posição da primeira base na String. Para InDels, a string de referência deve incluir a base antes do evento (que deve ser refletida no campo POS). (String, Obrigatório).
  5. ALT lista separada por vírgulas de alelos alternativos sem referência chamados em pelo menos uma das amostras. As opções são Strings de base constituídas pelas bases A, C, G, T, N ou uma string de ID entre colchetes angulares (”& LtID & gt“) Se não houver alelos alternativos, o valor ausente deve ser usado. As bases devem estar em maiúsculas. (String alfanumérica sem espaços em branco, vírgulas ou colchetes angulares são permitidos na própria string de ID)
  6. Pontuação de qualidade QUAL phred-scaled para a afirmação feita em ALT. ou seja, dê -10log_10 prob (chamar ALT está errado). Se ALT for ”.” (sem variante) então é -10log_10 p (variante), e se ALT não for ”.” este é -10log_10 p (sem variante). Altas pontuações QUAL indicam chamadas de alta confiança. Embora tradicionalmente as pessoas usem pontuações phred inteiras, este campo pode ser um ponto flutuante para permitir uma resolução mais alta para chamadas de baixa confiança, se desejado. (Numérico)
  7. Filtro FILTRO: PASSAR se esta posição passou em todos os filtros, ou seja, uma chamada é feita nesta posição. Otherwise, if the site has not passed all filters, a semicolon-separated list of codes for filters that fail. por exemplo. “q10s50” might indicate that at this site the quality is below 10 and the number of samples with data is below 50% of the total number of samples. “0” is reserved and should not be used as a filter String. If filters have not been applied, then this field should be set to the missing value. (Alphanumeric String)
  8. INFO additional information: (Alphanumeric String) INFO fields are encoded as a semicolon-separated series of short keys with optional values in the format: <key>=<data>[,data]. Arbitrary keys are permitted, although the following sub-fields are reserved (albeit optional):
    • AA ancestral allele
    • AC allele count in genotypes, for each ALT allele, in the same order as listed
    • AF allele frequency for each ALT allele in the same order as listed: use this when estimated from primary data, not called genotypes
    • AN total number of alleles in called genotypes
    • BQ RMS base quality at this position
    • CIGAR cigar string describing how to align an alternate allele to the reference allele
    • DB dbSNP membership
    • DP combined depth across samples, e.g. DP=154
    • END end position of the variant described in this record (esp. for CNVs)
    • H2 membership in hapmap2
    • MQ RMS mapping quality, e.g. MQ=52
    • MQ0 Number of MAPQ == 0 reads covering this record
    • NS Number of samples with data
    • SB strand bias at this position
    • SOMATIC indicates that the record is a somatic mutation, for cancer genomics
    • VALIDATED validated by follow-up experiment

etc. The exact format of each INFO sub-field should be specified in the meta-information (as described above).

Example for an INFO field: DP=154MQ=52H2. Keys without corresponding values are allowed in order to indicate group membership (e.g. H2 indicates the SNP is found in HapMap 2). It is not necessary to list all the properties that a site does NOT have, by e.g. H2=0.

Genotype fields

If genotype information is present, then the same types of data must be present for all samples. First a FORMAT field is given specifying the data types and order. This is followed by one field per sample, with the colon-separated data in this field corresponding to the types specified in the format. The first sub-field must always be the genotype (GT).

As with the INFO field, there are several common, reserved keywords that are standards across the community:

  • GT genotype, encoded as alleles values separated by either of ”/” or “|”, e.g. The allele values are 0 for the reference allele (what is in the reference sequence), 1 for the first allele listed in ALT, 2 for the second allele list in ALT and so on. For diploid calls examples could be 0/1 or 1|0 etc. For haploid calls, e.g. on Y, male X, mitochondrion, only one allele value should be given. All samples must have GT call information if a call cannot be made for a sample at a given locus, ”.” must be specified for each missing allele in the GT field (for example ./. for a diploid). The meanings of the separators are:
    • / : genotype unphased
    • | : genotype phased

    If any of the fields is missing, it is replaced with the missing value. For example if the format is GT:GQ:DP:HQ then A|A. 23:23,34 indicates that GQ is missing. Trailing fields can be dropped (with the exception of the GT field, which should always be present).

    Additional Genotype fields can be defined in the meta-information. However, software support for such fields is not guaranteed.

    4. Understanding the VCF format and the haplotype representation

    VCF records use a single general system for representing genetic variation data composed of:

    • Allele: representing single genetic haplotypes (A, T, ATC).
    • Genotype: an assignment of alleles for each chromosome of a single named sample at a particular locus.
    • VCF record: a record holding all segregating alleles at a locus (as well as genotypes, if appropriate, for multiple individuals containing alleles at that locus).

    VCF records use a simple haplotype representation for REF and ALT alleles to describe variant haplotypes at a locus. ALT haplotypes are constructed from the REF haplotype by taking the REF allele bases at the POS in the reference genotype and replacing them with the ALT bases. In essence, the VCF record specifies a-REF-t and the alternative haplotypes are a-ALT-t for each alternative allele.

    How do I represent example variation in VCF records?

    For example, suppose we are looking at a locus in the genome:

    In the above cases, what are the alleles and how would they be represented as a VCF record?

    * First is a SNP polymorphism of C/G → < C , G >→ C is the reference allele

    * Second, 1 base deletion of C → < tC , t >→ tC is the reference allele

    * Third, 1 base insertion of A → < tC tCA >→ tC is the reference allele

    Suppose I see a the following in a population of individuals and want to represent these three segregating alleles:

    How do I represent this? There are three segregating alleles: < tC , tG , t >with a corresponding VCF record:

    Now suppose I have this more complex example:

    There are actually four segregating alleles: < tCg , tg, t, and tCAg >over bases 2-4. This complex set of allele is represented in VCF as:

    Note that in VCF records, the molecular equivalence explicitly listed above in the per-base alignment is discarded, so the actual placement of equivalent g isn’t retained.

    For completeness, VCF records are dynamically typed, so whether a VCF record is a SNP, Indel, Mixed, or Reference site depends on the properties of the alleles in the record.

    What do example VCF records indicate as variation from the reference?

    SNP VCF record

    Suppose I receive the following VCF record:

    This is a SNP since its only single base substitution and there are only two alleles so I have the two following segregating haplotypes:

    Insertion VCF record

    Suppose I receive the following VCF record:

    This is a insertion since the reference base C is being replaced by C [the reference base] plus three insertion bases TAG. Again there are only two alleles so I have the two following segregating haplotypes:

    Deletion VCF record

    Suppose I receive the following VCF record:

    This is a deletion of two reference bases since the reference allele TCG is being replaced by just the T [the reference base]. Again there are only two alleles so I have the two following segregating haplotypes:

    Mixed VCF record for a microsatellite

    Suppose I receive the following VCF record:

    This is a mixed type record containing a 2 base insertion and a 2 base deletion. There are are three segregating alleles so I have the three following haplotypes:

    Note that in all of these examples dashes have been added to make the haplotypes clearer but of course the equivalence among bases isn’t provided by the VCF. Technically the following is an equivalent alignment:

    To cite IGSR please use our NAR publication

    The International Genome Sample Resource (IGSR) has been established at EMBL-EBI to continue supporting data generated by the 1000 Genomes Project, supplemented with new data and new analysis. The IGSR is funded by the Wellcome Trust (grant number WT104947/Z/14/Z).


    Referências

    Jain M, Misra G, Patel RK, Priya P, Jhanwar S, Khan AW, Shah N, Singh VK, Garg R, Jeena G, Sharma P, Kant C, Yadav M, Yadav G, Bhatia S, Tyagi AK, Chattopadhyay D: A draft genome sequence of the pulse crop chickpea (Cicer arietinum EU.). Plant J. 2013, 74: 715-729. 10.1111/tpj.12173.

    Varshney RK, Song C, Saxena RK, Azam S, Yu S, Sharpe AG, Cannon S, Baek J, Rosen BD, Tar'an B, Millan T, Zhang X, Ramsay LD, Iwata A, Wang Y, Nelson W, Farmer AD, Gaur PM, Soderlund C, Penmetsa RV, Xu C, Bharti AK, He W, Winter P, Zhao S, Hane JK, Carrasquilla-Garcia N, Condie JA, Upadhyaya HD, Luo MC, et al: Draft genome sequence of chickpea (Cicer arietinum) provides a resource for trait improvement. Nat Biotechnol. 2013, 31: 240-246. 10.1038/nbt.2491.

    Schmutz J, Cannon SB, Schlueter J, Ma J, Mitros T, Nelson W, Hyten DL, Song Q, Thelen JJ, Cheng J, Xu D, Hellsten U, May GD, Yu Y, Sakurai T, Umezawa T, Bhattacharyya MK, Sandhu D, Valliyodan B, Lindquist E, Peto M, Grant D, Shu S, Goodstein D, Barry K, Futrell-Griggs M, Abernathy B, Du J, Tian Z, Zhu L, et al: Genome sequence of the palaeopolyploid soybean. Natureza. 2010, 463: 178-183. 10.1038/nature08670.

    Varshney RK, Chen W, Li Y, Bharti AK, Saxena RK, Schlueter JA, Donoghue MT, Azam S, Fan G, Whaley AM, Farmer AD, Sheridan J, Iwata A, Tuteja R, Penmetsa RV, Wu W, Upadhyaya HD, Yang SP, Shah T, Saxena KB, Michael T, McCombie WR, Yang B, Zhang G, Yang H, Wang J, Spillane C, Cook DR, May GD, Xu X, et al: Draft genome sequence of pigeonpea (Cajanus cajan), an orphan legume crop of resource-poor farmers. Nat Biotechnol. 2011, 30: 83-89. 10.1038/nbt.2022.

    Phaseolus vulgaris v0.9, DOE-JGI and USDA-NIFA [http://www.phytozome.net/commonbean]

    Young ND, Debelle F, Oldroyd GE, Geurts R, Cannon SB, Udvardi MK, Benedito VA, Mayer KF, Gouzy J, Schoof H, Van de Peer Y, Proost S, Cook DR, Meyers BC, Spannagl M, Cheung F, De Mita S, Krishnakumar V, Gundlach H, Zhou S, Mudge J, Bharti AK, Murray JD, Naoumkina MA, Rosen B, Silverstein KA, Tang H, Rombauts S, Zhao PX, Zhou P, et al: The Medicago genome provides insight into the evolution of rhizobial symbioses. Natureza. 2011, 480: 520-524. 10.1038/480162a.

    Sato S, Nakamura Y, Kaneko T, Asamizu E, Kato T, Nakao M, Sasamoto S, Watanabe A, Ono A, Kawashima K, Fujishiro T, Katoh M, Kohara M, Kishida Y, Minami C, Nakayama S, Nakazaki N, Shimizu Y, Shinpo S, Takahashi C, Wada T, Yamada M, Ohmido N, Hayashi M, Fukui K, Baba T, Nakamichi T, Mori H, Tabata S: Genome structure of the legume, Lotus japonicus . DNA Res. 2008, 15: 227-239. 10.1093/dnares/dsn008.

    Donlin MJ: Using the generic genome browser (GBrowse). Curr Protoc Bioinformatics. 2009, 28: 9.9.1-9.9. 25.

    Jhanwar S, Priya P, Garg R, Parida SK, Tyagi AK, Jain M: Transcriptome sequencing of wild chickpea as a rich resource for marker development. Plant Biotechnol J. 2012, 10: 690-702. 10.1111/j.1467-7652.2012.00712.x.

    Garg R, Patel RK, Jhanwar S, Priya P, Bhattacharjee A, Yadav G, Bhatia S, Chattopadhyay D, Tyagi AK, Jain M: Gene discovery and tissue-specific transcriptome analysis in chickpea with massively parallel pyrosequencing and web resource development. Plant Physiol. 2011, 156: 1661-1678. 10.1104/pp.111.178616.

    Swarbreck D, Wilks C, Lamesch P, Berardini TZ, Garcia-Hernandez M, Foerster H, Li D, Meyer T, Muller R, Ploetz L, Radenbaugh A, Singh S, Swing V, Tissier C, Zhang P, Huala E: The Arabidopsis Information Resource (TAIR): gene structure and function annotation. Nucleic Acids Res. 2008, 36: D1009-D1014. 10.1093/nar/gkm965.

    Altschul SF, Madden TL, Schäffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ: Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 1997, 25: 3389-3402. 10.1093 / nar / 25.17.3389.

    Haas BJ, Delcher AL, Wortman JR, Salzberg SL: DAGchainer: a tool for mining segmental genome duplications and synteny. Bioinformática. 2004, 20 (18): 3643-6. 10.1093/bioinformatics/bth397.

    Higo K, Ugawa Y, Iwamoto M, Korenaga T: Plant cis-acting regulatory DNA elements (PLACE) database: 1999. Nucleic Acids Res. 1999, 27: 297-300. 10.1093/nar/27.1.297.

    Portales-Casamar E, Thongjuea S, Kwon AT, Arenillas D, Zhao X, Valen E, Yusuf D, Lenhard B, Wasserman WW, Sandelin A: JASPAR 2010: the greatly expanded open-access database of transcription factor binding profiles. Nucleic Acids Res. 2010, 38: D105-110. 10.1093/nar/gkp950.

    Xi L, Fondufe-Mittendorf Y, Xia L, Flatow J, Widom J, Wang JP: Predicting nucleosome positioning using a duration Hidden Markov Model. BMC Bioinformatics. 2010, 11: 346-10.1186/1471-2105-11-346.

    Wang HC, Wang HC, Ko TP, Lee YM, Leu JH, Ho CH, Huang WP, Lo CF, Wang AH: White spot syndrome virus protein ICP11: A histone-binding DNA mimic that disrupts nucleosome assembly. Proc Natl Acad Sci U S A. 2008, 105: 20758-20763. 10.1073/pnas.0811233106.

    Papanicolaou A, Heckel DG: The GMOD Drupal bioinformatic server framework. Bioinformática. 2010, 26: 3119-3124. 10.1093/bioinformatics/btq599.

    Gonzales MD, Archuleta E, Farmer A, Gajendran K, Grant D, Shoemaker R, Beavis WD, Waugh ME: The Legume Information System (LIS): an integrated information resource for comparative legume biology. Nucleic Acids Res. 2005, 33: D660-665. 10.1093/nar/gki128.

    Main, D, Cheng, C-H, Ficklin, S.P, Jung, S, Zheng, P, Coyne, C.J, McGee, R, Mockaitis, K: The Cool Season Food Legume Database: An Integrated Resource for Basic, Translational and Applied Research. Proceedings of the International Plant and Animal Genome Conference: 12-16 January 2013, San Diego, CA, USA


    *Usage Examples*

    To mask using just entropy:

    bbmask.sh in=ref.fa out=masked.fa entropy=0.7

    To mask sequences in genome A similar to those in genome B, plus low-entropy sequences:
    shred.sh in=B.fa out=shredded.fa length=80 minlength=70 overlap=40
    bbmap.sh ref=A.fa in=shredded.fa outm=mapped.sam minid=0.85 maxindel=2
    bbmask.sh in=A.fa out=masked.fa entropy=0.7 sam=mapped.sam

    To filter low-entropy sequences rather than masking them:
    See the BBDuk Guide.


    Assista o vídeo: Is it possible to edit genes? CRISPR Cas9 (Fevereiro 2023).