Em formação

Evolução e número diferente de cromossomos? (um não biólogo)

Evolução e número diferente de cromossomos? (um não biólogo)


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Eu entendo que uma espécie se torna diferente aos poucos e de forma contínua. No entanto, o número diferente de cromossomos está me incomodando. Os chimpanzés, por exemplo, têm 48 cromossomos, enquanto os humanos têm 46.

Tenho poucos palpites que não me satisfizeram de todo:

  1. As espécies não são tão diferentes, apesar de seu número diferente de cromossomos, e capazes de se reproduzir. A prole é de alguma forma saudável e também capaz de procriar. Mas isso não torna a prole estéril?

  2. A outra possibilidade é, em algum ponto, descendência múltipla em uma população formada com, digamos, 46 cromossomos e a reprodução ocorreu entre eles. Mesmo que não pareça impossível para mim, quais são as probabilidades realmente?

Alguém pode fornecer uma visão para um não biólogo?


A especiação não acontece de uma geração para outra, é um processo lento e contínuo, e para cada mudança mantida pela seleção natural, existem milhões de mudanças que resultaram em fenótipos menos funcionais e foram selecionados negativamente, e outro milhão de mudanças que eram letais logo abortadas (por exemplo, uma mutação que faz com que um embrião morra antes mesmo que uma fruta ou animal possa se desenvolver). Portanto, pode ser possível que muitas mudanças no número de cromossomos estejam ocorrendo em muitos organismos, mas nunca se estabilizarão em suas populações. Por outro lado, algumas mudanças numéricas (e todos os processos genéticos que seguem qualquer mudança) podem resultar em um bom ajuste, e os indivíduos sobrevivem, se estabelecem e se reproduzem. Mas lembre-se de que é um processo lento e contínuo.

Teoricamente, se entre os chimpanzés, vários filhos resultam com 46 em vez de 48 cromossomos:

  • Em um cenário teórico: eles poderiam ser capazes de se reproduzir apenas entre si (os indivíduos com 46 cromossomos) e, com o tempo, acumular algumas diferenças em relação aos chimpanzés com 48 cromossomos, e eles seriam denominados como outra espécie.

  • Em um cenário teórico: em algumas condições, eles podem ser capazes até mesmo de se reproduzir com chimpanzés de 48 cromossomos (por exemplo, se essa mudança numérica resultou da fissão de um cromossomo, e quando os dois gametas se encontram, os dois meio cromossomos de um par parental com o cromossomo inteiro do outro ... Isso não é provável para os animais, mas acontece muito nas plantas)

  • Se você está perguntando se os chimpanzés de 46 cromossomos cruzariam com humanos ... bem, acredito que eles acumularam muitas diferenças em seus genótipos e, portanto, não seriam compatíveis mesmo se tivessem o mesmo número de cromossomos. Acontece que ter o mesmo número não é o fator mais importante para permitir ou impedir o cruzamento das espécies. Existem muitas barreiras à hibridação, e. a falta de reconhecimento bioquímico entre o óvulo e o espermatozóide resultando na não formação do embrião ... nos casos em que o embrião é formado, ele pode não se desenvolver, pode se desenvolver mal, ou pode se desenvolver, mas a prole sai comprometida e vive em breve. Outro exemplo de que o número do cromossomo não impede o cruzamento é a mula, que é filha de uma égua (64 cromossomos) com um burro macho (62 cromossomos). Isso porque, mesmo tendo diferentes números de cromossomos, eles ainda são bastante semelhantes do ponto de vista genético.

Tudo isso dito, as chances de os chimpanzés perderem dois cromossomos, se estabelecerem na população e se reproduzirem com humanos são realmente muito baixas ... Eu diria que isso é impossível. Mas fenômenos semelhantes são possíveis e até bastante comuns nas plantas (só para você saber que existe)

Se você quiser saber mais sobre as alterações do número de cromossomos, recomendo este link: https://www.ncbi.nlm.nih.gov/books/NBK21229/

(Modern Genetic Analysis. Griffiths AJF, Gelbart WM, Miller JH, et al. New York: W. H. Freeman; 1999.)


Evolução: Duas rotas para o mesmo destino

As moscas da fruta encontraram pelo menos duas soluções para o problema de classificação de seus cromossomos sexuais: uma questão de vida ou morte.

A determinação do sexo em animais freqüentemente depende da segregação desigual de cromossomos específicos. As células femininas geralmente possuem dois cromossomos X, enquanto as células masculinas contêm um cromossomo X e um Y. Este último, que é herdado do pai do homem, tem muito menos genes do que o X. Na mosca da fruta Drosófila, as células masculinas compensam o fato de terem apenas um cromossomo X, aumentando o nível de expressão de todos os seus genes por um fator de 2. Esse fenômeno, conhecido como compensação de dosagem, requer que o cromossomo X nos homens seja regulado de forma diferente de todos os outros. Uma equipe de biólogos moleculares da Ludwig-Maximilians-Universitaet (LMU) no Centro Biomédico de Munique, liderada pelo professor Peter Becker, mostrou agora que, ao longo de 40 milhões de anos, membros do gênero Drosófila descobriram pelo menos duas maneiras diferentes de fazer essa distinção vital.

"À luz da importância da compensação de dosagem, pode-se esperar que os princípios por trás do reconhecimento específico do cromossomo X em homens sejam altamente conservados", diz Becker. "Em outras palavras, o processo deve funcionar essencialmente da mesma maneira em todos Drosófila espécies. No entanto, quando comparamos as duas espécies Drosophila melanogaster e Drosophila virilis, descobrimos, para nossa surpresa, que eles usam mecanismos distintos para esse propósito. "Significativamente, os componentes primários envolvidos na compensação de dosagem - as proteínas MSL2 e CLAMP, junto com o RNA roX não codificante - são encontrados em ambas as espécies Portanto, seu último ancestral comum presumivelmente possuía os genes que codificam esses produtos.

As duas espécies divergiram há cerca de 40 milhões de anos e, desde então, evoluíram em paralelo. O novo estudo mostra que, durante esse período, os mediadores de compensação de dosagem e seus sítios de ligação no cromossomo X evoluíram de maneiras diferentes. Como resultado, a influência relativa e as interações entre os componentes mudaram. Entre outras coisas, em D. melanogaster o número de cópias de certas sequências de DNA no cromossomo X aumentou. Paralelamente, o domínio de ligação ao DNA da proteína MSL2 adquiriu a capacidade de reconhecer essas sequências, e agora elas desempenham um papel crítico no reconhecimento do cromossomo X nessa espécie.

No D. virilispor outro lado, essas sequências não foram amplificadas. Seu reconhecimento por MSL2, portanto, depende de sua interação com a proteína CLAMP em uma extensão muito maior do que no caso de D. melanogaster - mesmo que a proteína CLAMP também possa se ligar a muitas sequências nos outros cromossomos. "Assumimos que o RNA roX não codificador inibe a ligação de MSL2 nesses locais", diz Becker. O estudo, portanto, descobriu um novo papel para este RNA. Até agora, os pesquisadores presumiram que o roX entra em ação não no nível de reconhecimento de sequência, mas em um estágio posterior no processo de compensação de dosagem.

Essas descobertas têm implicações evolutivas interessantes. "À medida que os cromossomos sexuais continuam a se diversificar, o surgimento de soluções alternativas, mas igualmente eficazes, para o problema de equilibrar a atividade do genoma demonstra que a evolução não é um processo determinístico", ressalta Becker.


Euploidia: Significado e Tipos | Biologia Celular

Euploldy é a presença do número de cromossomos, que é o múltiplo do conjunto básico de cromossomo e timossoma. Um organismo com o cromossomo básico número 7 pode ter euploides com o cromossomo número 7, 14, 21, 28, 35, 42. Os euploides são ainda de tipos diferentes & # 8211 monoplóides, diplóides e poliplóides.

Em monoplóides, há um único conjunto de genoma, em diplóides há dois conjuntos de genomas e em poliplóides há mais de dois conjuntos de genomas (Tabela 11.2).

Símbolos do número do cromossomo:

2n = número de cromossomos somáticos de uma espécie diplóide ou poliplóide.

n = número de cromossomos gaméticos de uma espécie diplóide ou poliploide.

X = número básico de cromossomos ou número genômico.

Em uma espécie diplóide com cromossomo num & shyber 2n = 14, n = 7, bem como x = 7.

Mas em uma espécie poliploide (hexaploide) com número cromossômico 2n = 6x = 42, n = 21 mas X = 7.

Tipos de euploidia:

Monoploidia e Haploidia:

Os indivíduos monoplóides têm um único conjunto básico de cromossomos, por exemplo, na cevada 2n = x = 7 (haplóide de uma espécie diplóide). Os haplóides são indi & tímidos com o número cromossômico metade do número somático, por exemplo, no trigo (2n = 3x = 21).

Em espécies diplóides, o número de cromossomos de monoplóides e haplóides é o mesmo, mas em espécies poli & shiplóides, o número de cromossomos de mono & shiplóides e haplóides são diferentes. No trigo poliplóide (6x = 42), o haplóide é 3x = 21 e o manoplóide é x = 7.

Em plantas com flores, a diplofase ou a fase esporofítica domina a haplofase ou a fase gametofítica é normalmente limitada aos grãos de pólen e os sacos embrionários. Em casos excepcionais e tímidos, podem surgir plantas totalmente haplóides. Com relação a todas as suas partes, os hap & shyloids são menores e freqüentemente exibem pouco vigor.

A meiose em um haplóide verdadeiro é obviamente muito irregular e os cromossomos são distribuídos aleatoriamente, alguns deles se movem para um pólo, outros para o pólo oposto. Além disso, muitas vezes há eliminação de cromossomos, isto é, cromossomos únicos são eliminados no citoplasma e não são incluídos nos grãos de pólen ou sacos embrionários.

Na maioria dos casos, os grãos de pólen e os sacos embrionários receberão uma constituição cromossômica incompleta ou desequilibrada, o que terá um efeito letal. Assim, os haplóides são completamente ou quase totalmente estéreis.

Os haplóides são de tipos diferentes (Fig. 11.6). Polihaplóides são haplóides obtidos de espécies poliplóides, por exemplo, o grupo do trigo, que é hexaplóide com 2n = 42, contém mais de um genoma. Se os genomas forem homólogos e tímidos ou parcialmente homólogos, a formação bivalente e boa fertilidade no polihaplóide pode ser a consequência.

Aneuhaplóides também estão disponíveis e de dois tipos - haplóide disômico (haplóide obtido de um tetrassômico) e hap & shiloide nulisômico (deficiente de um cromossomo que euhaplóide).

Os haplóides podem se originar espontaneamente e timidamente, mas, como regra, apenas em frequências muito baixas e timidez. Os haplóides podem ser induzidos por meio de

(i) Polinização retardada e divisão do ovo sem fertilização,

(iii) Polinizando com uma espécie incompatível, por exemplo, Solanum nigrum é polinizado com pólen de S. luteum, haplóides de S. nigrum podem surgir. Esses haplóides são derivados de ovos não fertilizados de S. nigrum.

Um quarto método para obter haplóides e poliembrionia é pelo método dos gêmeos. Por último, o método mais importante para a indução de haploidia é a cultura do grão de pólen in vitro, como feito no caso das espécies de Datura, Oryza e algumas outras culturas agrícolas.


Mudanças no número de cromossomos

As células humanas normalmente contêm 23 pares de cromossomos, para um total de 46 cromossomos em cada célula. Uma mudança no número de cromossomos pode causar problemas com o crescimento, desenvolvimento e função dos sistemas do corpo. Essas alterações podem ocorrer durante a formação das células reprodutivas (óvulos e espermatozoides), no início do desenvolvimento fetal ou em qualquer célula após o nascimento. Um ganho ou perda de cromossomos do 46 normal é chamado aneuploidia.

Uma forma comum de aneuploidia é trissomia, ou a presença de um cromossomo extra nas células. “Tri-” é grego para “três” pessoas com trissomia têm três cópias de um cromossomo específico nas células, em vez das duas cópias normais. A síndrome de Down é um exemplo de condição causada por trissomia. Pessoas com síndrome de Down geralmente têm três cópias do cromossomo 21 em cada célula, para um total de 47 cromossomos por célula.

Figura 1 Este cariótipo, que é uma imagem de todos os cromossomos de um indivíduo, é de uma pessoa com Trissomia do 13.

Monossomia, ou a perda de um cromossomo nas células, é outro tipo de aneuploidia. “Mono-” é grego para “uma” pessoa com monossomia tem uma cópia de um cromossomo específico nas células, em vez das duas cópias normais. A síndrome de Turner é uma condição causada por monossomia. Mulheres com síndrome de Turner geralmente têm apenas uma cópia do cromossomo X em cada célula, para um total de 45 cromossomos por célula.

Raramente, algumas células acabam com conjuntos extras completos de cromossomos. As células com um conjunto adicional de cromossomos, para um total de 69 cromossomos, são chamadas triploide. As células com dois conjuntos adicionais de cromossomos, para um total de 92 cromossomos, são chamadas de tetraplóides. Condição em que cada célula do corpo possui um conjunto extra de cromossomos não é compatível com a vida.

Figura 2 “Plóide” refere-se ao número de cópias de cada cromossomo encontrado em uma célula somática. Figura 3 Células humanas e de outros animais não se desenvolvem se tiverem um conjunto extra de cromossomos. Em contraste, as plantas costumam ter conjuntos inteiros de cromossomos copiados. Este morango é um exemplo de planta tetraplóide.

Em alguns casos, uma mudança no número de cromossomos ocorre apenas em certas células. Quando um indivíduo tem duas ou mais populações de células com uma composição cromossômica diferente, essa situação é chamada mosaicismo cromossômico. O mosaicismo cromossômico ocorre a partir de um erro na divisão celular em células diferentes de óvulos e espermatozoides. Mais comumente, algumas células acabam com um cromossomo extra ou ausente (para um total de 45 ou 47 cromossomos por célula), enquanto outras células têm os 46 cromossomos usuais. A síndrome de Mosaic Turner é um exemplo de mosaicismo cromossômico. Em mulheres com essa condição, algumas células têm 45 cromossomos porque estão faltando uma cópia do cromossomo X, enquanto outras células têm o número normal de cromossomos.

Muitas células cancerosas também apresentam alterações no número de cromossomos. Essas alterações não são hereditárias, elas ocorrem em células somáticas (células que não sejam óvulos ou espermatozoides) durante a formação ou progressão de um tumor cancerígeno.


Métodos

Material vegetal

A cultivar ‘Camarosa’ foi selecionada devido à sua importância para a indústria, historicamente, tem sido uma das variedades de dias curtos mais amplamente cultivadas em todo o mundo e continua a ser um genótipo importante em programas de melhoramento. O tamanho do genoma haplóide (

813,4 Mb) foi estimado por meio de citometria de fluxo com quatro réplicas técnicas no núcleo de citometria de fluxo no Benaroya Research Institute em Virginia Mason (conjunto de dados suplementares 3).

Seqüenciamento genômico

O DNA genômico de alto peso molecular foi isolado de tecido foliar jovem, após tratamento escuro de 72 horas, por método modificado de preparação de núcleos 75,76, e a qualidade foi verificada por eletroforese em gel de campo pulsado. Um total de cinco bibliotecas PacBio de 20 kb foram geradas com um kit SMRTbell Template Prep (PacBio) e foram sequenciadas com 67 células SMRT na plataforma PacBio RSII na UC Davis DNA Sequencing Facility. Um total de 67 Gb (

82,4 ×) de dados de sequência PacBio foi gerado com um N50 comprimento de leitura de 17.699 bp (Tabela complementar 3). Fragmentos de DNA com mais de 50 kb foram usados ​​para construir uma biblioteca Gemcode 10X com um instrumento Chromium (10X Genomics) e sequenciado em um sistema HiSeqX (Ilumina) com leituras de 150 bp de extremidade pareada no HudsonAlpha Institute for Biotechnology. Um total de

Cobertura de 117 vezes) de dados da biblioteca de cromo 10X foi sequenciada (Tabela 1 suplementar). Finalmente, cinco bibliotecas genômicas Illumina selecionadas por tamanho variando de 470 bp a 10 kb foram construídas (Tabela suplementar 1). o

Bibliotecas de 800 pb foram feitas com um kit Illumina TruSeq DNA PCR-free Sample Preparation V2. Os dois

Bibliotecas de 470 bp foram projetadas para produzir "bibliotecas sobrepostas" após o sequenciamento com leituras de 265 bp de extremidade pareada em um sistema Illumina Hiseq2500, produzindo leituras "costuradas" de aproximadamente 265 bp a 520 bp de comprimento. Para aumentar a diversidade e a profundidade da sequência, construímos três bibliotecas separadas de pares de pares (MP) com saltos de 2–5 kb, 5–7 kb e 7–10 kb, com um Kit de preparação de amostras Illumina Nextera Mate-Pair. A biblioteca de 800 bp foi sequenciada em um sistema Illumina HiSeq2500 com leituras emparelhadas de 160 bp, e as bibliotecas MP foram sequenciadas em um sistema Illumina HiSeq4000 com leituras emparelhadas de 150 bp. Um total de

Cobertura de 455 vezes) de dados de sequenciamento Illumina adicionais (Tabela 1 suplementar). A construção e o sequenciamento da biblioteca Illumina foram conduzidos no Roy J. Carver Biotechnology Center, da Universidade de Illinois em Urbana-Champaign.

Montagem do genoma

O genoma foi montado com a plataforma de software DeNovoMAGIC (NRGene), um assembler baseado em gráfico DeBruijn projetado para genomas poliplóides, heterozigotos e / ou repetitivos superiores 32,77. Os dados do Chromium 10X foram usados ​​para fasear haplótipos e apoiar a validação de andaimes e alongamento adicional dos andaimes faseados. Bibliotecas Dovetail HiC foram preparadas conforme descrito anteriormente 78 e sequenciadas em um sistema Illumina HiSeqX com leituras de 150 bp de extremidade pareada para

401 × profundidade de sequência do genoma (Fig. 2 suplementar). A montagem inicial de novo, as leituras genômicas brutas e as leituras da biblioteca Dovetail HiC foram usadas como dados de entrada para HiRise, um pipeline de software projetado especificamente para usar dados de ligação de proximidade para montar conjuntos de genoma para pseudomoléculas 79 de comprimento de cromossomo. Após o scaffolding HiRise, as sequências foram preenchidas com leituras de PacBio com PBJelly 33. As lacunas preenchidas com sequências PacBio foram polidas com Pilon (v 1.22) 80 com dados de extremidade pareada Illumina. As leituras Illumina foram cortadas com qualidade com Trimmomatic 81 e alinhadas aos contigs draft com bowtie2 (v 2.3.0) 82 com parâmetros padrão. Os parâmetros para Pilon foram modificados da seguinte forma: --flanco 7, --K 49 e --mindepth 20. Pilon foi executado recursivamente três vezes e houve correções mínimas na terceira rodada, apoiando, assim, a correção indel precisa. Um mapa genético publicado 34 e análises sintênicas contra o F. vesca 37 genomas com SynMap dentro do CoGe 83 foram usados ​​para identificar quaisquer erros de montagem e variantes de haplótipos, e para atribuir conjuntos de cromossomos homoólogos. Detalhes e resultados adicionais da montagem estão resumidos nas informações suplementares.

Coleta de tecidos, preparação de biblioteca de RNA e sequenciamento

Amostras de tecido vegetal (flor antes da antese, flor na antese, folha coletada durante o dia e à noite, folhas tratadas com metil jasmonato (30 min, 4 h e 24 h após o tratamento), runner e raízes tratadas com sal e não tratadas) foram coletados de Fragaria × ananassa cultivar ‘Camarosa’ cultivado em uma câmara de crescimento e imediatamente congelado em nitrogênio líquido. Os tecidos foliares também foram coletados de espécies diplóides selvagens cultivadas em uma câmara de crescimento para análises filogenéticas (Tabela Suplementar 7). O RNA total foi isolado com um kit KingFisher Pure RNA Plant (Thermo Fisher) e quantificado com um fluorômetro Qubit 3 (Thermo Fisher). Bibliotecas de RNA foram preparadas com o protocolo KAPA mRNA HyperPrep Kit (KAPA Biosystems). Todas as amostras foram enviadas para o núcleo de Genomics do Centro de Apoio à Tecnologia de Pesquisa da Universidade do Estado de Michigan e sequenciadas com leituras de 150 bp de extremidade emparelhada em um sistema Illumina HiSeq 4000.

Montagem e tradução do transcriptoma

As leituras foram limpas com Trimmomatic v 0.32 (ref. 81) com ajuste de adaptador para leituras de fim emparelhado TruSeq3 com uma incompatibilidade de 1 bp, um limite de clipe de palíndromo de 30 e um limite de clipe simples de 10. As leituras foram filtradas com base de uma pontuação média de phred calculada a partir de uma janela deslizante de 10 bp com um limite mínimo de 20 (Conjunto de dados suplementares 4). A qualidade das leituras cortadas foi avaliada posteriormente com FastQC 84. Os conjuntos de transcriptoma guiado por genoma e de novo foram gerados com Trinity v 2.2.0 (ref. 85) para a anotação / expressão do genoma e análises filogenéticas, respectivamente. Para a anotação do genoma e análises de expressão, as leituras foram alinhadas ao Fragaria × ananassa cultivar 'Camarosa' genoma com STAR v 2.5.3a 86 com opções padrão, exceto para --alignIntronMax, que foi definido como 10000. Para anotação do genoma, os arquivos de saída BAM classificados por coordenadas do STAR foram usados ​​para a montagem do transcriptoma guiado por genoma , e arquivos SAM classificados por nome foram usados ​​para análise de expressão gênica (HTSeq na seção 3). Para as bibliotecas de espécies diplóides usadas nas análises filogenéticas, porque as bibliotecas de transcriptoma foram geradas com um método encalhado, o parâmetro ‘SS_lib_type’ com a opção ‘RF’ foi usado na montagem. Além disso, as leituras foram normalizadas para uma cobertura de leitura máxima de 100 com ‘normalize_max_read_cov’ no Trinity. A opção de normalização, que diminui a quantidade de leituras de entrada para genes altamente expressos, foi usada para melhorar a eficiência de montagem 87. Para análises de polarização de expressão homoeolog (HEB) (descritas na seção abaixo), contagens de leituras de mapeamento exclusivas foram geradas com HTSeq v 0.6.1 (ref. 88) com opções padrão de htseq-count, exceto para o tipo de recurso, que foi definido para 'gene' para todos os conjuntos de dados de RNA-seq de 'Camarosa'. Os valores dos fragmentos por quilobase por milhão de leituras mapeadas (FPKM) foram derivados com a fórmula padrão para FPKM = (contagem de leitura / fator de escala por milhão) / comprimento do gene em quilobases. Para análise filogenética, de acordo com McKain et al. 89, as leituras foram alinhadas às transcrições montadas com bowtie v 1.1.0 (ref. 90) e a abundância da transcrição foi estimada com RSEM v 1.2.29 (ref. 91) por meio do script align_and_estimate_abundance.pl empacotado com Trinity. As transcrições foram filtradas por FPKM, uma saída do script Perl mencionado anteriormente, com um limite mínimo de 1,0% de fragmentos por isoforma mapeada, conforme implementado no script filter_fasta_by_rsem_values.pl. As transcrições filtradas foram BLASTed contra o Fragaria vesca v 2.01 sequências de codificação com TBLASTX com um mínimo e valor de 1 × 10 –10. O pacote RefTrans (consulte URLs) foi usado para traduzir as transcrições montadas, filtrando as ocorrências BLAST para identificar a melhor ocorrência com pelo menos 75% de sobreposição bidirecional entre a transcrição e F. vesca sequências de codificação. Os melhores resultados foram usados ​​para orientar as traduções com GeneWise (Wise2 v 2.2.0) 92. As traduções mais longas foram usadas em análises posteriores.

Anotação de gene

O genoma foi anotado com o pipeline de anotação MAKER-P 36. Sequências de proteínas (banco de dados de plantas Araport11 e UniprotKB), etiquetas de sequência expressa (NCBI) e dez conjuntos de dados de mRNA-seq (descritos abaixo) e dados adicionais de RNA-seq para Fragaria × ananassa baixado do NCBI-SRA (BioProject PRJNA394190 fruta amadurecendo vermelha) foram usados ​​como evidência durante a anotação. Os conjuntos de dados RNA-seq foram montados em transcrições por meio da abordagem guiada pelo genoma StringTie 93. Uma biblioteca de repetição personalizada (seção ‘Repetir anotação’ abaixo) e a biblioteca de repetição MAKER 94 foram usadas para mascarar o genoma. A predição do gene ab initio foi realizada com os preditores de genes SNAP 95 e Augustus 96, que foram previamente treinados iterativamente para F. vesca 37 Durante a anotação, os modelos de genes com distância de edição de anotação & lt1.0 foram incluídos no conjunto de genes MAKER e verificados quanto à presença de domínios de proteína. Os modelos de genes previstos foram filtrados adicionalmente para remover aqueles com domínios relacionados a TE. Resumidamente, os genes codificadores de proteínas foram pesquisados ​​(BLASTp, e = 10-10) contra um banco de dados de transposase de um estudo anterior 36, e se mais de 50% do comprimento do gene estivesse alinhado com as transposases, o gene era removido do conjunto de genes. No entanto, se 60% ou mais das correspondências de aminoácidos fossem devidos a apenas três aminoácidos individuais, o alinhamento foi considerado causado por baixa complexidade e foi excluído. Além disso, para avaliar se os genes centrais das plantas foram anotados, o conjunto de genes foi pesquisado contra o conjunto de dados de plantas BUSCO v 2 (ref. 35) (embryophyta_odb9). lncRNAs, incluindo RNAs não codificadores intergênicos longos, transcritos de sobreposição antisense e transcritos de sobreposição de sentido, foram identificados com o pipeline de descoberta de lncRNA da Evolinc (v 1.5.1) 97. As transcrições com menos de três leituras por par de bases foram descartadas. LncRNAs putativos com similaridade (BLASTn e valor & lt1 × 10 10) para TEs conhecidos ou catálogo de rFAM (v 13.0) 98 de RNAs de manutenção foram removidos.

Repita a anotação

o Fragaria × ananassa o genoma foi pesquisado por LTR-RTs com LTRharvest 99 com parâmetros '-minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 -motif TGCA -motifmis 1 -similar 85 -vic 10 -seed 20 -seqids yes' e LTR_finder 100 com parâmetros ' -D 15000 -d 1000 -L 7000 -l 100 -p 20 -M 0,9 '. Os candidatos LTR-RT identificados foram filtrados com LTR_retriever 101 com parâmetros padrão. TEs invertidos em miniatura (MITEs) foram identificados com MITE-Hunter 102. Os MITEs candidatos foram verificados manualmente para TSD e TIR, que foram usados ​​para classificação de superfamília. Aqueles com TSD e TIR ambíguos foram classificados como desconhecidos. o Fragaria × ananassa o genoma foi então mascarado com as bibliotecas MITE e LTR através do Repeatmasker 103 (consulte URLs), e outros elementos repetitivos foram identificados com o Repeatmodeler 104 (consulte URLs). As repetições foram então agrupadas em duas categorias: sequências de identidade conhecida e sequências de identidade desconhecida. Os últimos foram então pesquisados ​​no banco de dados da transposase e, se correspondessem, foram incluídos na biblioteca TE. A biblioteca foi filtrada adicionalmente com ProtExcluder 36 e um script Perl interno para excluir fragmentos de genes. A biblioteca final da TE foi usada para anotar o Fragaria × ananassa genoma com RepeatMasker 103 com parâmetros ‘-q -no_is -norna -nolow -div 40’. Os resultados da anotação foram resumidos com o script ‘famcoverage.pl’ do pacote LTR-retriever 101.

Anotação do genoma organelar

O genoma do cloroplasto foi anotado com Verdant, um pacote de software baseado na web projetado especificamente para genomas de cloroplasto de plantas 105. A anotação automatizada de genes codificadores de proteínas, tRNAs e rRNAs foi concluída com annoBTD (ver URLs). Cinco plastomos Rosaceae no banco de dados Verdant foram selecionados como uma referência para anotação, incluindo o Fragaria vesca Genoma do cloroplasto 'Hawaii 4' 37. Os ORFs identificados anteriormente foram submetidos a BLAST contra os genomas de referência com TBLASTX 106 com um e-valor de corte de 0,1 e um corte de 50% de identidade entre referências e pares de segmentos de alta pontuação. A melhor referência para cada ORF foi usada para anotação. Um BLASTN 106 otimizado foi usado para identificar e anotar tRNAs e rRNAs com base em genomas de referência. As referências de melhor pontuação foram usadas para anotar o RNA. Finalmente, os limites de cada característica foram identificados com base na sequência e nas informações posicionais para as características ortólogas dos cinco genomas de cloroplasto de referência (Fig. Suplementar 5). O genoma mitocondrial foi anotado com o servidor web para Mitofy (ver URLs), um programa projetado para anotar os genes e tRNAs nos genomas mitocondriais de plantas com sementes 107. Mitofy usa NCBI-BLASTX para anotar genes com base em bancos de dados de 41 genes codificadores de proteínas e usa NCBI-BLASTN e tRNAscan-SE 108 para anotar tRNAs e rRNAs com base em bancos de dados de 27 tRNAs e 3 rRNAs encontrados na planta semente genomas de plantas mitocondriais. Os genomas de plastídio e mitocondrial anotados foram depositados em Dryad (ver URLs).

Sintenia e genômica comparativa

O ‘Camarosa’ e F. vesca 37 genomas foram alinhados no programa SynMap da CoGe com LAST 83. A distância máxima entre duas correspondências foi definida em 20 genes, e o número mínimo de pares alinhados foi definido em dez genes. Os blocos sintênicos vizinhos foram fundidos com "Quota Align Merge" 109, com a distância máxima entre dois blocos definida para 40 genes. A profundidade sintênica foi calculada com 'Quota Align' e a razão de profundidade de cobertura para F. vesca para F. ananassa gene foi definido como 1: 4. Genes duplicados em tandem foram identificados e filtrados de saídas de CoGe com uma distância máxima de dez genes. O viés de fracionamento foi então calculado, com o máximo de cromossomos de consulta definido como 28 e o máximo de cromossomos alvo definido como sete. As análises podem ser regeneradas com CoGe (veja URLs). Os dois genomas também foram alinhados com MUMmer v 3.2 (ref. 110) para identificar trocas homeólogas (Tabela suplementar 10) com parâmetros (nucmer --maxmatch -l 80 -c 200) e visualizado com dotPlotly (ver URLs).

Análises filogenéticas

Transcriptomas traduzidos e genes codificadores de proteínas do genoma completo para Fragaria × ananassa, F. vesca v 2.01, A. thaliana TAIR10 (ref. 111), e Malus domestica v 1.0 (ref. 112) (Phytozome v 12) 113 foram ortogrupados com Orthofinder v 0.3 (ref. 114) com Diamond v 0.8.36 (ref. 115) para pesquisas por similaridade. Os ortogrupos foram filtrados de forma que um mínimo de cinco acessos únicos estivessem presentes. As sequências de codificação e as traduções de aminoácidos foram separadas em arquivos FASTA específicos do ortogrupo. As sequências de aminoácidos foram alinhadas com MAFFT v 7.215 (ref. 116) com o parâmetro 'auto', e PAL2NAL v 14 (ref. 117) foi usado sob parâmetros padrão para criar um alinhamento de códon a partir de aminoácidos alinhados com MAFFT. Os alinhamentos de códons foram filtrados pela remoção de colunas de alinhamento com 90% ou mais lacunas e transcrições com comprimentos desalinhados menores que 30% do comprimento de alinhamento, com scripts fornecidos com McKain et al. 89 Árvores de ortogrupo foram reconstruídas com RAxML v 8.0.6 com 500 réplicas de bootstrap sob o modelo evolutivo GTR + gama. Todos os 108.087 genes codificadores de proteínas do F. x ananassa O genoma 'Camarosa' foi usado no ortogrupamento inicial. Após a filtragem de ortogrupos com menos de cinco táxons, 51.737 genes ‘Camarosa’ permaneceram em 8.405 árvores gênicas. Um total de 19.302 loci únicos identificados em grandes blocos sintênicos formando 18.839 pares parálogos foram usados ​​para avaliar a história evolutiva dos subgênomos. Outgroups foram escolhidos de qualquer A. thaliana ou M. domestica, com preferência dada a A. thaliana como um grupo externo. Para avaliar a história evolutiva dos subgenomas do morango octoplóide, um novo algoritmo de busca em árvore foi desenvolvido, denominado "identificação filogenética de subgenomas" (PhyDS, consulte URLs). Os únicos parâmetros necessários para o PhyDS são uma lista de táxons, se houver, para ignorar nas árvores de genes e um valor mínimo de bootstrap para definir o limite para subárvores aceitáveis. Nesta análise, apenas genes do genoma ‘Camarosa’ foram ignorados (ou seja, PhyDS não parou quando encontrou um gene Fxa diferente de um parálogo irmão) para identificar cada um dos progenitores diplóides do morango octoplóide. Os resultados de vários cortes de suporte de bootstrap são fornecidos. Esses homeólogos foram então mapeados de volta para cada um dos cromossomos reunidos e, com base em suas frequências relativas, usados ​​para atribuir cada cromossomo a uma espécie progenitora diplóide (Tabela Suplementar 8).

Análises de expressão gênica

HEB foi avaliado com os testes de razão de verossimilhança descritos na ref. 23, por meio da análise dos dados do transcriptoma da antera, raiz e folha. Este teste consiste em um conjunto de três hipóteses aninhadas. A hipótese nula, H0, é que os homeólogos são expressos em níveis iguais após a normalização para o comprimento do gene e profundidade de sequenciamento. A primeira hipótese alternativa, H1, é que um dos homeólogos é mais altamente expresso em todos os tecidos, de modo que a diferença pode ser explicada por um único fator de escala. A segunda hipótese alternativa, H2, é que os homeólogos são expressos de forma desigual e inconsistente nos três tecidos. Pares de homoeolog para os quais H0 pode ser rejeitado por H1, mas H1 não pode ser rejeitado por H2, are therefore cases in which one of the homoeologs appears to be up- or downregulated consistently throughout the organism. For the first test, the Benjamini–Hochberg 118 correction for multiple testing was applied. For the second test, because the question was being unable to reject a hypothesis, no correction was made. Both tests used a 1% significance level. Pairwise genomic alignments, described above, were used to identify homoeologs for each of the subgenomes, retained duplicate genes from tandem duplications, and orthologous genes to A. thaliana 111 , on the basis of ortholog assignments in F. vesca 37 Thes complete list of FragariaArabidopsis orthologs was then filtered to genes with functional data in the AraGEM Arabidopsis metabolic 72,119 and STRING global protein interaction network 120 . These gene lists were used to investigate subgenome- and pathway-level-specific expression in fruit with an available transcriptome dataset in NCBI-SRA (BioProject PRJNA394190) (Supplementary Dataset 2).

Analysis of disease-resistance-gene familie

NBS-LRR genes were detected with HMMER v 3.1 (ref. 121 ) with default settings, by searching the protein sequences of the Fragaria × ananassa genome against the raw hidden Markov model for the NB-ARC-domain family downloaded from Pfam (family ID PF00931) 122 . Only genes identified by both HMMER and BLAST were used for subsequent analysis. TIR subdomains were detected with PfamScan on default settings by searching the identified NB-ARC genes against the Pfam-A hidden Markov model. The 423 Fxa NB-ARC-domain-containing proteins were batch-searched in the NCBI Conserved Domain Database (see URLs) 123 and Pfam database (see URLs). Results from the CD database were used to assign the gene models that contained CC, TIR, RPW8, or ‘other’ (none of the three established N-terminal domains) gene models were further mapped onto the assembled octoploid genome to assign positions (Supplementary Fig. 12). The CD results were then filtered to remove established R-gene domains (CC, TIR, RPW8, LRR, and NB-ARC), thus resulting in a list of potential integrated domains (Supplementary Dataset 1). Eight Fxa proteins with predicted Sec7/ADP-ribosylation-factor and G-nucleotide-exchange-factor domains were aligned by ClustalW and FastME 2.0 (ref. 124 ), and their illustrated domain organization is displayed in Supplementary Fig. 13. The full protein sequences of the 423 Fxa NB-ARC-domain-containing proteins were aligned with MUSCLE v 3.8.31 (ref. 125 ) under default settings. This alignment was trimmed with trimAl v 1.4.rev22 build 2015-05-21 (ref. 126 ) under default settings. An unrooted maximum-likelihood tree was constructed with RAxML v 8.2.11 (ref. 127 ) with the PROTGAMMA substitution model. The tree was visualized with the APE package v 4.1 (ref. 128 ) in R v 3.3.3 (ref. 129 ) (see URLs).

Análise estatística

The comparison of homoeolog-expression abundance between the dominant subgenome and the three submissive subgenomes was carried out with a likelihood-ratio test and combined with Benjamini–Hochberg correction for multiple testing with a 1% significance level. The Kolmogorov–Smirnov test was used to determine which subgenome had the lowest-overall TE densities near genes. o χ 2 test, with three degrees of freedom, was used to analyze the subgenome bias of disease-resistance genes. Bootstrapping, with 500 replicates under the GTR + gamma evolutionary model, was used to assess node support in trees generated by phylogenetic analyses.

Resumo de relatórios

Mais informações sobre o desenho da pesquisa estão disponíveis no Nature Research Reporting Summary vinculado a este artigo.


Two From One: Evolution Of Genders From Hermaphroditic Ancestors Mapped Out

Research from the University of Pittsburgh published in the Nov. 20 edition of the journal Heredity could finally provide evidence of the first stages of the evolution of separate sexes, a theory that holds that males and females developed from hermaphroditic ancestors. These early stages are not completely understood because the majority of animal species developed into the arguably less titillating separate-sex state too long ago for scientists to observe the transition.

However, Tia-Lynn Ashman, a plant evolutionary ecologist in the Department of Biological Sciences in Pitt's School of Arts and Sciences, documented early separate-sex evolution in a wild strawberry species still transitioning from hermaphroditism. These findings also apply to animals (via the unified theory) and provide the first evidence in support of the theory that the establishment of separate sexes stemmed from a genetic mutation in hermaphroditic genes that led to male and female sex chromosomes. With the ability to breed but spared the inbred defects of hermaphrodites, the separate sexes flourished.

&ldquoThis is an important test of the theory of the early stages of sex chromosome evolution and part of the process of understanding the way we are today,&rdquo Ashman said. She added that the study also shows that plants can lend insight into animal and human evolution. &ldquoWe have the opportunity to observe the evolution of sex chromosomes in plants because that development is more recent. We wouldn't see this in animals because the sex chromosomes developed so long ago. Instead, we can study a species that is in that early stage now and apply it to animals based on the unified theory that animal and plant biology often overlaps.&rdquo

Ashman reported in the journal Science in 2004 that animals and flowering plants employ similar reproductive strategies to increase reproductive success and genetic diversity. These methods include large numbers of sperm cells in males, mate competition and attraction through fighting or natural ornamentation, aversion to inbreeding, and the male inclination to sire as many offspring as possible.

For the current study, Ashman and Pitt postdoctoral research associate Rachel Spigler worked with a wild strawberry species in which the evolution of separate sexes is not complete, so hermaphrodites exist among male and female plants. Sex chromosomes in these plants have two loci-or positions of genes on a chromosome-one that controls sterility and fertility in males and the other in females. Offspring that inherit both fertility versions are hemaphrodites capable of self-breeding. Plants that possess one fertility and one sterility version become either male or female. Those with both sterility versions are completely sterile, cannot reproduce, and, thus, die out.

The single-sex plants breed not only with one another but also with hermaphroditic plants and pass on the mutation, which can result in single-sex offspring. (Sterile plants also can result, but plants with genes that favor the production of fertile offspring will be more successful.) When inbreeding depression in hermaphrodites is also considered, Ashman said, a gradual decline in the number of hermaphroditic plants is to be expected. Consequently, fewer chromosomes with both fertility versions of the loci will be passed on and the frequency of single-sex individuals will increase.


Evolution of Primates

The first primate-like mammals are referred to as proto-primates. They were roughly similar to squirrels and tree shrews in size and appearance. The existing fossil evidence (mostly from North Africa) is very fragmented. These proto-primates remain largely mysterious creatures until more fossil evidence becomes available. The oldest known primate-like mammals with a relatively robust fossil record is Plesiadapis(although some researchers do not agree that Plesiadapis was a proto-primate). Fossils of this primate have been dated to approximately 55 million years ago. Plesiadapiforms were proto-primates that had some features of the teeth and skeleton in common with true primates. They were found in North America and Europe in the Cenozoic and went extinct by the end of the Eocene.

The first true primates were found in North America, Europe, Asia, and Africa in the Eocene Epoch. These early primates resembled present-day prosimians such as lemurs. Evolutionary changes continued in these early primates, with larger brains and eyes, and smaller muzzles being the trend. By the end of the Eocene Epoch, many of the early prosimian species went extinct due either to cooler temperatures or competition from the first monkeys.

Anthropoid monkeys evolved from prosimians during the Oligocene Epoch. By 40 million years ago, evidence indicates that monkeys were present in the New World (South America) and the Old World (Africa and Asia). New World monkeys are also called Platyrrhini—a reference to their broad noses (figura 1) Old World monkeys are called Catarrhini—a reference to their narrow noses. There is still quite a bit of uncertainty about the origins of the New World monkeys. At the time the platyrrhines arose, the continents of South American and Africa had drifted apart. Therefore, it is thought that monkeys arose in the Old World and reached the New World either by drifting on log rafts or by crossing land bridges. Due to this reproductive isolation, New World monkeys and Old World monkeys underwent separate adaptive radiations over millions of years. The New World monkeys are all arboreal, whereas Old World monkeys include arboreal and ground-dwelling species.

Figura 1. The howler monkey is native to Central and South America. It makes a call that sounds like a lion roaring. (credit: Xavi Talleda)

Apes evolved from the catarrhines in Africa midway through the Cenozoic, approximately 25 million years ago. Apes are generally larger than monkeys and they do not possess a tail. All apes are capable of moving through trees, although many species spend most their time on the ground. Apes are more intelligent than monkeys, and they have relatively larger brains proportionate to body size. The apes are divided into two groups. The lesser apes comprise the family Hylobatidae, including gibbons and siamangs. The great apes include the genera Frigideira (chimpanzees and bonobos) (Figure 2a), Gorila (gorillas), Pongo (orangutans), and Homo (humans) (Figure 2b) The very arboreal gibbons are smaller than the great apes they have low sexual dimorphism (that is, the sexes are not markedly different in size) and they have relatively longer arms used for swinging through trees.

Figura 2. The (a) chimpanzee is one of the great apes. It possesses a relatively large brain and has no tail. (b) All great apes have a similar skeletal structure. (credit a: modification of work by Aaron Logan credit b: modification of work by Tim Vickers)


Resultados

Is Average Genome Size of a Taxonomic Group Related to Variation within That Group?

We collected information on genome size, chromosome number, individual chromosome size, repeat-masked chromosome size (without repeat proportion), and common name groupings for 128 species with sequenced genomes, including prokaryotes, unicellular eukaryotes, invertebrates, vascular plants, and vertebrates ( supplementary tables 1 and 2 , Supplementary Material online). Across all sequenced prokaryotic and diploid eukaryotic species, genome size correlated with chromosome number and average chromosome size. Genome size varied considerably among species with similar levels of cellular and organismal complexity, but there was a general increase in genome size from prokaryotes to unicellular eukaryotes to multicellular eukaryotes ( fig. 1). In addition, continuities in the scale of genome size across different groups of organisms indicate that organismal differences in cell/tissue anatomical structure or metabolism are unlikely to be the primary forces driving the evolution of genomic architecture ( Lynch and Conery 2003).

Using these base pair data for genome size, we tested whether variation in genome size within each group was proportional to average genome size of the group. Given the sample size of available genomes, we focused our analysis on five phylogenetic branches (i.e., prokaryotes, unicellular eukaryotes, invertebrates, vascular plants, and vertebrates) rather than other finer taxonomic levels. Clearly, variation in genome size (measured as SD) significantly correlated with the average genome size ( fig. 1). After we removed the dependency with Log10 transformation (a method to break the association between average of a group of numbers and the variation of these numbers Oliver et al. 2007), the variation within each group showed no correlation with the average genome size. Groups with a larger average genome size obviously also had a larger variation in genome size. Variation of genome size of each group is the numerator in the calculation of rate of genome size evolution and could provide an approximation if the denominator, evolutionary distance or time, does not differ across groups on the same order of magnitude as the numerator. Interestingly, our findings regarding genome size showed a similar pattern with the previous research in which the rate of genome size evolution was found to be proportional to the average genome size of a clade when the estimated genome size based on C-value was examined across 20 eukaryotic clades and evolutionary distance was obtained from phylogenetic analysis of 18S rDNA ( Oliver et al. 2007).

How Are the Repeat and Nonrepeat Proportions of Genetic Codes Distributed among Different Chromosomes in a Multichromosome Species?

To further examine the role of repeats on genome size and chromosome size, repeat masking of the genome was obtained from either original publications of the sequenced genomes or repeat masking analysis ( Lerat 2010 Smit et al. 2010 verified on May 11, 2010). In general, the repeat proportion of the genome increased from prokaryotes (mean: 0.04) to unicellular eukaryotes (0.08), invertebrates (0.14), vascular plants (0.35), and vertebrates (0.38), following the same trend as genome size ( fig. 1). For vascular plants with complete genome sequence, the repeat proportion of maize (82.5%) and sorghum (60.9%) skewed distribution to the right side. Overall, repeat proportion of chromosomes increases during evolution from prokaryotes to vertebrates, and this trend may become more evident as large genomes of vascular plants and vertebrates are sequenced.

Following the similar logic in genome size analysis, we also tested whether the SD of chromosome size (in base pair) within each species was proportional to the mean of chromosome size. Because of the difference in response to repeat accumulation between circular and linear chromosomes, we considered only eukaryotes with linear chromosomes in this analysis. There was a significant positive correlation between SD of chromosome size and the average chromosome size of a species ( fig. 2). After we removed the magnitude effects with Log10 transformation, however, the SD of chromosome size for all eukaryotic species was bounded in a much smaller region than that for the prokaryotic species. Because 68 diploid eukaryotic species were used and the signal of the relationship between SD and average chromosome size was strong (P = 1.3 × 10 −38 ), we then derived the regression slope (0.3700) of SD on average chromosome size across species. This regression slope provided an ad hoc estimate of a common CV (= SD/mean) for the underlying distributions of chromosome sizes in different species. Although large differences existed for average chromosome size and SD of chromosome size across species, the proportional relationship between them approached a constant. This was further verified by plotting CV, and any deviation was not unexpected because individual CV calculated for each species represented a sample ( supplementary fig. 1 , Supplementary Material online). On the other hand, there was no significant correlation between variation of chromosome size and total chromosome number of a species ( supplementary fig. 1 , Supplementary Material online).

(UMA) Chromosome-size variation as measured by SD of chromosome size within species correlates positively with average chromosome size (r = 0.96, P = 1.3 × 10 −38 ). Values are in Log10 scale for plotting. Estimate of a common CV in original scale is 0.3700. (B) Absolute nonrepeat size variation (r = 0.97, P = 5.8 × 10 −40 ). (C) Absolute repeat size variation (r = 0.94, P = 4.8 × 10 −31 ). (D) After the dependency of absolute chromosome-size variation on preceding chromosome size is removed with Log10 transformation, chromosome-size variation within species shows no correlation (r = −0.10, P = 0.43) with average chromosome size. (E) Prior Log10 transformed nonrepeat size variation (r = −0.11, P = 0.37). (F) Prior Log10 transformed repeat size variation (r = −0.02 P = 0.89). Prokaryotic chromosomes are not included in the correlation calculation. Each color-coded dot represents the value for individual species.

(UMA) Chromosome-size variation as measured by SD of chromosome size within species correlates positively with average chromosome size (r = 0.96, P = 1.3 × 10 −38 ). Values are in Log10 scale for plotting. Estimate of a common CV in original scale is 0.3700. (B) Absolute nonrepeat size variation (r = 0.97, P = 5.8 × 10 −40 ). (C) Absolute repeat size variation (r = 0.94, P = 4.8 × 10 −31 ). (D) After the dependency of absolute chromosome-size variation on preceding chromosome size is removed with Log10 transformation, chromosome-size variation within species shows no correlation (r = −0.10, P = 0.43) with average chromosome size. (E) Prior Log10 transformed nonrepeat size variation (r = −0.11, P = 0.37). (F) Prior Log10 transformed repeat size variation (r = −0.02 P = 0.89). Prokaryotic chromosomes are not included in the correlation calculation. Each color-coded dot represents the value for individual species.

Similar to the findings for chromosome size, the SD of nonrepeat size was proportional to the average nonrepeat size and the SD of repeat size proportional to the average repeat size. Although the mechanisms by which nonrepeat and repeat sequences were expanded in eukaryotic genomes are complicated ( Lerat 2010), our results suggest that the rate of expansion among chromosomes is proportional to the preceding chromosome size, which indicates a stochastic process ( fig. 2). Previous estimations of repeat proportions of the genomes have been species specific or based on extrapolation from a smaller number of species ( Lynch and Conery 2003 Lerat 2010) than estimations included in the current study. Our general approach to studying repeat evolution across species with genome sequence data lays the groundwork for detailed studies on evolution of different classes of repeats and their composition among chromosomes, genomes, and taxonomic groups.

Is There a General Rule Behind the Intuitive Observation That Chromosome Lengths Tend to Be Similar in a Species?

We next examined chromosome-size variation in eukaryotes in detail because data available on chromosome length across the sequenced genomes permitted systematic modeling of chromosome size ( supplementary fig. 2 , Supplementary Material online). In addition to the common CV of chromosome size in eukaryotes, we noted that base pair sizes of the chromosomes within individual species usually have the same order of magnitude this inspired further investigation of chromosome-size variation. Two transformations made the modeling process statistically possible and biologically sound: relative chromosome size and chromosome index. Relative chromosome size is obtained by dividing chromosome size in base pair by the average chromosome size of the individual species. Using average chromosome size as the unit of measure standardized the original chromosome size (in base pair) in different orders of magnitude for different species into comparable numbers. Chromosome index is obtained by dividing the ascending ranked chromosome number (subtracting a continuity correction factor 0.5) by the total chromosome number of that particular species. For example, for a species with 2 chromosomes, instead of 1 and 2, the chromosome index becomes 0.25 and 0.75. For a species with 5 chromosomes, instead of 1–5, the chromosome index becomes 0.1, 0.3, 0.5, 0.7, and 0.9. Chromosome index is bounded between 0 and 1, which permits modeling of chromosome size across species with different chromosome numbers. Amazingly, the plot of chromosome size against chromosome index revealed a clear pattern and strongly suggested a common curve similar to a cubic function: the incremental change in chromosome size larger at both ends of the curve but smaller in the middle ( fig. 3).

(UMA) Model fitting of chromosome size on chromosome index across 886 chromosomes from 68 diploid eukaryotic species. The blue dotted line is the fitted cubic function, and the red line is the fitted inverse of Gamma cumulative distribution function where is the predicted chromosome size for the jth ordered chromosome of a species eu with a total of neu chromosomes, and is the inverse of Gamma cumulative distribution function with parameter ⁠ . (B) Histogram of chromosome size distribution with the overlaid probability density functions of Gamma (7.0438, 1/7.0438) and Normal (1.0000, 0.1371). The histogram has a mean of 1.0 and a skewness of 1.0046. Gray bars represent approximately 95% of the chromosome size between 0.3851 and 1.8608, and black bars represent the remaining 5% on both ends. Gamma (7.0438, 1/7.0438) has a mean of 1.0 and a variance of 0.1420. Of the chromosome size from Gamma (7.0438, 1/7.0438), 95% lies between 0.4035 and 1.8626. (C) Predicted chromosome-size proportion versus observed chromosome-size proportion. (D) Predicted chromosome-size proportion for a species with a given number of chromosomes. Predictions are plotted for the low hinge, median, and high hinge of the boxplot of individual common name groups: unicellular eukaryotes, invertebrates, vascular plants, and vertebrates.

(UMA) Model fitting of chromosome size on chromosome index across 886 chromosomes from 68 diploid eukaryotic species. The blue dotted line is the fitted cubic function, and the red line is the fitted inverse of Gamma cumulative distribution function where is the predicted chromosome size for the jth ordered chromosome of a species eu with a total of neu chromosomes, and is the inverse of Gamma cumulative distribution function with parameter ⁠ . (B) Histogram of chromosome size distribution with the overlaid probability density functions of Gamma (7.0438, 1/7.0438) and Normal (1.0000, 0.1371). The histogram has a mean of 1.0 and a skewness of 1.0046. Gray bars represent approximately 95% of the chromosome size between 0.3851 and 1.8608, and black bars represent the remaining 5% on both ends. Gamma (7.0438, 1/7.0438) has a mean of 1.0 and a variance of 0.1420. Of the chromosome size from Gamma (7.0438, 1/7.0438), 95% lies between 0.4035 and 1.8626. (C) Predicted chromosome-size proportion versus observed chromosome-size proportion. (D) Predicted chromosome-size proportion for a species with a given number of chromosomes. Predictions are plotted for the low hinge, median, and high hinge of the boxplot of individual common name groups: unicellular eukaryotes, invertebrates, vascular plants, and vertebrates.

Further investigation into the potential distribution from which the chromosome sizes (samples) were drawn suggested that a Gamma distribution was a more plausible candidate than other distributions ( fig. 3). Gamma distribution is widely used in engineering and science to model continuous variables that are nonnegative but have right-skewed probability densities ( Schabenberger and Pierce 2002) and provides a natural framework to model chromosome size that is nonnegative. Indeed, a Gamma distribution approximated a histogram of all chromosome sizes (with a mean of 1 and skewness of 1.0046) better than a Normal distribution. Histograms generated from data of individual species, from the pooled data of species with the same total number of chromosomes, and from the pooled data of each common group corroborated this finding. We then theoretically derived the approximate relationship function between chromosome size and chromosome index as an inverse of a Gamma cumulative distribution function, G(α,1/α) − 1 , where α is the parameter. Because no closed form exists for this nonlinear function, we used an iterative procedure (iteratively reweighted least square) that minimizes the influence of variance heterogeneity to obtain the parameter estimate G(7.0438,1/7.0438) − 1 with a 95% confidence interval of as (6.6609, 7.4267). Model fitting statistics indicated a better fit with the Gamma distribution than with other distributions or the intuitive cubic function. Notice that the variance (and CV because mean = 1) of G7.0438 − 1 is 0.3768, which is close to the previous ad hoc CV estimate 0.3700 obtained through simple regression analysis. On the basis of G(7.0438,1/7.0438) − 1 , 95% of the chromosomes in a species are expected to have a base pair length between 0.4035 and 1.8626 times the average chromosome length this interval is applicable to chromosomes in diploid eukaryotic species. However, we admit that practically a Normal distribution is almost equally viable in capturing the chromosome-size variation ( fig. 3 and supplementary table 3 , Supplementary Material online) and is a more general one. The major reason of not choosing Normal distribution is the possible negative values implicated.

Can Prediction Be Made on Chromosome Size?

It follows that, for a given species, chromosome sizes can be predicted by chromosome number. Furthermore, given either genome size or average chromosome base pair length (genome size = average chromosome size × total chromosome number), we can predict the size range of all chromosomes of that species in base pair ( fig. 3). Chromosome-size proportion was obtained by dividing chromosome size by genome size the sum of chromosome-size proportions equaled one. For example, for a species with 15 chromosomes, the shortest and longest chromosomes would be expected to account for 2.87% and 11.99% of the genome, respectively. The predicted ratio of the longest to the shortest chromosome for a given species was 1.68 for a species with two chromosomes and 5.70 for a species with 38 chromosomes. We used this general prediction to confirm the cases in which exceptions occurred for a few outlier species for known reasons: three species known to have macrochromosomes and microchromosomes, one haploid species, and one species with one linear chromosome and one circular chromosome ( supplementary tables 1 and 2 , supplementary fig. 3 , Supplementary Material online).

To show the robustness of the prediction and ensure that we had used an adequate number of genomes (68 diploid eukaryotic genomes), we performed a series of crossvalidation experiments using different proportions of the observed data for function derivation and the rest of the data for validation. Plots of mean square prediction error (MSPE) and parameter estimate indicated that the original sample size was large enough to derive a robust prediction function ( supplementary fig. 4 , Supplementary Material online). The MSPE decreased as more data points were used to derive the prediction function. Likewise, the parameter estimate (α) approached the value from the whole data set. With about 50% of the data (≈35 species), both MSPE and α started to level off, indicating an adequate sample size in the original data to derive the function and make a prediction. In addition, simulation results reproduced the pattern of the observed data, indicating that Gamma distribution viably describes the chromosome-size variation observed ( supplementary fig. 5 , Supplementary Material online). Numbers representing chromosome sizes were drawn from Gamma distributions with specific parameters for species having a chromosome number from 2 to 38. Both the dispersion of the scattered points and the fitted curves of the simulated and observed data confirmed that the pattern discovered was reproducible.

Should Other Evolutionary Alterations Besides Reciprocal Translocation Be Considered in Evolutionary Modeling Studies?

To verify whether reciprocal translocations can adequately model the chromosome-size variation as suggested in previous evolutionary modeling studies ( Sankoff and Ferretti 1996 De et al. 2001 Imai et al. 2001 Mazowita et al. 2006), we ran a set of computer simulations to compare the pattern generated by simulations and by our empirical data. Four simulation schemes were carried out: 1) no constraints on chromosome size, 2) a lower threshold, 3) an upper threshold, and 4) both lower and upper thresholds ( Sankoff and Ferretti 1996 De et al. 2001 Imai et al. 2001 Mazowita et al. 2006). Notice that these thresholds are for individual chromosome size, not their variations. Simulated chromosome sizes based on the reciprocal translocation model without thresholds showed greater variation than we observed in these sequenced genomes, but simulations with both thresholds had a better approximation ( fig. 4, supplementary fig. 6 , Supplementary Material online). Our results suggest that reciprocal translocation is likely to be one of the major forces and future modeling procedures that consider other evolutionary alterations (e.g., genome duplications, chromosome fusion, secondary rearrangements) besides reciprocal translocation may lead to even better congruency ( The Chimpanzee Sequencing and Analysis Consortium 2005 Schubert 2007). Unlike previous studies in which modeling was conducted for individual species and much smaller numbers of species were examined, the current study with empirical data analyses and computer simulations established a benchmark for future evolutionary modeling research in chromosome size.

Simulation using the reciprocal translocation model to test whether it partly explains observed (red line) chromosome-size variations. (UMA) No constraints on chromosome size. (B) A lower threshold. (C) An upper threshold. (D) Both lower and upper thresholds. Chromosome-size values are not expected to form a single line because the reciprocal translocation model predicts chromosome sizes independently for different total number of chromosomes.

Simulation using the reciprocal translocation model to test whether it partly explains observed (red line) chromosome-size variations. (UMA) No constraints on chromosome size. (B) A lower threshold. (C) An upper threshold. (D) Both lower and upper thresholds. Chromosome-size values are not expected to form a single line because the reciprocal translocation model predicts chromosome sizes independently for different total number of chromosomes.


Variação genética

Reprodução sexual results in infinite possibilities of genetic variation. In other words, sexual reproduction results in offspring that are genetically unique. They differ from both parents and also from each other. This occurs for a number of reasons.

  • When homologous chromosomes form pairs during prophase I of meiosis I, crossing-over can occur. Crossing-over is the exchange of genetic material between homologous chromosomes. It results in new combinations of genes on each chromosome.
  • When cells divide during meiosis, homologous chromosomes are randomly distributed to daughter cells, and different chromosomes segregate independently of each other. This called is called independent assortment. It results in gametes that have unique combinations of chromosomes.
  • In sexual reproduction, two gametes unite to produce an offspring. But which two of the millions of possible gametes will it be? This is likely to be a matter of chance. It is obviously another source of genetic variation in offspring. Isso é conhecido como random fertilization.

All of these mechanisms working together result in an amazing amount of potential variation. Each human couple, for example, has the potential to produce more than 64 trillion genetically unique children. No wonder we are all different!

Crossing-Over

Crossing-over occurs during prophase I, and it is the exchange of genetic material between non-sister chromatids of homologous chromosomes. Recall during prophase I, homologous chromosomes line up in pairs, gene-for-gene down their entire length, forming a configuration with four chromatids, known as a tetrad. At this point, the chromatids are very close to each other and some material from two chromatids switch chromosomes, that is, the material breaks off and reattaches at the same position on the homologous chromosome (Figure (PageIndex<2>)). This exchange of genetic material can happen many times within the same pair of homologous chromosomes, creating unique combinations of genes. This process is also known as recombination.

Figure (PageIndex<2>):​​​​​ ​​Crossing-over. A maternal strand of DNA is shown in red. A paternal strand of DNA is shown in blue. Crossing over produces two chromosomes that have not previously existed. The process of recombination involves the breakage and rejoining of parental chromosomes (M, F). This results in the generation of novel chromosomes (C1, C2) that share DNA from both parents.

During prophase I, chromosomes condense and become visible inside the nucleus. As the nuclear envelope begins to break down, homologous chromosomes move closer together. The synaptonemal complex, a lattice of proteins between the homologous chromosomes, forms at specific locations, spreading to cover the entire length of the chromosomes. The tight pairing of the homologous chromosomes is called synapsis. In synapsis, the genes on the chromatids of the homologous chromosomes are aligned with each other. The synaptonemal complex also supports the exchange of chromosomal segments between non-sister homologous chromatids in a process called crossing over. The crossover events are the first source of genetic variation produced by meiosis. A single crossover event between homologous non-sister chromatids leads to an exchange of DNA between chromosomes. Following crossover, the synaptonemal complex breaks down and the cohesin connection between homologous pairs is also removed. At the end of prophase I, the pairs are held together only at the chiasmata they are called tetrads because the four sister chromatids of each pair of homologous chromosomes are now visible.

Figure (PageIndex<3>): Crossover between homologous chromosomes Crossover occurs between non-sister chromatids of homologous chromosomes. O resultado é uma troca de material genético entre cromossomos homólogos. This occurs when homologous chromosomes align. Chromatids from each chromosome can cross over and recombine (swap sections). This results in two recombinant chromosomes and two non-recombinant chromosomes.


Translating ecDNA to clinical application

Working closely with Chang, Bafna, and Roel Verhaak of the Jackson Laboratory (also a co-founder of Boundless Bio), we are trying to understand some of the clinical implications of ecDNA. Publicly available databases, including The Cancer Genome Atlas and the Pan-Cancer Analysis of Whole Genomes, contain a large number of whole-genome sequences of cancer samples, yielding a golden opportunity for discovery. We applied the AmpliconArchitect, a tool developed by Bafna that looks for the telltale signs of ecDNA in whole-genome sequencing data, including amplified regions that map to a circle, and then uses algorithms that deconvolute these circular structures. This enabled us to analyze the frequency and potential structural composition of ecDNA in more than 3,200 cancer samples of a wide range of histological types alongside matched whole blood and normal tissue. Our findings indicated that ecDNA is unique to cancer, and that at a minimum, 14 percent of human tumors, including some of the most malignant forms of cancer, harbor ecDNA.

Researchers have been making maps of cancer for a long time, but we now know that we’ve been missing something from our maps.

Further, we found that patients whose cancers have ecDNA have significantly shorter survival than cancer patients whose tumors are driven by lesions in chromosomal DNA. It remains to be seen how commonly ecDNAs play a role in the evolution of drug resistance, as we saw hints of in our initial study. Many other questions remain as well. Recent studies have shed light on how ecDNA may form, although we and others strongly suspect that there may be multiple routes to its development.

The problem of ecDNA in cancer, and the challenge that it represents, has become clear. The National Cancer Institute and Cancer Research UK recently designated ecDNA as one of the Cancer Grand Challenges that must be addressed. It is exciting to see mounting interest and an influx of talented investigators aiming to decipher the key aspects of ecDNA biology. We look forward to the development of new tools, new collaborations, and new treatments for patients.

Joshua Lederberg wrote in his landmark 1952 paper in Physiological Reviews: “I propose plasmídeo as a generic term for any extrachromosomal hereditary determinant.” In bacteria, circular plasmids are a powerful mechanism for gaining selective advantage because they enable rapid evolution, including drug resistance. Similarly, yeast, weeds, and even parasites can evade drugs and environmental toxins by encoding resistance genes on circular extrachromosomal DNA. ecDNAs may do the same for cancer, providing a potent vehicle for rapid tumor evolution that maximizes critical oncogenic gene variants—or reduces them to evolve drug resistance.

Just as explorers rely on maps of the Earth, and astronomers on maps of the galaxy, cancer biologists depend on maps to navigate the complexities of cancer. We now know that we’d long been missing a critical element. So here we are once again, as physiological cartographers, rolling up our sleeves and making new, topographically informed maps of cancer to help us navigate the multifarious disease and develop new and more effective treatments for patients.

Paul Mischel is a professor and Vice Chair for Research for the Department of Pathology at Stanford University School of Medicine and an Institute Scholar in ChEM-H at Stanford University.


Assista o vídeo: 9 ano Biologia - aula 11 Mecanismos evolutivos Mutação, crossing-over e seleção artificial (Fevereiro 2023).