Nature Genetics (2023) Citar este artigo
Detalhes das métricas
Setaria italica (foxtail painço), uma cultura fundadora da agricultura do Leste Asiático, é uma planta modelo para fotossíntese C4 e desenvolvimento de abordagens para reprodução adaptativa em vários climas. Aqui estabelecemos o pan-genoma Setaria reunindo 110 genomas representativos de uma coleção mundial. O pan-genoma é composto por 73.528 famílias gênicas, das quais 23,8%, 42,9%, 29,4% e 3,9% são genes core, soft core, dispensáveis e privados, respectivamente; 202.884 variantes estruturais não redundantes também foram detectadas. A caracterização de variantes pangenômicas sugere sua importância durante a domesticação e melhoramento do milheto foxtail, como exemplificado pela identificação do gene de rendimento SiGW3, onde uma variante promotora de presença/ausência de 366 pb acompanha a variação da expressão gênica. Desenvolvemos um genoma baseado em gráfico e realizamos estudos genéticos em larga escala para 68 características em 13 ambientes, identificando genes potenciais para o melhoramento do milheto em diferentes locais geográficos. Estes podem ser usados na criação assistida por marcadores, seleção genômica e edição do genoma para acelerar a melhoria das culturas sob diferentes condições climáticas.
O milheto Foxtail (Setaria italica), uma das mais antigas culturas de grãos domesticados do mundo, é considerado o fundamento para a formação da civilização chinesa primitiva. Evidências arqueológicas recentes sugerem que esta espécie foi domesticada há aproximadamente 11.000 anos a partir de seu progenitor, rabo de raposa verde (Setaria viridis)1, tornando-a contemporânea da cevada e do trigo nas primeiras transições agrícolas das sociedades neolíticas humanas. O milheto Foxtail é a única espécie de cultivo atual do gênero Setaria e tem excelente seca e baixa tolerância a nutrientes do solo. Desde a sua domesticação, o painço foxtail se espalhou pela Eurásia e África, e mais recentemente pelas Américas, e cresce em ambientes temperados, tropicais e áridos.
Criticamente, as espécies de Setaria empregam a fotossíntese C4. Plantas C4, que além do milheto foxtail incluem milho, sorgo, cana-de-açúcar e switchgrass, possuem alta eficiência fotossintética e adaptabilidade ambiental, mantendo assim papéis críticos na produção global de grãos agrícolas e biocombustíveis2,3. No entanto, a complexidade da maioria dos genomas de plantas C4 e a falta de sistemas de transformação de alta eficiência nessas espécies dificultaram estudos fundamentais e melhoramento nessas culturas. A este respeito, rabo de raposa e rabo de raposa verde são sistemas modelo ideais para plantas de cultivo fotossintéticas C4 devido aos seus genomas diploides compactos (~420 Mb), ciclos de vida curtos (~70 d) e sistemas de transformação altamente eficientes4,5. Apesar das características favoráveis do milheto foxtail como uma cultura modelo fotossintética C4, que pode ser fundamental para garantir a segurança alimentar global6, relativamente menos se sabe sobre sua diversidade genômica e potencial para melhoramento genético.
Recentemente, estudos de pan-genoma em arroz7,8, soja9, trigo10, cevada11, tomate12 e batata13 indicam que as variantes estruturais (SVs) têm papéis críticos na domesticação de culturas, bem como na determinação de características14 e no melhoramento genético. Até o momento, foram liberados dois rascunhos de genomas5,15 e três genomas16,17,18 de qualidade relativamente alta de rabo de raposa verde e milheto de rabo de raposa. Juntamente com dados de sequenciamento de leitura curta em escala populacional, estudos anteriores revelaram a estrutura populacional em milheto foxtail e foxtail verde, bem como a base genética de várias características agronômicas importantes16,19,20,21. No entanto, o espectro completo de variantes genéticas subjacentes à domesticação de Setaria e sua ampla adaptabilidade ecológica, incluindo o papel da diversidade pangenômica, permanece amplamente desconhecido.
Aqui, reunimos de novo 110 genomas de grau de referência para 35 acessos selvagens, 40 crioulos e 35 modernos cultivados de Setaria e examinamos a evolução do genoma no contexto da domesticação e melhoria do painço rabo de raposa. Ao incorporar o pan-genoma do milheto rabo de raposa, construímos a primeira sequência genômica baseada em gráfico de Setaria através desses múltiplos acessos e realizamos estudos genéticos em larga escala em 13 ambientes diferentes, o que poderia servir como base para a pesquisa e reprodução do milheto foxtail, fornecendo um exemplo de 'reprodução planejada' em outras culturas (Suplementar Fig. 1).
20 Mb and LTR assembly index (LAI) exceeding 20. Over 99% of Illumina short reads and 97% of embryophyte BUSCO genes could be properly mapped, suggesting high completeness. K-mer-based analysis also showed that all assemblies have high completeness (99.56% ± 0.04%) and quality (40.81 ± 0.52), and low false duplications (0.52 ± 0.13) (Supplementary Table 6)./p> 10), of which 17 reached the ‘gold standard’ level (LAI > 20; Supplementary Table 6)./p>90% of individuals, 100–110 accessions), 29.4% were dispensable genes (present in 2–99 accessions) and 3.9% were private genes (Fig. 3a). We identified an additional 14,283 gene families in the pan-genome that are absent in the Yugu1 reference genome. These genes were enriched in RNA capping, light response and specific metabolic processes, such as cellular aldehyde metabolic and protein metabolic processes (Supplementary Table 7)./p> 9.66, πW/πL > 72.96 and FST > 0.53). DomPAV and favPAV correspond to b and c. b, Scatter plots show PAV frequencies in landrace and wild (P value computed using two-sided Fisher's exact test). c, Frequency pattern of domestication-related PAVs (domPAVs). Lines in orange and blue indicate favPAVs during domestication. d, GO enrichment analysis of favPAV-genes. Color intensity (P value) reflects the significance of enrichment test (computed using two-sided Fisher's exact test). Circle size represents the frequencies of aggregated GO terms. e, Intersection of domestication-related genes across PAV-based and three SNP-based methods. f, Haplotype and selective signature at SvLes1 gene. g, Haplotype and selective signature of sh1 gene. h, Shattering phenotype of NIL with SH1 and sh1insert allele. Scale bar, 1.5 cm. πW/πL, πwild/πlandrace./p> 53.6, FST > 0.644). The vertical dashed line indicates the homologous gene longmi029371 of SiGW3 in broomcorn millet. Data are presented as mean ± s.d. in h–k and m; significance is computed by two-tailed Student's t-test. The number of samples in h and i is 6 and 3, respectively. The number of samples/seeds of WT, OE1, OE2 and OE3 in j and k is all 35./p>0.05 were kept for phylogenetic analysis. SNP-based neighbor-joining phylogenetic tree was inferred using MEGA-CC (v10.1.8)47 and SNPhylo (v2018-09-01)48 with standard settings and 1,000 bootstrap values. SV-based maximum-likelihood phylogenetic tree was constructed based on binary PAV data with 1,000 bootstraps using IQ-TREE (v2.1.2)49. Phylogenetic trees were drawn using ggtree50, an R package. We performed a population structure analysis using the ADMIXTURE (v1.3.0)51 software, initially with k ranging from 2 to 20. Here k = 7 was subsequently chosen because it was the minimal value of k that separated all previously known groups of green foxtail16. We then ran ADMIXTURE ten times with varying random seeds at k = 7./p>0.05, minimum allele frequency <0.05 and genotyping rate <90% using PLINK (v.1.90)52. To reconstruct the evolutionary relationships between domesticated subpopulations C1–C3 and the closest wild population W1, we used Admixtools (v2.0)23 on R v4.13 to construct an admixture graph with no migration edges. We used a maximum absolute f4-statistic z-score (|z-score|) threshold of <3.0 for accepting models and added the remaining wild subpopulations W2–W4 sequentially to explore whether they could be incorporated with no migration edges. Population admixture graphs including all seven subpopulations were also inferred using TreeMix (v1.13)22, with W3 as an outgroup. We used the GRoSS method53 to scan the genome for positive selection along each branch of our four-population admixture graph that comprised W1, C1, C2 and C3./p>100×; Supplementary Table 5) of each accession were subsequently assembled into contigs by CANU (v2.2)24 and HERA (v1.0)25. After polishing with Illumina reads and further correction with BioNano physical maps, we obtained 75, 114 and 103 contigs for Me34V (398,819,634 bp, N50 = 21.1 Mb), Ci846 (412,045,876 bp, N50 = 21.0 Mb) and Yugu18 (409,028,184 bp, N50 = 20.6 Mb), respectively. For the other 107 accessions, we sequenced using Illumina NovaSeq 6000 at >40× short-read data (except Zhaogu1 with 37.5× data) for each accession. We examined genome size and heterozygosity using Jellyfish (v2.3.0)54 and GenomeScope (v2.0)55. Based on examined genome heterozygosity, we generated >50× and >80× long-read data for low heterozygosity (<0.3%) and high heterozygosity (≥0.3%) accessions by the Pacbio Sequel II platforms, respectively (Supplementary Table 5). We subsequently de novo assembled these Setaria genomes using CANU24 and HERA25 pipelines. Self-alignment of whole-genome contig sequences was performed using default parameters of BWA-MEM (v0.7.12-r1039)42, and heterozygous sequences were filtered with Redundans (with -t 10, -identity 0.55, -overlap 0.80, --noscaffolding, and -nogapclosing) and Purge Haplotigs (with default parameters). Overlaps between contig sequences were merged using the results of BWA-MEM self-alignment./p>99% coverage and identity, it was considered present in the corresponding genome. We performed a pan-genome analysis based on a Markov clustering approach77. All-versus-all comparisons were performed using diamond (v0.9.25)78 with an E-value cutoff of 1 × 10−5. Subsequently, all paired genes were clustered using OrthoFinder (v2.3.12)77. Based on their frequency, we classified genes into the following four categories: core (these present in all 111 individuals), soft core (these present in >90% of samples but not all; 100–110 individuals), dispensable (these present in more than one but less than 90%; 2–99 individuals) and private (present in only one accession)./p>