banner

Blog

Jun 05, 2023

Un graphique

Nature Genetics (2023)Citer cet article

Détails des métriques

Setaria italica (sétaire verte), une culture fondatrice de l'agriculture d'Asie de l'Est, est une plante modèle pour la photosynthèse C4 et le développement d'approches de sélection adaptative dans plusieurs climats. Ici, nous avons établi le pan-génome de Setaria en assemblant 110 génomes représentatifs d'une collection mondiale. Le pan-génome est composé de 73 528 familles de gènes, dont 23,8 %, 42,9 %, 29,4 % et 3,9 % sont respectivement des gènes de base, de base souple, dispensables et privés ; 202 884 variantes structurelles non redondantes ont également été détectées. La caractérisation des variants pangénomiques suggère leur importance lors de la domestication et de l'amélioration du millet sétaire, comme en témoigne l'identification du gène de rendement SiGW3, où un variant de promoteur de présence/absence de 366 pb accompagne la variation de l'expression génique. Nous avons développé un génome basé sur des graphes et réalisé des études génétiques à grande échelle pour 68 traits dans 13 environnements, identifiant des gènes potentiels pour l'amélioration du mil dans différents sites géographiques. Ceux-ci peuvent être utilisés dans la sélection assistée par marqueurs, la sélection génomique et l'édition du génome pour accélérer l'amélioration des cultures dans différentes conditions climatiques.

Le millet des oiseaux (Setaria italica), l'une des plus anciennes cultures céréalières domestiquées au monde, est considéré comme ayant jeté les bases de la formation de la civilisation chinoise primitive. Des preuves archéologiques récentes suggèrent que cette espèce a été domestiquée il y a environ 11 000 ans à partir de son ancêtre, la sétaire verte (Setaria viridis)1, ce qui la rend contemporaine de l'orge et du blé dans les premières transitions agricoles des sociétés humaines néolithiques. Le millet des oiseaux est la seule espèce cultivée actuelle du genre Setaria et présente une excellente tolérance à la sécheresse et une faible tolérance aux éléments nutritifs du sol. Depuis sa domestication, le millet des oiseaux s'est propagé à travers l'Eurasie et l'Afrique, et plus récemment aux Amériques, et pousse dans des environnements tempérés, tropicaux et arides.

De manière critique, les espèces de Setaria utilisent la photosynthèse C4. Les plantes C4, qui, outre le millet des oiseaux, comprennent le maïs, le sorgho, la canne à sucre et le panic raide, possèdent une efficacité photosynthétique et une adaptabilité environnementale élevées, conservant ainsi des rôles essentiels dans la production mondiale de céréales agricoles et de biocarburants2,3. Cependant, la complexité de la plupart des génomes des plantes cultivées en C4 et le manque de systèmes de transformation à haut rendement chez ces espèces ont entravé les études fondamentales et la sélection de ces cultures. À cet égard, le millet sétaire et la sétaire verte sont des systèmes modèles idéaux pour les plantes cultivées photosynthétiques C4 en raison de leurs génomes diploïdes compacts (~ 420 Mb), de cycles de vie courts (~ 70 j) et de systèmes de transformation très efficaces4,5. Malgré les caractéristiques favorables du millet des oiseaux en tant que culture modèle photosynthétique C4, qui peut s'avérer essentielle pour assurer la sécurité alimentaire mondiale6, on en sait relativement moins sur sa diversité génomique et son potentiel d'amélioration génétique.

Récemment, des études pangénomiques sur le riz7,8, le soja9, le blé10, l'orge11, la tomate12 et la pomme de terre13 indiquent que les variants structurels (SV) jouent un rôle essentiel dans la domestication des cultures ainsi que dans la détermination des traits14 et l'amélioration génétique. À ce jour, deux projets de génomes5,15 et trois génomes de qualité relativement élevée16,17,18 de la sétaire verte et du millet des oiseaux ont été publiés. Couplées à des données de séquençage à lecture courte à l'échelle de la population, des études antérieures ont révélé la structure de la population du millet des oiseaux et de la sétaire verte, ainsi que la base génétique de plusieurs traits agronomiques clés16,19,20,21. Cependant, le spectre complet des variantes génétiques qui sous-tendent la domestication de Setaria et sa large adaptabilité écologique, y compris le rôle de la diversité pangénomique, reste largement inconnu.

Ici, nous avons assemblé de novo 110 génomes de référence pour 35 accessions sauvages, 40 variétés locales et 35 accessions de Setaria cultivées modernes, et examiné l'évolution du génome dans le contexte de la domestication et de l'amélioration du millet sétaire. En incorporant le pan-génome du millet sétaire, nous avons construit la première séquence génomique basée sur des graphiques de Setaria à travers ces multiples accessions et réalisé des études génétiques à grande échelle dans 13 environnements différents, qui pourraient servir de base à la recherche et à la sélection du millet sétaire, fournissant un exemple de « sélection par conception » dans d'autres cultures (Fig. 1 supplémentaire).

Nous avons recueilli des données de reséquençage à l'échelle du génome pour 630 accessions sauvages (S. viridis), 829 variétés locales et 385 accessions cultivées modernes du genre Setaria avec une profondeur de séquençage moyenne d'environ 15 ×, dont 1 004 étaient nouvellement générées et 840 provenaient d'études antérieures16, 21 (tableau supplémentaire 1). Après avoir aligné les lectures sur le génome de référence 'Yugu1' du millet sétaire, nous avons identifié environ 60 millions de polymorphismes mononucléotidiques (SNP) et 6,7 millions d'insertions/délétions (indels) dans les 1 844 accessions (tableau supplémentaire 2).

Nous avons effectué des analyses phylogénétiques et de la structure de la population à l'aide de 4 934 413 SNP de haute qualité (fréquences d'allèles mineurs ≥ 0, 05 et taux de génotypes manquants < 0, 1; Fig. 1a, b et Supplémentaire Fig. 2a). Sur la base de l'analyse de la structure de la population, nous avons classé les espèces sauvages en quatre sous-groupes - W1, W2, W3 et W4 - qui correspondent aux populations "Central", "Central-East", "Central-North" et "West-Coast", respectivement, dans une étude précédente16. W1 est le sous-groupe de population le plus proche du millet sétaire cultivé, qui contient toute notre sétaire verte de Chine récoltée ; cela indique que W1 est l'ancêtre sauvage de tout le mil des oiseaux cultivé et est cohérent avec le fait que la Chine est le centre de domestication de cette culture (Fig. 1a).

a, Arbre phylogénétique des 1 844 accessions de Setaria. Les lignes grises indiquent un mélange, et les autres lignes de couleurs différentes sont des sous-groupes correspondant à k = 7 dans b. b, analyse ADMIXTURE à partir de k = 2–7. c, Répartition géographique de trois sous-groupes d'accessions de mil des oiseaux. C3 est largement distribué par rapport aux deux autres sous-groupes. La carte a été créée à l'aide de la fonction de données de carte dans le package R ggplot2.

Données source

Dans notre étude précédente, le millet des oiseaux cultivé a été classé en deux sous-groupes divergents, qui sont étroitement liés à la répartition géographique/climatique et aux habitudes agricoles19. Ici, notre ensemble de données mondial plus large a pu diviser davantage le millet des oiseaux en trois sous-populations génétiquement différenciées (C1-C3) (Fig. 1). TREEMIX22 et Admixtools23 montrent que la première division évolutive se situe entre les sous-groupes C3 et C1/C2, les deux derniers divergeant plus tard (Fig. 2 supplémentaire). C1 (343 accessions) et C2 (478 accessions) étaient à peu près compatibles avec les millets vulpin de type 1 et de type 2 dans l'étude précédente19, avec la population C1 répartie dans les hautes latitudes et C2 à des latitudes relativement plus basses avec des climats plus chauds. Le nouveau sous-groupe de population que nous avons identifié - C3 (82 accessions) - est largement distribué dans le monde, ce qui suggère que C3 pourrait avoir une meilleure adaptation à une plus large gamme de climats que les deux autres sous-groupes (Fig. 1c et Supplémentaire Fig. 3b).

Pour capturer le spectre complet de la diversité génétique de Setaria qui peut être négligée par les approches de reséquençage à lecture courte, nous avons assemblé de novo 110 accessions représentatives de Setaria, dont 35 accessions sauvages, 40 landraces et 35 accessions cultivées modernes (Fig. 2a). Nous avons sélectionné ces accessions en fonction des relations phylogénétiques et de la répartition géographique, de l'utilité de la reproduction et / ou de la recherche et de la répartition des sous-groupes pour nous assurer qu'elles sont représentatives de la diversité génétique au sein du millet des oiseaux et de la sétaire verte (Fig. 2a, b et Notes supplémentaires 1–5). Les accessions que nous avons sélectionnées couvrent également la diversité phénotypique et représentent le continuum des phénotypes associés à la domestication et à l'amélioration (Fig. 2c, d).

a, Arbre phylogénétique des 1 844 accessions de Setaria. Des lignes de couleurs différentes indiquent les 110 accessions pour l'assemblage de novo comme suit : sauvage (rouge), landrace (vert) et cultivar (bleu). b, Répartition géographique des 110 accessions représentatives diverses parmi les 1 844 accessions de Setaria. La couleur des points correspond à a. La carte a été créée à l'aide de la fonction de données de carte dans ggplot2. c, GL et GW pour 110 accessions, et les caractéristiques de l'architecture de la plante, la forme/taille de la panicule et le rendement en grains par panicule des variétés représentatives sauvages, locales et cultivées du millet des oiseaux. d, Différences de TGW, GL, GW, diamètre de la tige principale, nombre de talles et date d'épiaison pour les cultivars sauvages, locaux et modernes. Le nombre d'échantillons dans la nature, la race locale et le cultivar dans les boîtes à moustaches de d est de 35, 40 et 35, respectivement. Dans les boîtes à moustaches, les quartiles 25 % et 75 % sont représentés respectivement par les bords inférieur et supérieur des boîtes, et les lignes centrales indiquent la médiane. Les moustaches s'étendent jusqu'à 1,5 × l'intervalle interquartile. Les niveaux de signification sont calculés à partir de tests de Wilcoxon bilatéraux.

Données source

Trois accessions représentatives - Me34V (sauvage), Ci846 (landrace) et Yugu18 (cultivar moderne) - ont ensuite été sélectionnées pour construire des assemblages génomiques de référence de haute qualité pour Setaria. Nous avons assemblé de novo les trois génomes avec CANU24 et HERA25 en utilisant ~ 110 × lectures PacBio et poli les assemblages en utilisant ~ 65 × lectures Illumina et les avons corrigés avec des cartes physiques BioNano. Ces trois assemblages de génomes ont une plus grande contiguïté que les génomes de référence actuellement disponibles5,16,18, avec une longueur moyenne de contig N50 > 20 Mb et un indice d'assemblage LTR (LAI) supérieur à 20. Plus de 99 % des lectures courtes Illumina et 97 % des embryophytes BUSCO les gènes pourraient être correctement cartographiés, suggérant une grande complétude. L'analyse basée sur K-mer a également montré que tous les assemblages ont une complétude élevée (99,56% ± 0,04%) et une qualité (40,81 ± 0,52), et de faibles fausses duplications (0,52 ± 0,13) (tableau supplémentaire 6).

Pour les 107 accessions restantes, nous avons généré environ 4,1 lectures longues de TB PacBio et environ 2,2 lectures de TB Illumina avec des profondeurs de séquençage moyennes d'environ 91,1 × et 48,1 ×, respectivement (tableau supplémentaire 5). La longueur moyenne de l'assemblage contig N50 variait de 126, 9 kb à 5, 5 Mo (tableau supplémentaire 6), et une moyenne de 99, 8% des lectures courtes Illumina et 94, 5% des gènes embryophytes BUSCO étaient alignés sur ces assemblages (tableau supplémentaire 6). L'analyse basée sur K-mer a montré que la qualité du génome assemblé des accessions cultivées (complétude, 97,59 % ± 2,02 % ; QV, 39,36 ± 1,78 ; duplication, 2,55 % ± 1,16 %) est supérieure à celle des accessions sauvages (complétude, 91,34 % ± 6,05 % ; QV, 30,52 ± 6,89 ; duplication, 4,34 % ± 2,48 %). L'évaluation de la qualité de l'assemblage du génome à l'aide de rétrotransposons répétés à long terme (LTR-RT) a indiqué que les 107 assemblages ont atteint le niveau de « référence » (LAI > 10), dont 17 ont atteint le niveau de « l'étalon-or » (LAI > 20 ; Tableau supplémentaire 6 ).

Un total de 161,8 Mo à 199,9 Mo (46,2 % ± 0,01 %) de séquences assemblées ont été annotées en tant qu'éléments transposables (TE ; tableau supplémentaire 6), LTR/Gypsy et LTR/Copia étant les deux superfamilles TE les plus abondantes. Nous avons prédit 39 907 ± 1 056 gènes codant pour les protéines dans les génomes assemblés, avec un score BUSCO de 94,0 % ± 1,7 % (tableau supplémentaire 6) et 98,7 % ± 0,075 % de gènes ancrés sur neuf chromosomes. En moyenne, 65 % des exons des gènes prédits étaient étayés par des données de séquençage du transcriptome, et 55,4 % ± 1,6 % des gènes prédits se sont vu attribuer des termes fonctionnels (tableau supplémentaire 6).

Nous avons construit le pan-génome du millet des oiseaux en utilisant des gènes codant pour des protéines, en intégrant les données de 80 accessions cultivées avec les 28 accessions sauvages du sous-groupe W1 (l'ancêtre sauvage), plus trois génomes précédemment publiés - Yugu1 (réf. 5), xiaomi18 et A10 (réf. 16; Tableau supplémentaire 5). Le nombre de familles de gènes a augmenté à mesure que des génomes supplémentaires ont été ajoutés à l'analyse et se sont approchés d'un plateau avec n = 30 accessions (Fig. 3a). Le pan-génome était composé de 73 528 familles de gènes, dont 23,8 % étaient des gènes de base, 42,9 % étaient des gènes de base souple (présents chez > 90 % des individus, 100 à 110 accessions), 29,4 % étaient des gènes dispensables (présents dans 2 à 99 accessions) et 3,9 % étaient des gènes privés (Fig. 3a). Nous avons identifié 14 283 familles de gènes supplémentaires dans le pan-génome qui sont absentes du génome de référence Yugu1. Ces gènes étaient enrichis en coiffage d'ARN, en réponse à la lumière et en processus métaboliques spécifiques, tels que les processus métaboliques des aldéhydes cellulaires et des protéines (tableau supplémentaire 7).

a, le pan-génome de Setaria. La courbe de croissance sans tendance du pan-génome indique un pan-génome fermé de Setaria. Le graphique circulaire montre la proportion de la famille de gènes marquée par la composition. b, graphique à barres empilées du nombre et du type de SV des 110 accessions. c, Distribution des SV de 112 génomes sur les neuf chromosomes du millet des oiseaux. d, Distribution des nombres de PAV en fonction de la distance au gène. e, Courbes cumulatives de pan-PAV et de core-PAV dans différents groupes avec des accessions supplémentaires ajoutées. La courbe de croissance sans tendance du pan-PAV indique un pan-PAV fermé de Setaria.

Données source

En tirant parti des assemblages génomiques de haute qualité, nous avons effectué un alignement du génome par paires avec 'Yugu1' et identifié 24,3 millions de SNP et 3,8 millions d'indels (<50 bp) dans les 112 accessions, dont 1,5% ne sont pas synonymes et peuvent avoir un impact sur la fonction génique (Tableaux supplémentaires 8 et 9). Un total de 202 884 SV non redondants (taille ≥ 50 pb), comprenant 107 151 insertions, 76 915 suppressions, 18 455 translocations et 363 inversions, ont été détectés (Fig. 3b et Tableau supplémentaire 8) ; environ 90% d'entre eux étaient plus courts que 8, 8 kb, 6, 6 kb, 62, 6 kb et 137, 4 kb, respectivement (Fig. 4a supplémentaire). Les variants de présence-absence (PAV ; grandes insertions et délétions) sont des caractéristiques clés des pan-génomes des cultures, et ils étaient le type de SV le plus abondant (Fig. 3b et Tableau supplémentaire 8) et avaient tendance à être enrichis en régions répétitives intergéniques (Fig. 3c et Fig. 4b supplémentaire).

Nous constatons que la plupart des variantes de présence (72,3 % ; n = 59 429) et d'absence (92,8 % ; n = 99 477) se chevauchent avec les TE, qui sont significativement plus élevées que la proportion de TE à l'échelle du génome (60,5 % ; P <0,001 ; Fig. 4c). Ces PAV associés à TE étaient regroupés dans des régions de transposon d'ADN, et la plupart des points de rupture de ces PAV étaient proches des sites de jonction TE (Fig. 4d, e supplémentaires), ce qui suggère que les transposons d'ADN pourraient avoir entraîné la formation de la plupart des PAV dans le génome de Setaria. Nous avons également identifié 15 758 PAV dérivés de TE à haute confiance, qui colocalisaient avec des TE intacts simples couplés à des duplications de site cible (TSD).

Nous avons ensuite analysé la distribution des SV en fonction de la distance des régions géniques. Nous constatons, par exemple, que le nombre de PAV a progressivement diminué à mesure que la distance par rapport au gène le plus proche augmentait (Fig. 3d). Nous avons trouvé un ensemble de SV localisés dans les promoteurs ou les corps de gènes de loci fonctionnellement significatifs, et les SV se produisent plus fréquemment dans les gènes à faible niveau d'expression (Notes supplémentaires 1 à 5 et Figs. 5 et 6 supplémentaires).

Nous avons effectué une analyse phylogénétique à l'aide de SV, qui a clairement différencié les 112 accessions en deux groupes distincts, en concordance avec la phylogénie basée sur les SNP, suggérant que les SV sont également associés à la domestication et à l'amélioration de Setaria (Fig. 7 supplémentaire). La corrélation significative de la densité de PAV et des gènes exprimés de manière différentielle entre divers groupes de population (test t de Student bilatéral, P = 2,2 × 10−16) suggère que les PAV sous-tendent les différences d'expression génique entre les populations, renforçant encore la possibilité que les PAV aient joué un rôle dans la domestication et l'amélioration des cultures (Notes supplémentaires 1 à 5 et Fig. 6 supplémentaire).

Pour identifier les PAV sous sélection lors de la domestication des cultures ou de l'amélioration du millet des oiseaux, nous avons comparé les fréquences des PAV entre les accessions sauvages et locales afin d'identifier les PAV putatifs de « domestication » (Fig. 4a–c), et entre les variétés locales et les cultivars pour d'éventuels PAV « d'amélioration » ( Fig.4a et Fig. 8 supplémentaire). Nous avons défini les PAV avec des fréquences sensiblement différentes entre les races sauvages et locales, et les races locales et les cultivars comme des SV sélectionnés pour la domestication (domPAV) et des SV sélectionnés pour l'amélioration (impPAV), respectivement. Un total de 4 582 domPAV (Fig. 4a – c et Tableau supplémentaire 10) et 152 impPAV ont été identifiés (Fig. 4a, Fig. 8 supplémentaire et Tableau supplémentaire 11), ce qui suggère une pression de sélection plus forte lors de la domestication du mil des oiseaux par rapport à l'amélioration ultérieure des cultures. . Parmi eux, 1 933 domPAV et 57 impPAV sont des PAV favorables (favPAV) qui ont constamment des fréquences élevées ou réduites dans les accessions de variétés locales et cultivées. Nous avons identifié 680 gènes favorables qui ont des favPAV au niveau des régions géniques ou promotrices et qui sont enrichis en processus biologiques liés à la domestication des cultures tels que le processus de reproduction, le photopériodisme, l'accumulation de pigments et l'utilisation de l'azote (Fig. 4d). Nous avons également recherché la colocalisation entre les régions génomiques sous sélection dans différentes branches de l'arbre de la population (Fig. 3 supplémentaire) et ces PAV sélectionnés ; nous constatons que dix de ces régions sélectionnées chevauchent les domPAV et les impPAV (tableau supplémentaire 4).

a, XPCLR, le rapport de diversité des nucléotides (πW/πL) et les tests FST sont utilisés pour l'analyse de sélection chez S. viridis. Les lignes pointillées verticales indiquent le seuil des signaux de sélection à l'échelle du génome (XPCLR > 9,66, πW/πL > 72,96 et FST > 0,53). DomPAV et favPAV correspondent à b et c. b, Les diagrammes de dispersion montrent les fréquences PAV chez les races locales et sauvages (valeur P calculée à l'aide du test exact de Fisher bilatéral). c, Modèle de fréquence des PAV liés à la domestication (domPAV). Les lignes en orange et bleu indiquent les favPAV pendant la domestication. d, GO analyse d'enrichissement des gènes favPAV. L'intensité de la couleur (valeur P) reflète la signification du test d'enrichissement (calculé à l'aide du test exact de Fisher bilatéral). La taille du cercle représente les fréquences des termes GO agrégés. e, Intersection de gènes liés à la domestication entre les méthodes basées sur PAV et trois méthodes basées sur SNP. f, Haplotype et signature sélective au niveau du gène SvLes1. g, Haplotype et signature sélective du gène sh1. h, phénotype fracassant de NIL avec SH1 et sh1insert allele. Barre d'échelle, 1,5 cm. πW/πL, πsauvage/πlandrace.

Données source

Il a longtemps été noté que des traits similaires ont évolué à travers des espèces de céréales distinctes au cours de la domestication, et ces traits du syndrome de domestication semblent être déterminés par des gènes similaires dans des lignées cultivées distinctes. En effet, nous trouvons plusieurs gènes domPAV qui sont associés à la domestication dans diverses espèces de céréales, dont le gène de domestication morphologique du maïs tb1, le gène de floraison du riz Hd3, les gènes de poids/forme du grain LG1 et GW6a, et le gène de température de gélatinisation de l'amidon SSII ( Fig. 9 supplémentaire). Afin d'identifier davantage les loci possibles liés à la domestication, nous avons recherché des signatures de sélection à l'échelle du génome associées à la domestication du millet des oiseaux en utilisant des données SNP avec trois méthodes différentes. À partir d'une analyse par balayage sélectif basée sur SNP, nous avons constaté que les gènes responsables de traits agronomiques tels que les homologues de Hd1, TGW6 et le gène de qualité alimentaire / culinaire SBE2 étaient également en cours de sélection lors de la domestication (Fig. 10 supplémentaire), ce qui correspond au millet sétaire possédant un grain plus élevé. rendement, une meilleure qualité gustative et culinaire et une période de croissance plus longue après sa domestication à partir de la sétaire verte. Cependant, les méthodes basées sur SNP n'ont rappelé que 22, 4% (328) des gènes domPAV (Fig. 4e), ce qui suggère que l'utilisation des fréquences PAV pourrait être une approche complémentaire aux méthodes basées sur SNP pour identifier les gènes sous sélection positive. Ensemble, ces analyses ont identifié la variation pan-génomique (c'est-à-dire la présence ou l'absence de gènes/séquences) qui peut jouer un rôle important lors de la domestication et de l'amélioration du millet sétaire.

Pour explorer plus en détail le rôle des PAV dans l'évolution du millet sétaire, nous avons examiné de près les deux principaux traits de domestication suivants dans les cultures céréalières : l'éclatement des graines et l'augmentation du rendement en grain. La non-éclatement des graines est considérée comme un phénotype clé des cultures céréalières domestiquées et est en effet utilisée par les archéologues comme un marqueur critique de la domestication des cultures26,27. Pour identifier les loci brisant les graines, nous avons effectué une analyse QTL et un séquençage d'analyse de ségrégants groupés (BSA-seq) à l'aide d'une population RIL (Notes supplémentaires 1 à 5) et de trois QTL majeurs (qSH5.1, qSH5.2 et qSH9.1) le contrôle de l'éclatement des graines chez Setaria ont été identifiés (Fig. 11b, c supplémentaires).

Pour qSH5.1, nous constatons que le gène SvLes1 lié à l'éclatement de Setaria récemment signalé contient un domPAV de 6,7 kb et est un gène candidat16. À l'aide de lignées quasi-isogéniques (NIL), nous avons également cartographié finement et réduit qSH9.1 à une région de 87,3 kb entre les marqueurs M2 et M3, qui contenait Seita.9G154300 (sh1, un homologue du gène briseur de riz OsSh1; Supplémentaire Remarques 1 à 5). Deux NIL, NIL-SH1 et NIL-sh1insert, avec une architecture végétale similaire mais un phénotype d'éclatement distinct, ont en outre confirmé que sh1 était le locus qSH9.1 dans le millet des oiseaux (Fig. 4g et Fig. 12 supplémentaire). La fonction génique de sh1 a également été prouvée de manière indépendante dans une étude transgénique dans la réf. 28.

L'analyse des haplotypes de sh1 et de SvLes1 corrobore des études antérieures selon lesquelles les insertions dans SvLes1 ne sont pas toujours impliquées dans la domestication du millet des oiseaux29, tandis que l'insertion dans sh1 est fixée dans le millet des oiseaux domestiqué (Fig. 4f, g). Fait intéressant, nous avons constaté que ni la délétion de 6,7 kb dans SvLes1 ni la délétion de 855 pb dans sh1 n'étaient fixées dans la sétaire verte (Fig. 4f, g), ce qui suggère l'action d'autres gènes (par exemple, le gène situé dans qSH5 .2) impliqué dans la régulation de l'éclatement de la sétaire verte.

Le deuxième trait clé de domestication est l'augmentation du rendement en grain des espèces cultivées26,27 (Fig. 2c,d). La forme du grain (largeur du grain (GW) et longueur du grain (GL)) est un déterminant clé du rendement en grain du millet des oiseaux, et l'analyse de corrélation et les distributions phénotypiques suggèrent également que le rendement en grain (poids de mille grains (TGW)) est également déterminé par GW (Fig. 5a, b). Pour examiner ce trait génétiquement, nous avons utilisé les 110 séquences génomiques de haute qualité que nous avons développées, qui sont des ressources importantes pour les études d'association à l'échelle du génome (GWAS) des traits liés à la domestication, englobant les accessions des formes sauvages et cultivées. Nous avons effectué un GWAS basé sur SV (SV-GWAS) pour TGW, GW et GL. Nous trouvons plusieurs signaux GWAS significatifs sur les chromosomes 1, 3, 4, 5 et 9 pour TGW et GW (Fig. 5c, d). Fait intéressant, nous avons trouvé une délétion de 366 pb sur le chromosome 3, avec l'association la plus significative avec TGW (P = 8,6 × 10−15) et la deuxième association la plus significative (P = 7,3 × 10−9) avec GW (Fig. 5c,d). Nous avons également observé un déclin modéré de la diversité des nucléotides chez les races locales de cette région, et cette délétion a été classée comme favPAV, suggérant une sélection positive au cours de l'évolution du mil des oiseaux (Fig. 4a et 5e).

a, Corrélation phénotypique entre TGW, GL et GW. b, Distribution phénotypique de TGW, GL et GW. c, d, tracés de Manhattan de SV-GWAS pour TGW et GW, respectivement. Les lignes horizontales indiquent le seuil de signification à l'échelle du génome corrigé par Bonferroni (α = 1 et α = 0, 05). e, Distribution de la diversité nucléotidique des variétés sauvages, locales et cultivées dans un intervalle de 200 kb. f, profils d'expression de 27 gènes dans l'intervalle de 200 kb hébergeant le pic SV. g, la différence de taille de grain des lignées de surexpression de type sauvage et SiGW3. h – k, Comparaison des niveaux d'expression et TGW, GW et GL entre Ci846 de type sauvage et trois lignées de surexpression indépendantes. l, Analyse d'haplotype de SiGW3 et des régions génomiques flanquant gauche et droite de 20 kb. Les flèches noires indiquent trois variétés locales avec le même génotype que les accessions sauvages à scaffold_3:7310555. m, Validation de la fonction de la délétion de 366 pb en amont de SiGW3. Des essais transitoires sont effectués dans le protoplaste de feuille de millet sétaire. Le squelette de construction se compose du promoteur minimal du virus de la mosaïque du chou-fleur (mpCaMV, boîte verte), de l'ORF de la luciférase (boîte blanche) et du terminateur de la nopaline synthase (boîte violette). Des parties des composants distaux de la région de contrôle (boîtes oranges) du cultivar de millet sétaire et de la sétaire verte (type sauvage) ont été clonées dans des sites de restriction en amont du promoteur minimal. « Δ » désigne l'excision d'un SV de 366 pb du composant distal. Les barres bleues horizontales indiquent les niveaux d'expression pour chaque construction. Le nombre d'échantillons est de 5. Valeurs de n, XPCLR, FST et π entre millet à balais sauvage et cultivé. Les lignes en pointillés rouges sont des signaux de sélection (XPCLR > 53,6, FST > 0,644). La ligne pointillée verticale indique le gène homologue longmi029371 de SiGW3 dans le millet à balai. Les données sont présentées sous forme de moyenne ± sd en h–k et m ; la signification est calculée par le test t de Student bilatéral. Le nombre d'échantillons dans h et i est respectivement de 6 et 3. Le nombre d'échantillons/graines de WT, OE1, OE2 et OE3 en j et k est de 35.

Données source

Nous avons examiné les modèles d'expression génique dans dix tissus de 'A10' (sauvage) et 'Yugu1' (cultivar). L'intervalle de 200 kb autour de ce SV abritait 27 gènes, dont huit présentaient des modèles d'expression différentiels dans les graines au stade de remplissage du grain entre 'A10' et 'Yugu1' (Fig. 5f). Nous avons ensuite recherché des orthologues de riz de ces huit gènes et avons constaté que Seita.3G109700 était le plus susceptible d'être le gène causal (ci-après, nous avons nommé SiGW3) pour TGW et GW ; ce locus présente une similarité de séquence de 73 % avec le gène GW5/GSE5 lié à la domestication du riz, qui régule la taille des grains de riz en influençant la prolifération cellulaire dans les enveloppes des épillets30,31.

Pour valider la fonction de SiGW3, nous avons surexprimé ce gène dans le millet des oiseaux (accession 'Ci846'). Par rapport aux plantes de type sauvage, les plantes transgéniques ont montré une expression du gène SiGW3 plus élevée, une réduction de TGW et GW et une augmentation de GL (Fig. 5g – k). Pour identifier le variant causal, nous avons analysé les variants génomiques au sein de SiGW3 et une région de 20 kb flanquant le locus dans les accessions de 110 mil et avons constaté que seule la délétion de 366 pb (~ 7,2 kb du gène) coségréguait avec le phénotype ( figure 5l). Des essais transitoires dans des protoplastes de millet sétaire indiquent que les constructions avec des séquences distales de sétaire verte (type sauvage) et des composants de séquence distale de millet sétaire modifié excluant le fragment de 366 pb (△C) ont conduit à une expression plus élevée du gène rapporteur de la luciférase par rapport aux constructions contenant le fragment de 366 pb. Fragment du cultivar de millet des oiseaux (C) (Fig. 5m). Cela indique que SiGW3 régule négativement le poids des grains et que la séquence génomique distale de 366 pb réprime peut-être l'expression de SiGW3, augmentant ainsi le poids des grains dans le millet des oiseaux domestiqué. SiGW3 a une fonction et un schéma de sélection similaires dans le millet des oiseaux et le riz30 et semble également être soumis à une forte sélection dans le millet à balai (Panicum miliaceum; Fig. 5n), ce qui suggère que le même gène pourrait être impliqué dans l'évolution de GW dans trois graminées céréalières différentes. lignées.

Pour tenir compte de la variation pan-génomique et développer une ressource clé pour la sélection, nous avons construit un génome de référence basé sur un graphique de Setaria en intégrant 107 151 insertions, 76 915 délétions et 363 inversions à travers 112 accessions de millet des oiseaux et de sétaire verte dans la séquence du génome de référence Yugu1 ( Méthodes). La disponibilité d'une séquence génomique basée sur des graphes qui va au-delà des assemblages de référence classiques à génome unique pourrait capturer davantage d'héritabilité manquante.

Nous avons génotypé 1 844 accessions de Setaria à l'aide de séquences à lecture courte Illumina et du génome basé sur des graphiques et avons également collecté 226 ensembles de phénotypes (68 traits) comprenant le rendement, l'architecture de la plante, le temps de croissance, la biomasse, la qualité du grain, la coloration et les traits liés à la résistance aux maladies. Pour identifier les gènes qui opèrent dans un large éventail d'environnements climatiques, nous avons étudié ces traits à 13 endroits distincts de 18,3°N (Sanya) à 47,3°N (Qiqihar) et 87,7°E (Urumqi) à 123,9°E (Qiqihar) à travers 11 ans (Fig. 6a, Fig. 13 supplémentaire et Tableau supplémentaire 12).

a, Collection de phénotypes de 13 emplacements géographiques sur 11 ans. Les nombres entre parenthèses sont le nombre d'années et les traits évalués aux endroits correspondants. La carte a été créée par le logiciel QGIS avec des données sources du National Earth System Science Data Center, National Science & Technology Infrastructure of China. b, Variation phénotypique entre différentes conditions de croissance. Différentes lettres dans la carte thermique représentent des différences significatives (P < 0,05) selon le test de comparaisons multiples de Duncan, qui a été effectué à l'aide d'une ANOVA bilatérale. La couleur de la carte thermique représente les valeurs de phénotype mises à l'échelle. Les phénotypes de 1 à 41 correspondent au tableau supplémentaire 13. c, graphiques Manhattan de SV-GWAS (en haut) et SNP-GWAS (en bas) de 247 ensembles de phénotypes. Les lignes verticales en pointillés indiquent le seuil de signification corrigé de Bonferroni (α = 0,05). Les triangles indiquent les signaux associés uniquement détectés par SV-GWAS. d, Fréquence des locus associés au phénotype détectés par différents marqueurs. e, Analyse de liaison entre les SV du génome basé sur des graphes à l'aide de 680 accessions et leurs SNP flanquants à proximité ( ± 50 kb). f, Précision de différents phénotypes avec différents sous-ensembles de marqueurs. Les lignes grises représentent différents phénotypes et les points colorés indiquent la précision de la prédiction avec des marqueurs correspondants plus élevés que les autres. Les suffixes cg et gwas représentent des panneaux de marqueurs à effet élevé sélectionnés en fonction de l'importance des caractéristiques par CropGBM et GWAS, respectivement (Méthodes). g, pourcentage d'amélioration du rendement (n = 46) et des caractères liés à la qualité du grain (n = 17) en utilisant la substitution de base des 20 variantes efficaces les plus élevées. Dans les boîtes à moustaches, les quartiles 25 % et 75 % sont représentés respectivement par les bords inférieur et supérieur des boîtes, et les lignes centrales indiquent la médiane. Les moustaches s'étendent jusqu'à 1,5 × l'intervalle interquartile.

Données source

Nous constatons que la plupart des phénotypes ont été largement influencés par leurs environnements de culture sur le terrain (Fig. 6b et Tableau supplémentaire 13). Pour optimiser le potentiel de sélection dans différentes conditions environnementales et exploiter plus efficacement les ressources génétiques, nous avons réalisé des études GWAS et de sélection génomique (GS) pour les 226 phénotypes. Nous avons constaté que le GWAS basé sur SV améliore l'efficacité du GWAS basé sur SNP pour certains traits (Fig. 6c, d). Un total de 1 084 signaux ont été identifiés comme étant substantiellement associés à 128 phénotypes pour 60 traits, et 60 des signaux/QTL (5,5 %) n'ont été détectés que par SV-GWAS (Fig. 6d et Tableau supplémentaire 14). De plus, l'analyse du déséquilibre de liaison a montré qu'environ 36, 9% des SV n'étaient pas en LD avec des SNP flanquants (± 50 kb, R2 <0, 5) (Fig. 6e), ce qui indique que les informations génétiques abondantes associées aux SV ne sont pas capturées par les marqueurs SNP.

Nous illustrons l'utilité de l'utilisation de génomes basés sur des graphes et des SV associés dans la cartographie GWAS en examinant quelques traits. La teneur apparente en amylose (AAC) est un facteur clé qui affecte la qualité de la consommation et de la cuisson dans différentes cultures, comme déterminé par le gène de l'amidon synthase lié aux granules (GBSS/Waxy)32,33. Nous avons directement identifié le SV principal associé à l'AAC (une insertion de 196 pb en position 1 485 625 sur le chromosome 4, P < 1,39 × 10−16) situé à 1,6 kb en aval du gène Seita.4G022400 (GBSSI), tandis que le SNP principal (P <5,64 × 10−9) se trouve à 398 kb du gène GBSSI (Fig. 14 supplémentaire).

Nous avons également constaté que deux SV principaux, une délétion de 277 pb sur le chromosome 1 et une délétion de 3,9 kb sur le chromosome 2, étaient substantiellement associés à la TGW (P < 2,73 × 10−6, Dingxi 2018) et à la longueur du pédoncule (P < 4,67 × 10−7, Changzhi 2011) via SV-GWAS, alors qu'aucun SNP associé n'a pu être détecté dans un intervalle de 50 kb de ces SV (Figs. 15 et 16 supplémentaires). Fait intéressant, nous avons trouvé un gène pléiotrope (Seita.9G020100), codant pour un homologue du riz Ghd7, qui joue un rôle crucial dans la production et l'adaptation du riz34, et n'a été détecté que par SV-GWAS. Les SV en plomb sont également substantiellement associées à la date d'épiaison (P < 5,99 × 10−11, Beijing 2016), la longueur des feuilles (P < 3,92 × 10−9, Anyang 2011), le numéro de branche primaire (P < 5,74 × 10−10, Changzhi 2011) et le poids de la paille (P < 1,31 × 10−6, Qitai 2014 ; Fig. 17 supplémentaire). Ensemble, ceux-ci indiquent que les SV du millet des oiseaux peuvent contenir des informations génétiques supplémentaires qui ne sont pas représentées par les SNP. Il convient de noter que certains de ces loci GWAS peuvent avoir été sous sélection positive; sur les 52 régions génomiques associées à la sélection dans les sous-populations cultivées C1 à C3 (tableau supplémentaire 4), huit régions se chevauchent avec les résultats de GWAS pour le nombre de panicule, le numéro de branche, la date d'émergence, la couleur des poils et la teneur en glycine et en arginine des grains. Nous constatons également que pour les traits de domestication clés tels que TGW et GW, tous les signaux GWAS couvrent les domPAV, reliant à nouveau ces SV à l'évolution du mil des oiseaux.

Enfin, nous avons développé et évalué la précision de prédiction de différents panels de marqueurs pour les études GS des 68 caractères agronomiques et de qualité dans des environnements géographiquement distincts. Avec des centaines de SNP et de SV, différents phénotypes ont montré une gamme de précision GS prédite, avec 97 % des phénotypes avec une précision prédite supérieure à 0,7 et la précision de prédiction la plus élevée à plus de 0,95 (couleur des feuilles des semis à Pékin ; Tableau supplémentaire 15). Nous avons constaté que deux traits ont une précision plus élevée avec les marqueurs SV uniquement par rapport aux autres sous-ensembles de marqueurs, et la précision de 167 (73,9 %) traits avec les marqueurs SNP et SV a augmenté entre 0,04 % et 12,67 % par rapport aux marqueurs SNP uniquement (Fig. 6f et tableau supplémentaire 15). Pour explorer le potentiel de reproduction du millet des oiseaux, nous avons estimé les valeurs génétiques estimées (GEBV) en utilisant 1,04 million de combinaisons d'haplotypes pour les phénotypes de 46 caractères liés au rendement et 17 caractères de qualité du grain. Nos résultats indiquent que les GEBV des caractères de rendement et de qualité des grains pourraient être améliorés jusqu'à 50 % et 49 %, respectivement (Fig. 6g et Tableau supplémentaire 16).

Le millet des oiseaux a été largement considéré comme l'une des cultures fondatrices en Asie de l'Est1, dont la large niche de croissance environnementale, le système photosynthétique C4, le génome relativement petit, la courte période de croissance et la facilité de transformation en font une espèce de culture clé pour faire face à la sécurité alimentaire mondiale dans un contexte de changement. climats du monde. Les 110 génomes de niveau de référence de base que nous avons assemblés représentent le large éventail de diversité dans 1 844 accessions et écotypes de S. italica et S. viridis, et serviront de ressource essentielle pour les futures études biologiques et les efforts de sélection. Avec ces génomes, nous avons pu établir un pan-génome complet et un génome graphique de Setaria, qui offre un aperçu de la variation génomique à travers les Setaria sauvages et cultivées, et fournit des outils précieux pour les analyses génomiques fonctionnelles et la sélection de précision chez le millet des oiseaux.

Notre analyse démographique fournit des indices sur l'évolution de cette importante espèce cultivée. Notre analyse a identifié la sous-population de progéniteurs ancestraux immédiats dans le mil vert (W1) et, sur la base de la quantité de dérive (Fig. 3a supplémentaire), a suggéré que C3, qui peut tolérer un plus large éventail de conditions climatiques / environnementales, pourrait avoir été établi comme la première sous-population cultivée de mil des oiseaux. Grâce aux 110 génomes de Setaria assemblés de novo, nous avons identifié des régions génomiques pouvant être associées à la domestication et à l'amélioration du millet des oiseaux, fournissant des informations génétiques sur l'évolution de cette espèce domestiquée.

L'identification SV a longtemps été difficile lors de l'utilisation de données de reséquençage à lecture courte. Néanmoins, le rôle critique des SV dans la domestication des cultures, la détermination des caractères et l'amélioration agronomique a été démontré dans diverses études6,7,8,9,10,11,12,13,14. Avec notre pan-génome construit comprenant plus de 100 séquences génomiques de niveau de référence, nous avons identifié environ 10 000 SV par génome de Setaria, comparable à celui observé chez la tomate35 mais moins que chez le riz8. Un nombre important de ces SV, en particulier les PAV, étaient associés aux TE, ce qui est cohérent avec le fait que l'activité des TE est un mécanisme important pour la génération de SV dans les génomes36,37. L'effet des PAV dans le génome peut également différer d'un gène à l'autre, et nous constatons qu'en effet les SV se trouvent essentiellement dans les gènes faiblement exprimés. Ce modèle est également observé chez le riz7,8 et est cohérent avec un modèle stabilisateur d'évolution de l'expression génique38, dans lequel on s'attendrait à ce que les gènes faiblement exprimés soient sous sélection plus faible et donc plus susceptibles d'être associés aux PAV39,40. Enfin, à l'instar des études sur d'autres cultures, nous constatons que les SV sous-tendent également la détermination des traits du mil des oiseaux, illustrée par notre étude de deux gènes clés de domestication, SiGW3 et sh1.

La construction du génome basé sur des graphes nous a permis de génotyper les SV dans une grande population en utilisant un reséquençage à lecture courte et d'effectuer GWAS et GS dans 680 accessions de mil des oiseaux pour 68 traits dans 13 emplacements géographiques différents, chacun avec des conditions de croissance climatiques distinctes. Nous avons identifié des SNP et des SV substantiellement associés à divers phénotypes, qui pourraient être utilisés dans la prédiction génomique du millet des oiseaux dans différents environnements. En effet, la précision de la prédiction pour la majorité des traits augmentait si les marqueurs SNP et SV étaient utilisés conjointement, et nous constatons que deux traits ont une précision plus élevée avec les marqueurs SV uniquement par rapport aux marqueurs SNP uniquement. Cette précision de prédiction est sensiblement plus élevée que celle observée chez la tomate12, probablement en raison de la spécificité de l'espèce ou du caractère. Grâce à notre génome basé sur des graphiques, nous pouvons également estimer les valeurs potentielles de reproduction des caractères liés au rendement et à la qualité du grain, offrant ainsi des pistes pour la sélection du mil des oiseaux pour l'adaptation au changement climatique.

Ensemble, notre enquête met en évidence l'utilité d'analyser les pan-génomes des cultures pour fournir des catalogues plus complets de la variation génétique, et avec le nombre croissant d'exemples de SV ayant des effets génétiques dans d'autres cultures6,7,8,9,10,11,12 ,13,14, nous apportons une preuve supplémentaire du rôle crucial que jouent les variants pangénomiques dans l'évolution et la sélection des cultures. Cela peut s'avérer crucial dans le développement de programmes de sélection appropriés pour d'autres cultures, et aider à guider et à accélérer l'amélioration des cultures par la sélection assistée par marqueurs, la GS et/ou l'édition du génome.

Toutes les 1 004 accessions séquencées de millet des oiseaux et de sétaire verte ont été purifiées pendant au moins quatre générations à Pékin et à Hainan, en Chine. Pour l'échantillonnage, nous avons planté toutes les accessions à la station expérimentale de l'Institut des sciences des cultures, Académie chinoise des sciences agricoles, Pékin, au cours de la saison de croissance 2018. Pour les analyses GWAS et GS, nous avons planté et examiné les caractéristiques agronomiques et de qualité des grains dans 13 environnements distincts à différentes années (énumérés dans le tableau supplémentaire 12).

Les jeunes feuilles ont été collectées et l'ADN génomique a été extrait à l'aide de bromure de cétyltriméthylammonium (CTAB) et utilisé pour construire des bibliothèques de séquençage en suivant les instructions du fabricant (Illumina Inc.). Les bibliothèques ont été séquencées par paires (NGS) sur Illumina NovaSeq 6000 chez Novogene. Pour trois accessions représentatives, la construction d'une bibliothèque à lecture longue a suivi le protocole standard (Pacbio Inc.) et a été séquencée sur la plate-forme Pacbio RSII de Nextomics Bioscience. La construction et le séquençage de la bibliothèque à lecture longue pour les 107 autres accessions assemblées de novo ont été réalisés par Berry Genomics avec la plate-forme Pacbio Sequel II (tableau supplémentaire 5).

Les ARN messagers totaux ont été extraits à l'aide de TRIzol (Invitrogen) à partir de différents tissus et séquencés par la plateforme NovaSeq 6000. Pour BioNano, des tissus foliaires frais de semis âgés de 10 jours de trois accessions (Me34V, Ci846 et Yugu18) ont été collectés et de l'ADN de poids moléculaire élevé a été extrait et étiqueté selon les protocoles standard de BioNano Genomics. Tous les échantillons marqués ont été chargés et analysés à l'aide du système BioNano Genomics SAPHYR.

Les lectures de séquençage de faible qualité des 1 844 accessions ont été supprimées à l'aide de fastp (v0.23.0)41 avec les paramètres par défaut, et les lectures filtrées ont été mappées sur le génome de référence Yugu1 avec BWA (v0.7.12-r1039)42 en utilisant les paramètres par défaut. Les lectures cartographiées et dupliquées non uniques ont été exclues à l'aide de SAMtools (v1.7)43 et du Genome Analysis Toolkit (GATK v4.1.4)44, respectivement. L'appel SNP a été effectué par GATK (v4.1.4)44. SnpEff (v5.0)45 a été utilisé pour annoter et prédire les effets des SNP et des indels identifiés. Pour identifier la variation structurelle dans les 1 844 accessions, nous avons cartographié les lectures courtes Illumina filtrées sur le génome de référence basé sur le graphique Setaria et les SV génotypés à l'aide de la boîte à outils vg (v1.28.0)46 avec les paramètres par défaut.

Les SNP ou PAV bialléliques avec une fréquence manquante <10% et une fréquence d'allèle mineur> 0, 05 ont été conservés pour l'analyse phylogénétique. L'arbre phylogénétique voisin basé sur SNP a été déduit à l'aide de MEGA-CC (v10.1.8)47 et SNPhylo (v2018-09-01)48 avec des paramètres standard et 1 000 valeurs d'amorçage. L'arbre phylogénétique à vraisemblance maximale basé sur SV a été construit sur la base de données PAV binaires avec 1 000 bootstraps à l'aide de IQ-TREE (v2.1.2)49. Les arbres phylogénétiques ont été dessinés à l'aide de ggtree50, un package R. Nous avons effectué une analyse de la structure de la population à l'aide du logiciel ADMIXTURE (v1.3.0)51, initialement avec k allant de 2 à 20. Ici, k = 7 a ensuite été choisi car c'était la valeur minimale de k qui séparait tous les groupes de sétaire verte connus auparavant16 . Nous avons ensuite exécuté ADMIXTURE dix fois avec des graines aléatoires variables à k = 7.

Les scripts de nos analyses génomiques de population sont déposés sur https://github.com/qiangh06/Setaria-pan-genome/tree/main/Population%20genomic%20and%20Demographic%20inference. Pour l'analyse de l'histoire démographique, nous avons cherché à estimer le processus de formation de trois sous-groupes de mil des oiseaux. Pour ces analyses, nous avons filtré les SNP avec une hétérozygotie> 0, 05, une fréquence allélique minimale <0, 05 et un taux de génotypage <90% à l'aide de PLINK (v.1.90)52. Pour reconstruire les relations évolutives entre les sous-populations domestiquées C1-C3 et la population sauvage la plus proche W1, nous avons utilisé Admixtools (v2.0)23 sur R v4.13 pour construire un graphe de mélange sans bords de migration. Nous avons utilisé un seuil de score z (|z-score|) maximal absolu pour la statistique f4 de <3,0 pour accepter les modèles et avons ajouté les sous-populations sauvages restantes W2 à W4 de manière séquentielle pour déterminer si elles pouvaient être incorporées sans bords de migration. Les graphiques de mélange de population comprenant les sept sous-populations ont également été déduits à l'aide de TreeMix (v1.13)22, avec W3 comme groupe externe. Nous avons utilisé la méthode GRoSS53 pour scanner le génome pour une sélection positive le long de chaque branche de notre graphique de mélange à quatre populations comprenant W1, C1, C2 et C3.

Nous avons assemblé 110 accessions diverses de Setaria en utilisant deux approches. Pour trois génomes de référence de haute qualité (Me34V, Ci846 et Yugu18), nous avons utilisé les plateformes Illumina NovaSeq 6000 et PacBio RSII (tableau supplémentaire 5) pour le séquençage, complétées par des cartes optiques BioNano. Nous avons estimé la taille du génome de ces trois accessions à environ 430 Mb selon la distribution k-mer des lectures courtes d'Illumina. Plus de 50 Go de sous-lectures PacBio (> 100 x ; Tableau supplémentaire 5) de chaque accession ont ensuite été assemblées en contigs par CANU (v2.2)24 et HERA (v1.0)25. Après polissage avec Illumina et correction supplémentaire avec les cartes physiques BioNano, nous avons obtenu 75, 114 et 103 contigs pour Me34V (398 819 634 bp, N50 = 21,1 Mb), Ci846 (412 045 876 ​​bp, N50 = 21,0 Mb) et Yugu18 (409 028 184 bp, N50 = 20,6 Mo), respectivement. Pour les 107 autres accessions, nous avons séquencé à l'aide d'Illumina NovaSeq 6000 à > 40 × données à lecture courte (sauf Zhaogu1 avec 37,5 × données) pour chaque accession. Nous avons examiné la taille du génome et l'hétérozygotie à l'aide de Jellyfish (v2.3.0)54 et GenomeScope (v2.0)55. Sur la base de l'hétérozygotie du génome examinée, nous avons généré> 50 × et> 80 × données à lecture longue pour les accessions à faible hétérozygotie (<0, 3%) et à forte hétérozygotie (≥ 0, 3%) par les plates-formes Pacbio Sequel II, respectivement (tableau supplémentaire 5). Nous avons ensuite assemblé de novo ces génomes de Setaria à l'aide des pipelines CANU24 et HERA25. L'auto-alignement des séquences de contigs du génome entier a été réalisé en utilisant les paramètres par défaut de BWA-MEM (v0.7.12-r1039)42, et les séquences hétérozygotes ont été filtrées avec Redundans (avec -t 10, -identity 0,55, -overlap 0,80, -- noscaffolding et -nogapclosing) et Purge Haplotigs (avec les paramètres par défaut). Les chevauchements entre les séquences de contig ont été fusionnés à l'aide des résultats de l'auto-alignement BWA-MEM.

Les données NGS ont été cartographiées sur le génome à l'aide de BWA-MEM (v0.7.12-r1039)42, et les résultats ont été filtrés avec Q30 par SAMtools (v1.7)43. Enfin, la séquence du génome a été corrigée à l'aide de Pilon (v1.22)56 sur la base d'alignements filtrés. Trois cycles de correction du génome ont été effectués par Pilon. Enfin, les contigs ont été alignés sur le génome de référence pour construire des pseudo-chromosomes en utilisant Mummer (v4.0)57 avec les paramètres '-mum -mincluster = 1000'.

Nous avons évalué l'exhaustivité de la région génique des assemblages à l'aide de BUSCO (v5.2.0)58 avec 1 440 gènes embryophytes. Pour évaluer l'exhaustivité de l'assemblage des régions intergéniques, nous avons utilisé le LAI en utilisant LTR_retriever (v2.9.0)59. Nous avons également évalué l'exhaustivité du génome en cartographiant des lectures courtes Illumina de haute qualité à l'assemblage correspondant à l'aide de BWA (v0.7.12-r1039)42 avec des paramètres par défaut. L'évaluation de l'exhaustivité, de la qualité et des fausses duplications basée sur K-mer a été réalisée par Merqury (v1.3)60.

Une combinaison de méthodes ab initio et basées sur l'homologie a été utilisée pour annoter les répétitions dans les génomes assemblés. Tout d'abord, nous avons construit une bibliothèque de répétition ab initio en utilisant LTR_FINDER (v1.05)61 et RepeatModeler (v4.0.6)62 avec les paramètres par défaut. La bibliothèque de répétitions prédites a été alignée avec la base de données des répéteurs PGSB63 pour attribuer les répétitions dans des familles distinctes. Ensuite, Repbase (v20.11) a été utilisé pour effectuer une annotation basée sur l'homologie à l'aide de RepeatMasker (v1.0.10)64. Enfin, les séquences répétées qui se chevauchent et qui appartiennent à la même classe de répétition ont été combinées. Pour les répétitions qui se chevauchent appartenant à différentes classes de répétitions, les régions qui se chevauchent ont été divisées. De plus, Tandem Repeats Finder65 a été utilisé pour annoter les répétitions en tandem.

Nous avons utilisé les données du transcriptome de plantes entières de trois accessions représentatives (sauvage, Me34V ; landrace, Ci846 ; et cultivar moderne, Yugu18). Les données d'ARN-seq de chaque accession ont été assemblées séparément à l'aide de Trinity (v2.8.5)66 avec des paramètres par défaut. Les transcrits assemblés de Me34V, Ci846 et Yugu18 ont été utilisés pour l'annotation des cultivars sauvages, landrace et modernes, respectivement. Chaque génome a été annoté pour obtenir des modèles de gènes à l'aide de la base de données de protéines UniProt SwissProt (v2020_01)67 et MAKER (v3.01.03)68. Ces gènes ont été utilisés pour former Augustus (v3.2.3)69 et SNAP (v2006-07-28)70, et les ensembles de formation résultants ont été utilisés pour l'annotation des génomes correspondants. Des transcrits assemblés ont été utilisés comme preuve EST, et des séquences protéiques de riz (MSU v7)71, Arabidopsis thaliana (TAIR10)72, maïs (B73 RefGen_v4)73, sorgho (v3.1.1)74, millet des oiseaux (v2.2)5, 18, la sétaire verte (v2.1)16 et la base de données UniProt SwissProt (release-2017_01) ont été utilisées comme preuves protéiques. À l'aide de modèles entraînés par SNAP et Augustus, le deuxième cycle d'annotation de gènes a été effectué pour tous les génomes masqués à répétition, et les gènes avec AED <0,4 ont été conservés. L'annotation fonctionnelle des gènes prédits a été réalisée à l'aide d'InterProScan 5.0 (réf. 75) pour attribuer les termes Gene Ontology (GO) et Kyoto Encyclopedia of Genes and Genomes (KEGG). Sur la base des résultats de l'annotation fonctionnelle, les gènes liés à TE ont été filtrés.

Nous avons aligné le CDS de tous les gènes annotés sur les 108 génomes du millet des oiseaux cultivé et sauvage (W1) à l'aide de GMAP (v2015-09-21)76. Si un gène était aligné avec une couverture et une identité > 99 %, il était considéré comme présent dans le génome correspondant. Nous avons effectué une analyse pan-génome basée sur une approche de clustering de Markov77. Des comparaisons tous contre tous ont été effectuées à l'aide du diamant (v0.9.25)78 avec un seuil de valeur E de 1 × 10−5. Par la suite, tous les gènes appariés ont été regroupés à l'aide d'OrthoFinder (v2.3.12)77. Sur la base de leur fréquence, nous avons classé les gènes dans les quatre catégories suivantes : core (ceux présents chez les 111 individus), soft core (ceux présents dans > 90 % des échantillons mais pas tous ; 100 à 110 individus), dispensable (ceux présents dans plus d'un mais moins de 90 % ; 2 à 99 individus) et privé (présent dans une seule accession).

Nous avons utilisé le pipeline SyRI79 pour l'identification des variations structurelles (insertion, suppression, translocation et inversion) dans les 112 génomes. Nous avons d'abord aligné chaque génome assemblé sur le génome de référence Yugu1 à l'aide de Minimap2 (v2.21-r1071)80. Les résultats d'alignement bruts ont ensuite été utilisés pour les appels de variation à l'aide du logiciel SyRI (v1.2)79 avec des paramètres par défaut. Nous avons ensuite filtré les SV avec une taille de variante supérieure à 50 bp. À partir des résultats filtrés, les insertions et les suppressions ont été traitées comme des PAV. Nous avons utilisé la boîte à outils vg (v1.28.0)46 pour la construction du génome basée sur les graphes. Tout d'abord, nous avons identifié de grands PAV et des inversions avec MUMmer (v4.0)57. Ensuite, les PAV ainsi que les inversions détectées par SyRI ont été intégrés dans le génome de référence linéaire Yugu1 à l'aide de la boîte à outils vg46.

Nous avons utilisé trois stratégies différentes, la diversité nucléotidique, FST et XPCLR, pour identifier les balayages sélectifs basés sur des marqueurs SNP de haute qualité (MAF ≥ 0,05 et manquant <0,1). Pour la diversité des nucléotides et l'analyse FST, nous avons utilisé VCFtools (v0.1.17)81 avec un glissement de 20 kb et une taille de pas de 2 kb. Nous avons effectué une analyse XPCLR à l'aide du programme XPCLR (https://github.com/hardingnj/xpclr).

Nous avons effectué GWAS pour 226 phénotypes dans 680 accessions en utilisant des marqueurs SV et SNP de haute qualité (MAF ≥ 0,05 et manquant <0,1) en utilisant le programme Mixed-Model Association eXpedited (EMMAx, v20120210) avec les dix premiers PCA comme matrice d'effets aléatoires. Un nombre effectif de fabricants indépendants (SNP et SV) a été estimé à 640 288, et nous avons défini le seuil de signification par la signification à l'échelle du génome corrigée de Bonferroni (α = 0, 01).

Pour l'identification des gènes candidats, nous avons utilisé les stratégies suivantes : premièrement, nous avons regroupé tous les SNP/SV associés (P ≤ 7,81 × 10−8, seuil de signification à l'échelle du génome corrigé de Bonferroni (α = 0,01)) de chaque phénotype dans un groupe si la distance entre les SNP/SV et les principaux SNP/SV est ≤ 50 kb et le LD R2 ≥ 0,3. Les SNP/SV groupés ont été définis comme des loci associés et représentés par les principaux SNP/SV. Deuxièmement, nous avons sélectionné des gènes candidats dans un intervalle de ± 50 kb des principaux SNP / SV si leur gène homologue était fonctionnellement lié aux phénotypes correspondants dans le riz ou le maïs.

Tout d'abord, nous avons effectué une analyse de sélection des caractéristiques de trois panels de marqueurs différents (panel SNP, 2 711 024 SNP ; panel SV, 44 869 SV ; et panel SNPSV, 2 711 024 SNP plus 44 869 SV) pour chacun des 226 ensembles de données phénotypiques en utilisant indépendamment le CropGBM (v1. 1.2)82 logiciel pour estimer le gain de caractéristique (FG)/effet marqueur de chaque SNP et SV via l'analyse du gain d'information. Deuxièmement, des marqueurs hautement efficaces ont été identifiés si leur réduction de FG (ROF = 1 - FGmax/FGi, où FGmax représente la valeur FG la plus élevée des marqueurs, et FGi représente la valeur FG du ième marqueur) était inférieure à 0,99. Ensuite, pour chaque trait, nous avons regroupé les marqueurs dans les six panels suivants : le panel SNPcg contenait des fabricants de SNP très efficaces sélectionnés avec un ROF ≤ 0,99 ; Le panel SNPcg_gwas était l'ensemble des fabricants de SNP hautement efficaces sélectionnés avec un ROF ≤ 0, 99 et des marqueurs SNP significativement associés de GWAS (P ≤ 7, 81 × 10−8); Le panel SVcg contenait des fabricants de SV très efficaces sélectionnés avec un ROF ≤ 0,99 ; Le panel SVcg_gwas était l'ensemble de l'union des fabricants de SV hautement efficaces sélectionnés avec un ROF ≤ 0,99 et des marqueurs SV substantiellement associés de GWAS (P ≤ 7,81 × 10−8) ; Le panel SNPSVcg contenait des fabricants de SNP et SV hautement efficaces sélectionnés avec un ROF ≤ 0,99 ; et le panel SNPSVcg_gwas était l'ensemble des fabricants de SNP et de SV hautement efficaces sélectionnés avec un ROF ≤ 0, 99 et des marqueurs SV substantiellement associés de GWAS ( P ≤ 7, 81 × 10 - 8, seuil de signification à l'échelle du génome corrigé par Bonferroni (α = 0, 01)).

La précision prédictive des modèles a été évaluée pour chaque panel de marqueurs et les phénotypes correspondants à l'aide de la corrélation de Pearson entre les phénotypes observés et les GEBV présumés. Nous avons divisé au hasard l'ensemble de données en 580 et 100 lignes pour validation. Les 580 lignées ont été utilisées comme ensembles d'apprentissage pour estimer les effets des marqueurs, qui ont ensuite été utilisés pour prédire les GEBV pour les 100 lignées restantes ; cela a été répliqué 100 fois pour chaque ensemble de données.

Nous avons utilisé 63 ensembles de données (7 traits liés au rendement et 17 traits liés à la qualité du grain dans différents environnements) pour la prédiction du potentiel de reproduction. Le panel de marqueurs avec la précision de prédiction la plus élevée pour le phénotype correspondant a été sélectionné. Nous avons ensuite simulé 1,04 million de combinaisons d'haplotypes en utilisant les 20 meilleurs marqueurs hautement efficaces des accessions avec les GEBV les plus élevés. Le pourcentage d'amélioration de chaque phénotype a été calculé par \(\frac{{\rm{GEBV}}\max {\rm{\_}}{\mathrm{haplotype}}-{\rm{GEBV}}\max {\ rm{\_}}{\mathrm{cultivé}}}{{\rm{GEBV}}\max {\rm{\_}}{\mathrm{cultivé}}}\times 100 \%\), où GEBVmax_haplotype représente le GEBV le plus élevé des haplotypes simulés, et GEBVmax_cultivated désigne le GEBV le plus élevé du millet des oiseaux cultivé.

Pour générer des constructions de surexpression, une séquence codante de pleine longueur de SiGW3 a été amplifiée à partir de l'accession de sétaire verte 'A10' et clonée dans pCAMBIA1305 sous le contrôle du promoteur de l'ubiquitine (UBI). Les amorces OE-GW3-F et OE-GW3-R ont été utilisées (tableau supplémentaire 17). Le vecteur SiGW3-OE a été transformé dans la variété Ci846 de mil des oiseaux par transformation médiée par Agrobacterium tumefaciens à l'aide de la souche EHA105. Trois lignées de surexpression transgéniques indépendantes de SiGW3 ont été identifiées et autofécondées à la génération de T3. L'expression des lignées de surexpression transgéniques a été vérifiée davantage par qRT-PCR à l'aide des amorces répertoriées dans le tableau supplémentaire 17. L'expérience qRT-PCR a été menée comme décrit précédemment20. Environ 200 graines de WT et trois lignées transgéniques indépendantes ont été sélectionnées au hasard, photographiées et mesurées par l'instrument de mesure de graines Wseen SC-G.

Pour valider l'effet du SV de 366 pb dans le promoteur de SiGW3 sur l'expression génique, nous avons utilisé un test d'expression transitoire à double LUC à l'aide de feuilles de Nicotiana benthamiana. Le gène rapporteur de la luciférase de Renilla (REN) piloté par le promoteur minimal 35S a été utilisé comme contrôle interne, et la luciférase de luciole (LUC) pilotée par le promoteur d'insertion cible de 366 pb et le promoteur de délétion cible de 366 pb a été amplifiée à partir de l'espèce sauvage Setaria ' A10' et le cultivar 'Yugu1', respectivement. Les amorces utilisées pour amplifier le SV dans les séquences promotrices de SiGW3 sont répertoriées dans le tableau supplémentaire 17. Trois vecteurs construits ont ensuite été transformés en Agrobacterium GV3101 et co-infiltrés dans des feuilles de N. benthamiana âgé de 4 semaines. Les signaux de la luciférase ont été imagés à l'aide du Tanon 5200 et mesurés à l'aide du kit Dual-Luciferase Reporter Assay System (E1910) (Promega) et du Varioskan LUX (Thermo Fisher Scientific). Chaque mesure a été réalisée avec cinq répétitions biologiques. Tous les réactifs utilisés dans cette étude sont répertoriés dans le tableau supplémentaire 18.

Les informations de localisation géographique des sites de collecte de toutes les variétés et phénotypes de cette étude sont marquées sur la carte à l'aide du package ggplot2 (réf. 83) dans les logiciels R (v4.1.0) et QGIS (v3.16)84. Les données source de la carte d'élévation sont collectées auprès du Centre national de données scientifiques du système terrestre, Infrastructure nationale des sciences et technologies de Chine (http://www.geodata.cn/data/datadetails.html?dataguid=78789&docid=4850).

De plus amples informations sur la conception de la recherche sont disponibles dans le résumé des rapports sur le portefeuille Nature lié à cet article.

Toutes les données de séquençage à lecture longue et trois fichiers Cmap Bionano ont été déposés dans la base de données du National Center for Biotechnology Information sous le code d'accession BioProject PRJNA675302. Les 110 génomes assemblés et les annotations ont été déposés sur https://www.zenodo.org/record/7367881. 1 004 données de reséquençage NGS générées ont été déposées dans la base de données NCBI sous le code d'accession BioProject PRJNA841774 et PRJNA842100. D'autres données de séquençage du génome entier de 294 mil vulpin et 594 sétaire verte ont été téléchargées à partir du NCBI (BioProject PRJNA636263, PRJNA560514 et PRJNA265547). Les phénotypes utilisés dans les études GWAS et GS ont été déposés sur https://doi.org/10.5281/zenodo.7755340. Les données sources sont fournies avec ce document.

Tous les codes associés à ce projet sont disponibles sur Github (https://github.com/qiangh06/Setaria-pan-genome) et Zenodo (https://doi.org/10.5281/zenodo.7743007)85.

Yang, X. et al. Utilisation précoce du mil dans le nord de la Chine. Proc. Natl Acad. Sci. États-Unis 109, 3726–3730 (2012).

Article CAS PubMed PubMed Central Google Scholar

Lovell, JT et al. Mécanismes génomiques de l'adaptation au climat chez le panic raide polyploïde à bioénergie. Nature 590, 438–444 (2021).

Article CAS PubMed PubMed Central Google Scholar

Peng, R. & Zhang, B. Millet sétaire : un nouveau modèle pour les plantes C4. Tendances Plant Sci. 26, 199-201 (2020).

Article PubMed Google Scholar

Hu, H., Mauro-Herrera, M. & Doust, AN Domestication et amélioration de l'herbe modèle C4, Setaria. Devant. Usine Sci. 9, 719 (2018).

Article PubMed PubMed Central Google Scholar

Bennetzen, JL et al. Séquence du génome de référence de la plante modèle Setaria. Nat. Biotechnol. 30, 555-561 (2012).

Article CAS PubMed Google Scholar

Purugganan, MD & Jackson, SA Faire progresser la génomique des cultures du laboratoire au champ. Nat. Genet. 53, 595–601 (2021).

Article CAS PubMed Google Scholar

Qin, P. et al. L'analyse pangénomique de 33 accessions de riz génétiquement diverses révèle des variations génomiques cachées. Cellule 184, 3542–3558 (2021).

Article CAS PubMed Google Scholar

Zhao, Q. et al. L'analyse pan-génomique met en évidence l'étendue de la variation génomique du riz cultivé et sauvage. Nat. Genet. 50, 278-284 (2018).

Article CAS PubMed Google Scholar

Liu, Y. et al. Pan-génome du soja sauvage et cultivé. Cellule 182, 162-176 (2020).

Article CAS PubMed Google Scholar

Walkowiak, S. et al. Plusieurs génomes de blé révèlent une variation mondiale dans la sélection moderne. Nature 588, 277-283 (2020).

Article CAS PubMed PubMed Central Google Scholar

Jayakodi, M. et al. Le pan-génome de l'orge révèle l'héritage caché de la sélection par mutation. Nature 588, 284-289 (2020).

Article CAS PubMed PubMed Central Google Scholar

Zhou, Y. et al. Le pangénome graphique capture l'héritabilité manquante et permet la sélection de tomates. Nature 606, 527–534 (2022).

Article CAS PubMed PubMed Central Google Scholar

Tang, D. et al. Évolution du génome et diversité des pommes de terre sauvages et cultivées. Nature 606, 535–541 (2022).

Article CAS PubMed PubMed Central Google Scholar

Lye, ZN & Purugganan, MD Variation du nombre de copies dans la domestication. Tendances Plant Sci. 24, 352–365 (2019).

Article CAS PubMed Google Scholar

Zhang, G. et al. La séquence du génome du millet des oiseaux (Setaria italica) donne un aperçu de l'évolution des graminées et du potentiel des biocarburants. Nat. Biotechnol. 30, 549–554 (2012).

Article CAS PubMed Google Scholar

Mamidi, S. et al. Une ressource génomique pour le mil vert Setaria viridis permet de découvrir des loci à valeur agronomique. Nat. Biotechnol. 38, 1203-1210 (2020).

Article CAS PubMed PubMed Central Google Scholar

Thielen, PM et al. Génome de référence pour le hautement transformable Setaria viridis ME034V. G3 (Bethesda). 10, 3467–3478 (2020).

Article CAS PubMed PubMed Central Google Scholar

Yang, Z. et al. Un mini millet des oiseaux avec un cycle de vie semblable à celui d'Arabidopsis en tant que système modèle C4. Nat. Plantes 6, 1167–1178 (2020).

Article CAS PubMed Google Scholar

Jia, G. et al. Une carte haplotypique des variations génomiques et des études d'association à l'échelle du génome des traits agronomiques du millet des oiseaux (Setaria italica). Nat. Genet. 45, 957–961 (2013).

Article CAS PubMed Google Scholar

Zhao, M. et al. DROOPY LEAF1 contrôle l'architecture des feuilles en orchestrant la signalisation précoce des brassinostéroïdes. Proc. Natl Acad. Sci. États-Unis 117, 21766–21774 (2020).

Article CAS PubMed PubMed Central Google Scholar

Li, C. et al. Un reséquençage approfondi de 312 accessions révèle l'adaptation locale du millet des oiseaux. Théor. Appl Genet. 134, 1303-1317 (2021).

Article CAS PubMed Google Scholar

Pickrell, J. & Pritchard, J. Inférence des fractionnements et des mélanges de population à partir des données de fréquence des allèles à l'échelle du génome.PLoS Genet. 8, e1002967 (2012).

Article CAS PubMed PubMed Central Google Scholar

Maier, R. et al. Sur les limites de l'ajustement des modèles complexes de l'histoire de la population aux statistiques f. Elife 12, 85492 (2023).

Article Google Scholar

Koren, S. et al. Canu : assemblage à lecture longue évolutif et précis via une pondération k-mer adaptative et une séparation répétée. Génome Res. 27, 722–736 (2017).

Article CAS PubMed PubMed Central Google Scholar

Du, H. et al. Séquençage et assemblage de novo d'un génome de riz indica presque complet. Nat. Commun. 8, 15324 (2017).

Article PubMed PubMed Central Google Scholar

Purugganan, MD & Fuller, DQ Les données archéologiques révèlent des taux d'évolution lents au cours de la domestication des plantes. Évolution 65, 171-183 (2011).

Article PubMed Google Scholar

Fuller, DQ et al. Évolution convergente et parallélisme dans la domestication des plantes révélés par un dossier archéologique en expansion. Proc. Natl Acad. Sci. États-Unis 111, 6147–6152 (2014).

Article CAS PubMed PubMed Central Google Scholar

Liu, H. et al. L'insertion de transposons a entraîné la perte de l'éclatement naturel des graines lors de la domestication du millet des oiseaux. Mol. Biol. Évol. 39, msac078 (2022).

Article CAS PubMed PubMed Central Google Scholar

Fukunaga, K., Matsuyama, S., Abe, A., Kobayashi, M. & Ito, K. L'insertion d'un élément transposable dans le gène Less Shattering1 (SvLes1) n'est pas toujours impliquée dans la domestication du millet des oiseaux (Setaria italica). Genet Resour. Culture Évol. 68, 2923-2930 (2021).

Article CAS Google Scholar

Duan, P. et al. La variation naturelle du promoteur de GSE5 contribue à la diversité granulométrique du riz. Mol. Usine 10, 685–694 (2017).

Article CAS PubMed Google Scholar

Liu, J. et al. GW5 agit dans la voie de signalisation des brassinostéroïdes pour réguler la largeur et le poids des grains de riz. Nat. Plantes 3, 1–7 (2017).

Article Google Scholar

Tian, ​​Z. et al. Les diversités alléliques dans la biosynthèse de l'amidon de riz conduisent à un large éventail de qualités alimentaires et culinaires du riz. Proc. Natl Acad. Sci. États-Unis 106, 21760–21765 (2009).

Article CAS PubMed PubMed Central Google Scholar

Guzmán, C. & Alvarez, JB Protéines cireuses de blé : polymorphisme, caractérisation moléculaire et effets sur les propriétés de l'amidon. Théor. Appl Genet. 129, 1–16 (2016).

Article PubMed Google Scholar

Xue, W. et al. La variation naturelle de Ghd7 est un régulateur important de la date d'épiaison et du potentiel de rendement du riz. Nat. Genet. 40, 761–767 (2008).

Article CAS PubMed Google Scholar

Alonge, M. et al. Impacts majeurs de la variation structurelle généralisée sur l'expression des gènes et l'amélioration des cultures de tomate. Cellule 182, 145-161 (2020).

Article CAS PubMed PubMed Central Google Scholar

Yan, H., Haak, DC, Li, S., Huang, L. & Bombarely, A. Exploration de marqueurs transposables à base d'éléments pour identifier les variations alléliques sous-jacentes aux traits agronomiques du riz. Usine Commun. 3, 100270 (2022).

Article CAS PubMed Google Scholar

Della Coletta, R., Qiu, Y., Ou, S., Hufford, MB & Hirsch, CN Comment le pan-génome change la génomique et l'amélioration des cultures. Génome Biol. 22, 3 (2021).

Article PubMed PubMed Central Google Scholar

Glassberg, EC, Gao, Z., Harpak, A., Lan, X. & Pritchard, JK Preuve d'une faible contrainte sélective sur l'expression des gènes humains. Génétique 211, 757–772 (2019).

Article CAS PubMed Google Scholar

Kremling, KAG et al. Le dérèglement de l'expression est corrélé à la charge d'allèles rares et à la perte de fitness chez le maïs. Nature 555, 520-523 (2018).

Article CAS PubMed Google Scholar

Lye, Z., Choi, JY & Purugganan, MD Mutations délétères et charge allélique rare sur l'expression des gènes du riz. Mol. Biol. Évol. 39, msac193 (2022).

Article CAS PubMed PubMed Central Google Scholar

Chen, S., Zhou, Y., Chen, Y. & Gu, J. fastp : un préprocesseur FASTQ tout-en-un ultra-rapide. Bioinformatique 34, i884–i890 (2018).

Article PubMed PubMed Central Google Scholar

Li, H. & Durbin, R. Alignement de lecture rapide et précis avec la transformée de Burrows-Wheeler. Bioinformatique 25, 1754–1760 (2009).

Article CAS PubMed PubMed Central Google Scholar

Li, H. et al. Le format Sequence Alignment/Map et SAMtools. Bioinformatique 25, 2078-2079 (2009).

Article PubMed PubMed Central Google Scholar

McKenna, A. et al. La boîte à outils d'analyse du génome : un cadre MapReduce pour analyser les données de séquençage d'ADN de nouvelle génération. Génome Res. 20, 1297-1303 (2010).

Article CAS PubMed PubMed Central Google Scholar

Cingolani, P. et al. Un programme d'annotation et de prédiction des effets des polymorphismes mononucléotidiques, SnpEff. Voler 6, 80–92 (2012).

Article CAS PubMed PubMed Central Google Scholar

Hickey, G. et al. Génotypage de variantes structurelles dans les graphiques de pangénome à l'aide de la boîte à outils vg. Génome Biol. 21, 35 (2020).

Article PubMed PubMed Central Google Scholar

Kumar, S., Stecher, G., Peterson, D. & Tamura, K. MEGA-CC : noyau informatique du programme d'analyse de génétique évolutive moléculaire pour l'analyse de données automatisée et itérative. Bioinformatique 28, 2685–2686 (2012).

Article CAS PubMed PubMed Central Google Scholar

Lee, T.-H., Guo, H., Wang, X., Kim, C. & Paterson, AH SNPhylo : un pipeline pour construire un arbre phylogénétique à partir d'énormes données SNP. BMC Genomics 15, 162 (2014).

Article PubMed PubMed Central Google Scholar

Nguyen, L.-T., Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE : un algorithme stochastique rapide et efficace pour estimer les phylogénies à vraisemblance maximale. Mol. Biol. Évol. 32, 268-274 (2015).

Article CAS PubMed Google Scholar

Yu, G., Smith, DK, Zhu, H., Guan, Y. & Lam, TT-Y. ggtree : un package R pour la visualisation et l'annotation des arbres phylogénétiques avec leurs covariables et autres données associées. Méthodes Écol. Évol. 8, 28–36 (2017).

Article Google Scholar

Alexander, DH & Lange, K. Améliorations de l'algorithme ADMIXTURE pour l'estimation de l'ascendance individuelle. BMC Bioinformatics 12, 1–6 (2011).

Article Google Scholar

Purcell, S. et al. PLINK : un ensemble d'outils pour l'association du génome entier et les analyses de liaison basées sur la population. Suis. J. Hum. Genet. 81, 559-575 (2007).

Article CAS PubMed PubMed Central Google Scholar

Refoyo-Martínez, A. et al. Identification de locus sous sélection positive dans des histoires de population complexes. Génome Res. 29, 1506-1520 (2019).

Article PubMed PubMed Central Google Scholar

Marçais, G. & Kingsford, C. Une approche rapide et sans verrouillage pour un comptage parallèle efficace des occurrences de k-mers. Bioinformatique 27, 764–770 (2011).

Article PubMed PubMed Central Google Scholar

Vurture, GW et al. GenomeScope : profilage rapide du génome sans référence à partir de lectures courtes. Bioinformatique 33, 2202-2204 (2017).

Article CAS PubMed PubMed Central Google Scholar

Walker, BJ et al. Pilon : un outil intégré pour la détection complète des variants microbiens et l'amélioration de l'assemblage du génome. PLoS ONE 9, e112963 (2014).

Article PubMed PubMed Central Google Scholar

Marçais, G. et al. MUMmer4 : un système d'alignement du génome rapide et polyvalent. Calcul PLoS. Biol. 14, e1005944 (2018).

Article PubMed PubMed Central Google Scholar

Simão, FA, Waterhouse, RM, Ioannidis, P., Kriventseva, EV & Zdobnov, EM BUSCO : évaluation de l'assemblage du génome et de l'intégralité des annotations avec des orthologues à copie unique. Bioinformatique 31, 3210–3212 (2015).

Article PubMed Google Scholar

Ou, S., Chen, J. & Jiang, N. Évaluation de la qualité de l'assemblage du génome à l'aide de l'indice d'assemblage LTR (LAI). Nucleic Acids Res. 46, e126 (2018).

PubMed PubMed Central Google Scholar

Rhie, A., Walenz, BP, Koren, S. & Phillippy, AM Merqury : évaluation sans référence de la qualité, de l'exhaustivité et de la mise en phase des assemblages de génomes. Génome Biol. 21, 245 (2020).

Article CAS PubMed PubMed Central Google Scholar

Xu, Z. & Wang, H. LTR_FINDER : un outil efficace pour la prédiction des rétrotransposons LTR pleine longueur. Nucleic Acids Res. 35, W265–W268 (2007).

Article PubMed PubMed Central Google Scholar

Price, AL, Jones, NC et Pevzner, PA Identification de novo de familles répétées dans de grands génomes. Bioinformatique 21, i351–i358 (2005).

Article CAS PubMed Google Scholar

Nussbaumer, T. et al. MIPS PlantsDB : un cadre de base de données pour la recherche comparative sur le génome des plantes. Nucleic Acids Res. 41, D1144–D1151 (2013).

Article CAS PubMed Google Scholar

Chen, N. Utilisation de RepeatMasker pour identifier les éléments répétitifs dans les séquences génomiques. Courant. Protocole Bioinformatique https://doi.org/10.1002/0471250953.bi0410s05 (2004).

Benson, G. Tandem répète finder : un programme pour analyser les séquences d'ADN. Nucleic Acids Res. 27, 573–580 (1999).

Article CAS PubMed PubMed Central Google Scholar

Grabherr, MG et al. Assemblage du transcriptome complet à partir de données RNA-Seq sans génome de référence. Nat. Biotechnol. 29, 644–652 (2011).

Article CAS PubMed PubMed Central Google Scholar

Bairoch, A. & Apweiler, R. La base de données de séquences de protéines SWISS-PROT et son supplément TrEMBL en 2000. Nucleic Acids Res. 28, 45-48 (2000).

Article CAS PubMed PubMed Central Google Scholar

Cantarel, BL et al. MAKER : un pipeline d'annotation facile à utiliser conçu pour les génomes d'organismes modèles émergents. Génome Res. 18, 188–196 (2008).

Article CAS PubMed PubMed Central Google Scholar

Keller, O., Kollmar, M., Stanke, M. et Waack, S. Une nouvelle méthode de prédiction de gènes hybrides utilisant des alignements de séquences multiples de protéines. Bioinformatique 27, 757–763 (2011).

Article CAS PubMed Google Scholar

Korf, I. Découverte de gènes dans de nouveaux génomes. BMC Bioinformatique 5, 59 (2004).

Article PubMed PubMed Central Google Scholar

Ouyang, S. et al. La ressource d'annotation du génome du riz TIGR : améliorations et nouvelles fonctionnalités. Nucleic Acids Res. 35, D883–D887 (2007).

Article CAS PubMed Google Scholar

Lamesch, P. et al. The Arabidopsis Information Resource (TAIR) : amélioration de l'annotation des gènes et nouveaux outils. Nucleic Acids Res. 40, D1202–D1210 (2012).

Article CAS PubMed Google Scholar

Jiao, Y. et al. Amélioration du génome de référence du maïs avec des technologies à molécule unique. Nature 546, 524–527 (2017).

Article CAS PubMed PubMed Central Google Scholar

McCormick, RF et al. Le génome de référence de Sorghum bicolor : assemblage amélioré, annotations de gènes, atlas du transcriptome et signatures de l'organisation du génome. Plant J. 93, 338–354 (2018).

Article CAS PubMed Google Scholar

Jones, P. et al. InterProScan 5 : classification de la fonction des protéines à l'échelle du génome. Bioinformatique 30, 1236-1240 (2014).

Article CAS PubMed PubMed Central Google Scholar

Wu, TD & Watanabe, CK GMAP : un programme de cartographie et d'alignement génomique pour les séquences d'ARNm et d'EST. Bioinformatique 21, 1859–1875 (2005).

Article CAS PubMed Google Scholar

Emms, DM & Kelly, S. OrthoFinder : inférence d'orthologie phylogénétique pour la génomique comparative. Génome Biol. 20, 238 (2019).

Article PubMed PubMed Central Google Scholar

Buchfink, B., Xie, C. & Huson, DH Alignement rapide et sensible des protéines à l'aide de DIAMOND. Nat. Méthodes 12, 59–60 (2015).

Article CAS PubMed Google Scholar

Goel, M., Sun, H., Jiao, W.-B. & Schneeberger, K. SyRI : trouver des réarrangements génomiques et des différences de séquences locales à partir d'assemblages de génome entier. Génome Biol. 20, 277 (2019).

Article PubMed PubMed Central Google Scholar

Li, H. Minimap2 : alignement par paires pour les séquences de nucléotides. Bioinformatique 34, 3094–3100 (2018).

Article CAS PubMed PubMed Central Google Scholar

Danecek, P. et al. Le format d'appel de variante et VCFtools. Bioinformatique 27, 2156–2158 (2011).

Article CAS PubMed PubMed Central Google Scholar

Yan, J. et al. LightGBM : sélection accélérée de cultures conçues de manière génomique grâce à l'apprentissage d'ensemble. Génome Biol. 22, 271 (2021).

Article PubMed PubMed Central Google Scholar

Wickham, H. ggplot2 : graphiques élégants pour l'analyse de données (Springer-Verlag, 2016).

QGIS. Un système d'information géographique gratuit et open source. http://www.qgis.org (2022).

He, Q. Scripts et codes utilisés dans le pangénome de Setaria (1.0). Zenodo https://doi.org/10.5281/zenodo.7743007 (2023).

Télécharger les références

Les auteurs apprécient les commentaires critiques et les conseils de N. Stein (Institut Leibniz de génétique végétale et de recherche sur les plantes cultivées) et J. Jia (CAAS). Les auteurs remercient H. Lu (State Key Laboratory of Rice Biology, China National Rice Research Institute, CAAS) et J. Gao (Hainan Academy of Ocean and Fisheries Sciences) pour leur soutien technique utile sur l'assemblage du génome et la discussion du projet. Les auteurs remercient K. Xie (Guangzhou Genedenovo Biotechnology Co., Ltd.) pour ses commentaires utiles sur les études d'inférence démographique. Nous remercions L. Yin (ICS Bioinformatics Group) pour son soutien informatique. Ce travail a été soutenu par des subventions du Programme national de recherche et de développement clés de Chine (2021YFF1000100), du Programme national de R&D clé de Chine (2019YFD1000700/2019YFD1000701 et 2018YFD1000700), de la Fondation nationale des sciences naturelles de Chine (31871692 et 31871630), de la Chine Système de recherche agricole (CARS-06-13.5), le programme d'innovation en sciences et technologies agricoles de l'Académie chinoise des sciences agricoles, le programme de recherche prioritaire stratégique de l'Académie chinoise des sciences (subvention XDPB16), le programme de recherche sur le génome des plantes de la US National Science Foundation (IOS -1546218 et 2204374) et la Zegar Family Foundation et le NYU Abu Dhabi Research Institute.

Ces auteurs ont contribué à parts égales : Qiang He, Sha Tang, Hui Zhi, Jinfeng Chen.

Institut des sciences des cultures, Académie chinoise des sciences agricoles, Pékin, Chine

Qiang He, Sha Tang, Hui Zhi, Jun Zhang, Hongkai Liang, Hui Zhang, Lihe Xing, Wei Zhang, Hailong Wang, Hongpo Wu, Liwei Wang, Ping Yang, Guanqing Jia et Xianmin Diao

State Key Laboratory of Integrated Management of Pest Insects and Rodents, Institute of Zoology, Chinese Academy of Sciences, Beijing, Chine

Jinfeng Chen

Centre de génomique et de biologie des systèmes, Université de New York, New York City, NY, États-Unis

Ornob Alam et Michael Purugganan

Succursale de Shenzhen, Laboratoire du Guangdong de l'agriculture moderne de Lingnan, Laboratoire d'analyse du génome du Ministère de l'agriculture et des affaires rurales, Institut de génomique agricole de Shenzhen, Académie chinoise des sciences agricoles, Shenzhen, Chine

Hongbo Li

Collège d'agronomie, Université Northwest A & F, Yangling, Chine

Hui Zhang et Baili Feng

Collège des sciences de la vie, Université agricole du Shanxi, Taigu, Chine

Xukai Li

State Key Laboratory of Plant Physiology and Biochemistry & National Maize Improvement Center, Department of Plant Genetic and Breeding, China Agricultural University, Pékin, Chine

Junpeng Shi et Jinsheng Lai

École des sciences de la vie, Institut des sciences de la vie et du développement vert, Université du Hebei, Baoding, Chine

Huilong Du

Académie des sciences agricoles d'Anyang, Anyang, Chine

Lu Xing, Hongshan Yan, Zhongqiang Song et Jinrong Liu

Centre de recherche sur les ressources génétiques agricoles, Université agricole du Shanxi, Taiyuan, Chine

Haigang Wang, Xiang Tian et Zhijun Qiao

Institut de recherche sur les cultures céréalières, Académie des sciences agricoles du Xinjiang, Urumqi, Chine

Guojun Feng

Institut des cultures de haute latitude, Université agricole du Shanxi, Datong, Chine

Ruifeng Guo, Wenjuan Zhu et Yuemei Ren

Institute of Dry-Land Farming, Hebei Academy of Agricultural and Forestry Sciences, Hengshui, Chine

Hongbo Hao et Mingzhe Li

Institut de recherche sur le millet, Université agricole du Shanxi, Changzhi, Chine

Aiying Zhang et Erhu Guo

Sous-académie Qiqihar de l'Académie des sciences agricoles du Heilongjiang, Qiqihar, Chine

Feng Yan et Qingquan Li

Académie des sciences agricoles et forestières de Cangzhou, Cangzhou, Chine

Yanli Liu et Bohong Tian

Académie des sciences agricoles de Dingxi, Dingxi, Chine

Xiaoqin Zhao et Ruiling Jia

Laboratoire clé de Pékin sur les ressources génétiques agricoles et la biotechnologie, Académie des sciences agricoles et forestières de Pékin, Pékin, Chine

Jiewei Zhang et Jianhua Wei

Centre de génomique et de biologie des systèmes, New York University Abu Dhabi, Abu Dhabi, Émirats arabes unis

Michel Purugganan

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

XD a conçu et conçu la recherche. QH, ST, H. Zhi., H. Liang., HW et GJ ont participé à la préparation du matériel. QH, HD, JS et JL ont contribué à l'assemblage et à l'annotation du génome. QH a effectué l'appel de variantes génomiques, l'identification sélective des signatures, l'étude d'association à l'échelle du génome et la prédiction génomique. QH, XL, JZ, OA et MP ont effectué une analyse génétique des populations. QH et JZ ont effectué l'expression des gènes, l'enrichissement fonctionnel et le nettoyage des données phénotypiques. ST a contribué à la cartographie QTL de sh1. ST, H. Zhang., LX, WZ et HW ont contribué à la caractérisation fonctionnelle du SiGW3. ST, HZ, LW, LX, HY, ZS, JL, HW, XT, ZQ, GF, RG, WZ, YR, HH, ML, AZ, EG, FY, QL, YL, BT, XZ, RJ, BF, JZ et JW ont planté les matériaux et collecté des données phénotypiques à différents endroits géographiques. QH, MP et XD ont supervisé l'intégration et la conceptualisation des résultats et rédigé le manuscrit. ST, H. Li., PY, JC et GJ ont révisé le manuscrit. Tous les auteurs ont lu, édité et approuvé le manuscrit.

Correspondance à Guanqing Jia, Michael Purugganan ou Xianmin Diao.

Les auteurs ne déclarent aucun intérêt concurrent.

Nature Genetics remercie Aureliano Bombarely, Chuyu Ye et les autres examinateurs anonymes pour leur contribution à l'examen par les pairs de ce travail. Les rapports des pairs examinateurs sont disponibles.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Notes supplémentaires 1 à 5 et figures supplémentaires. 1–17.

Tableaux supplémentaires 1 à 18.

Données source.

Données sources pour les figures 2a, b, d.

Données sources pour les figures 3a, b.

Données sources pour la figure 4c.

Données sources pour la Fig. 5h–k,m.

Données sources pour les Fig. 6b,f,g.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

He, Q., Tang, S., Zhi, H. et al. Une variation du génome et du pan-génome basée sur des graphes de la plante modèle Setaria. Nat Genet (2023). https://doi.org/10.1038/s41588-023-01423-w

Télécharger la citation

Reçu : 23 juillet 2022

Accepté : 08 mai 2023

Publié: 08 juin 2023

DOI : https://doi.org/10.1038/s41588-023-01423-w

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

PARTAGER