Informations

Quel pourcentage de la variance génétique est expliqué par les loci « n » les plus importants ?

Quel pourcentage de la variance génétique est expliqué par les loci « n » les plus importants ?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Introduction

Les modèles standard en génétique des populations examinent l'évolution de quelques loci qui ont un impact sur la fitness. La variance de la fitness est déterminée par la variance génétique et la variance environnementale (et la covariance entre l'environnement et la génétique). Dans cette question Je ne m'intéresse qu'à la variance génétique et à quel pourcentage de la variance génétique totale (additive ou non) de la condition physique 'n' loci expliquer.

Question

En général, dans les populations naturelles, quel pourcentage de la variance génétique totale est expliqué par le 'n'- les lieux les plus importants ?

Ici, par "locus les plus importants", j'entends des loci dont la variance explique une grande partie de la variance génétique totale.

Autrement dit, les sous-questions sont du genre :

  • quelle part de la variance de fitness le locus le plus important explique-t-il ?
  • Quelle part de la variance de la fitness les 3 loci les plus importants expliquent-ils ?
  • Quelle part de la variance de la fitness les 100 loci les plus importants expliquent-ils ?

Bien sûr, la réponse dépend de la population considérée. Les facteurs qui pourraient influencer les réponses sont par exemple

  • espèce
  • taille de la population
  • stabilité de l'environnement

En plus de cette question, j'apprécie également quelques idées sur la manière dont différents facteurs sont susceptibles d'influencer la réponse.


Du point de vue statistique, cette question est assez vague. Il faudrait une définition mathématique du terme "variance génétique".

Dans un extrême, si la "variance génétique" signifie simplement les variations catégorielles de nucléotides (c'est-à-dire ACTG) dans les génomes d'intérêt regroupés, alors la distribution de la "variance génétique" totale par rapport à la variation des loci est uniforme et ne dépend que de la taille de le lieu.

Dans un autre extrême (parmi de nombreuses dimensions d'extrêmes), si la "variance génétique" ne se manifeste que par l'"aptitude" immédiate de l'organisme et n'a que deux valeurs : la vie et la mort (à la naissance), alors tous les "gènes essentiels" sont " les plus importants" loci. Si vous êtes intéressé par les n loci les plus importants où n > le nombre de gènes essentiels, vous devez d'abord examiner les interactions génétiques binaires dans la base de données telles que BioGrid où deux gènes non essentiels « interagiraient » et modifieraient l'organisme forme physique (dans la vie et la mort).

Bien sûr, aucun des deux extrêmes n'est très intéressant en génétique ou en évolution des populations, mais une question statistique est mieux formulée en termes statistiques. J'essaierais également de trouver la définition mathématique de la "variance de la condition physique".

---ÉDITER---

Pour une étude semi-empirique/informatique, je pense que vous pourriez commencer par l'organisme le plus simple dont le génome est bien étudié.

  • Choisissez un organisme (par exemple une levure)
  • Supposons une héritabilité uniforme
  • Choisissez un phénotype/environnement mesurable spécifique (par exemple, la capacité de se développer sur un sucre spécifique x)
  • Scannez chaque gène dans le génome de la levure et voyez son impact quantitatif sur la croissance (Ils sont documentés dans diverses bases de données)
  • Ignorer l'interaction génétique
  • (Ou scannez chaque paire de gènes/triplet/…/n-cluster pour voir son impact sur la croissance sur x)
  • Essayez de modéliser votre distribution empirique. Il n'est valable que pour ce phénotype/environnement spécifique
  • Définissez votre « variance génétique TOTALE de la condition physique » de manière significative et rigoureuse. « Additivité » serait une hypothèse très drastique.

Ma conjecture en tant que non-généticien est que, comme le suggérait rg255, pour chaque phénotype en fonction de l'environnement, la distribution suivrait une loi de puissance. Ils n'auraient pas les propriétés qui vous permettraient d'utiliser le théorème central limite pour "les additionner". Mais pour un phénotype spécifique, votre fonction de distribution cumulative empirique (cdf) répondrait à votre question.


Race et génétique

Des chercheurs ont étudié la relation entre race et génétique dans le cadre des efforts visant à comprendre comment la biologie peut ou non contribuer à la catégorisation raciale humaine.

De nombreuses constructions de race sont associées à des traits phénotypiques et à une ascendance géographique, et des chercheurs comme Carl Linnaeus ont proposé des modèles scientifiques pour l'organisation de la race depuis au moins le XVIIIe siècle. Suite à la découverte de la génétique mendélienne et à la cartographie du génome humain, les questions sur la biologie de la race ont souvent été formulées en termes de génétique. [1] Un large éventail de méthodes de recherche ont été utilisées pour examiner les modèles de variation humaine et leurs relations avec l'ascendance et les groupes raciaux, y compris des études de traits individuels, [2] des études de grandes populations et des groupes génétiques, [3] et des études de facteurs de risque génétiques de la maladie. [4]

La recherche sur la race et la génétique a également été critiquée comme étant issue ou contribuant au racisme scientifique. Certains ont interprété les études génétiques des traits et des populations comme des preuves justifiant les inégalités sociales associées à la race, [5] malgré le fait que les modèles de variation humaine se soient avérés principalement clinaux, le code génétique humain étant approximativement identique à 99,9 % entre les individus, et sans frontières claires entre les groupes. [6] [1]

Il y a un débat scientifique en cours concernant la définition et la signification de la race dans la recherche génétique et biomédicale. Certains chercheurs soutiennent que la race peut agir comme un « proxy » pour l'ascendance génétique parce que les individus de la même catégorie raciale peuvent partager une ascendance commune, mais d'autres préconisent de faire la distinction entre la biologie et les facteurs sociaux, politiques, culturels et économiques qui contribuent à la race. comme le plus communément compris. [7]


Contenu

L'un des exemples les plus connus d'une variation du nombre de copies courtes est la répétition trinucléotidique des paires de bases CAG dans le gène de la huntingtine responsable du trouble neurologique de la maladie de Huntington. [6] Pour ce cas particulier, une fois que le trinucléotide CAG se répète plus de 36 fois dans une expansion de répétition de trinucléotide, la maladie de Huntington se développera probablement chez l'individu et sera probablement héritée par sa progéniture. [6] Le nombre de répétitions du trinucléotide CAG est corrélé avec l'âge d'apparition de la maladie de Huntington. [7] On pense souvent que ces types de répétitions courtes sont dus à des erreurs dans l'activité de la polymérase pendant la réplication, y compris le glissement de la polymérase, le changement de modèle et le changement de fourche qui seront discutés en détail plus tard. La courte taille de répétition de ces variations du nombre de copies se prête à des erreurs dans la polymérase car ces régions répétées sont sujettes à une mauvaise reconnaissance par la polymérase et les régions répliquées peuvent être répliquées à nouveau, conduisant à des copies supplémentaires de la répétition. [8] De plus, si ces répétitions trinucléotidiques sont dans le même cadre de lecture dans la partie codante d'un gène, cela peut conduire à une longue chaîne du même acide aminé, créant éventuellement des agrégats de protéines dans la cellule, [7] et si ces courtes répétitions tombent dans la partie non codante du gène, cela peut affecter l'expression et la régulation du gène. D'autre part, un nombre variable de répétitions de gènes entiers est moins communément identifié dans le génome. Un exemple de répétition de gène entier est le gène de l'alpha-amylase 1 (AMY1) qui code pour l'alpha-amylase qui a une variation significative du nombre de copies entre différentes populations avec différents régimes alimentaires. [9] Bien que le mécanisme spécifique qui permet au gène AMY1 d'augmenter ou de diminuer son nombre de copies soit toujours un sujet de débat, certaines hypothèses suggèrent que la jonction d'extrémité non homologue ou la jonction d'extrémité médiée par la microhomologie est probablement responsable de l'ensemble de ces gènes. répète. [9] Les répétitions de gènes entiers ont des effets immédiats sur l'expression de ce gène particulier, et le fait que la variation du nombre de copies du gène AMY1 ait été liée au régime alimentaire est un exemple remarquable d'adaptation évolutive humaine récente. [9] Bien que ce soient les groupes généraux dans lesquels les variations du nombre de copies sont regroupées, le nombre exact de paires de bases que les variations du nombre de copies affectent dépend des loci spécifiques d'intérêt. Actuellement, en utilisant les données de toutes les variations du nombre de copies signalées, la taille moyenne de la variante du nombre de copies est d'environ 118 Ko et la médiane est d'environ 18 Ko. [dix]

En termes d'architecture structurelle des variations du nombre de copies, la recherche a suggéré et défini des régions de points chauds dans le génome où les variations du nombre de copies sont quatre fois plus enrichies. [2] Ces régions de hotspot ont été définies comme des régions contenant de longues répétitions similaires à 90 à 100 %, connues sous le nom de duplications segmentaires en tandem ou entrecoupées et, plus important encore, ces régions de hotspot ont un taux accru de réarrangement chromosomique. [2] On pensait que ces réarrangements chromosomiques à grande échelle donnaient lieu à des variations normales et à des maladies génétiques, y compris des variations du nombre de copies. [1] De plus, ces points chauds de variation du nombre de copies sont cohérents dans de nombreuses populations de différents continents, ce qui implique que ces points chauds ont été soit acquis indépendamment par toutes les populations et transmis de génération en génération, soit ils ont été acquis au début de l'évolution humaine avant la division des populations, ce dernier semble plus probable. [1] Enfin, les biais spatiaux de l'emplacement où les variations du nombre de copies sont le plus densément distribuées ne semblent pas se produire dans le génome. [1] Bien qu'il ait été initialement détecté par hybridation fluorescente in situ et analyse microsatellite que les répétitions du nombre de copies sont localisées dans des régions hautement répétitives telles que les télomères, les centromères et l'hétérochromatine, [11] des études récentes à l'échelle du génome ont conclu autrement. [2] À savoir, les régions subtélomériques et les régions péricentromériques sont l'endroit où se trouvent la plupart des points chauds de réarrangement chromosomique, et il n'y a pas d'augmentation considérable des variations du nombre de copies dans cette région. [2] En outre, ces régions de points chauds de réarrangement chromosomique n'ont pas de nombre de gènes diminué, ce qui implique encore une fois qu'il y a un biais spatial minimal de l'emplacement génomique des variations du nombre de copies. [2]

On pensait initialement que la variation du nombre de copies occupait une partie extrêmement petite et négligeable du génome grâce aux observations cytogénétiques. [12] Les variations du nombre de copies n'étaient généralement associées qu'à de petites répétitions en tandem ou à des troubles génétiques spécifiques, [13] par conséquent, les variations du nombre de copies n'étaient initialement examinées qu'en termes de loci spécifiques. Cependant, les développements technologiques ont conduit à un nombre croissant de moyens très précis d'identifier et d'étudier les variations du nombre de copies. Les variations du nombre de copies ont été étudiées à l'origine par des techniques cytogénétiques, qui sont des techniques permettant d'observer la structure physique du chromosome. [12] L'une de ces techniques est l'hybridation fluorescente in situ (FISH) qui consiste à insérer des sondes fluorescentes qui nécessitent un degré élevé de complémentarité dans le génome pour la liaison. [10] L'hybridation génomique comparative a également été couramment utilisée pour détecter les variations du nombre de copies par visualisation au fluorophore, puis en comparant la longueur des chromosomes. [10] Un inconvénient majeur de ces premières techniques est que la résolution génomique est relativement faible et que seules de grandes répétitions telles que des répétitions de gènes entiers peuvent être détectées.

Les progrès récents des technologies génomiques ont donné naissance à de nombreuses méthodes importantes qui sont d'une résolution génomique extrêmement élevée et, par conséquent, un nombre croissant de variations du nombre de copies du génome ont été signalées. [10] Initialement, ces avancées impliquaient l'utilisation d'une matrice de chromosomes artificiels bactériens (BAC) avec environ 1 mégabase d'intervalles dans l'ensemble du gène, [14] Les BAC peuvent également détecter les variations du nombre de copies dans les points chauds de réarrangement permettant la détection de 119 nouvelles variations du nombre de copies. [2] Le séquençage génomique à haut débit a révolutionné le domaine de la génomique humaine et des études in silico ont été réalisées pour détecter les variations du nombre de copies dans le génome. [2] Les séquences de référence ont été comparées à d'autres séquences d'intérêt utilisant des fosmides en contrôlant strictement les clones de fosmides à 40 kb. [15] Les lectures de fin de séquençage fourniraient des informations adéquates pour aligner la séquence de référence sur la séquence d'intérêt, et tout défaut d'alignement est facilement perceptible, ainsi conclu comme étant des variations du nombre de copies dans cette région du clone. [15] Ce type de technique de détection offre une haute résolution génomique et une localisation précise de la répétition dans le génome, et il peut également détecter d'autres types de variations structurelles telles que les inversions. [dix]

De plus, une autre façon de détecter la variation du nombre de copies consiste à utiliser des polymorphismes nucléotidiques simples (SNP). [10] En raison de l'abondance des données SNP humaines, la direction de détection de la variation du nombre de copies a changé pour utiliser ces SNP. [16] S'appuyant sur le fait que la recombinaison humaine est relativement rare et que de nombreux événements de recombinaison se produisent dans des régions spécifiques du génome connues sous le nom de points chauds de recombinaison, le déséquilibre de liaison peut être utilisé pour identifier les variations du nombre de copies. [16] Des efforts ont été faits pour associer les variations du nombre de copies à des SNP haplotypes spécifiques en analysant le déséquilibre de liaison, en utilisant ces associations, on est capable de reconnaître les variations du nombre de copies dans le génome en utilisant les SNP comme marqueurs. Les techniques de séquençage de nouvelle génération, y compris le séquençage de lecture courte et longue, sont de nos jours de plus en plus utilisées et ont commencé à remplacer les techniques basées sur les matrices pour détecter les variations du nombre de copies. [17] [18] Contrairement aux techniques basées sur le réseau, les méthodes de détection basées sur le séquençage identifient facilement d'autres classes de variation structurelle telles que les inversions et les translocations.

Il existe deux principaux types de mécanismes moléculaires pour la formation de variations du nombre de copies : à base homologue et à base non homologue. [5] Bien que de nombreuses suggestions aient été avancées, la plupart de ces théories sont des spéculations et des conjectures. Il n'y a aucune preuve concluante qui corrèle une variation spécifique du nombre de copies à un mécanisme spécifique.

L'une des théories les mieux reconnues qui conduit à des variations du nombre de copies ainsi qu'à des suppressions et des inversions est la recombinaison homologue non allélique. [19] Au cours de la recombinaison méiotique, les chromosomes homologues s'apparient et forment deux cassures bicaténaires terminées menant aux jonctions Holliday. Cependant, dans le mécanisme aberrant, lors de la formation des jonctions Holliday, les cassures double brin sont désalignées et le croisement atterrit dans des positions non alléliques sur le même chromosome. Lorsque la jonction Holliday est résolue, l'événement de croisement inégal permet le transfert de matériel génétique entre les deux chromosomes homologues et, par conséquent, une partie de l'ADN sur les deux homologues est répétée. [19] Puisque les régions répétées ne se séparent plus indépendamment, la région dupliquée du chromosome est héritée. Un autre type de mécanisme basé sur la recombinaison homologue qui peut entraîner une variation du nombre de copies est connu sous le nom de réplication induite par rupture. [20] Lorsqu'une rupture double brin se produit dans le génome de manière inattendue, la cellule active des voies qui interviennent dans la réparation de la rupture. [20] Les erreurs de réparation de la cassure, similaires à la recombinaison homologue non allélique, peuvent entraîner une augmentation du nombre de copies d'une région particulière du génome. Lors de la réparation d'une cassure double brin, l'extrémité cassée peut envahir son chromosome homologue au lieu de rejoindre le brin d'origine. [20] Comme dans le mécanisme de recombinaison homologue non allélique, une copie supplémentaire d'une région particulière est transférée à un autre chromosome, conduisant à un événement de duplication. De plus, les protéines de cohésine aident au système de réparation des cassures double brin en serrant les deux extrémités à proximité immédiate, ce qui empêche l'invasion interchromosomique des extrémités. [21] Si, pour une raison quelconque, telle que l'activation de l'ARN ribosomique, l'activité de la cohésine est affectée, il peut y avoir une augmentation locale des erreurs de réparation des cassures double brin. [21]

L'autre classe de mécanismes possibles qui sont supposés conduire à des variations du nombre de copies n'est pas basée sur l'homologie. Pour faire la distinction entre cela et les mécanismes à base homologue, il faut comprendre le concept d'homologie. Appariement homologue de chromosomes impliqués à l'aide de brins d'ADN très similaires les uns aux autres (

97%) et ces brins doivent être plus longs qu'une certaine longueur pour éviter des appariements courts mais très similaires. [5] Les appariements non homologues, en revanche, ne reposent que sur quelques paires de bases de similitude entre deux brins, il est donc possible que du matériel génétique soit échangé ou dupliqué dans le processus de réparations double brin non homologues. [5]

Un type de mécanisme à base non homologue est le mécanisme de jonction d'extrémité non homologue ou de jonction d'extrémité de micro-homologie. [22] Ces mécanismes sont également impliqués dans la réparation des cassures double brin mais ne nécessitent aucune homologie ou micro-homologie limitée. [5] Lorsque ces brins sont réparés, il y a souvent de petites suppressions ou insertions ajoutées dans le brin réparé. Il est possible que des rétrotransposons soient insérés dans le génome par ce système de réparation. [22] Si les rétrotransposons sont insérés dans une position non allélique sur le chromosome, la recombinaison méiotique peut entraîner la recombinaison de l'insertion dans le même brin qu'une copie déjà existante de la même région. Un autre mécanisme est le cycle rupture-fusion-pont qui implique des chromatides sœurs qui ont toutes deux perdu leur région télomérique en raison de ruptures double brin. [23] Il est proposé que ces chromatides sœurs fusionnent pour former un chromosome dicentrique, puis se séparent en deux noyaux différents. [23] Parce que le fait de séparer le chromosome dicentrique provoque une rupture double brin, les régions terminales peuvent fusionner avec d'autres ruptures double brin et répéter le cycle. [23] La fusion de deux chromatides sœurs peut provoquer une duplication inversée et lorsque ces événements se répètent tout au long du cycle, la région inversée se répète, entraînant une augmentation du nombre de copies. [23] Le dernier mécanisme qui peut conduire à des variations du nombre de copies est le glissement de la polymérase, également connu sous le nom de changement de modèle. [24] Au cours de la réplication normale de l'ADN, la polymérase sur le brin retardé est nécessaire pour débloquer et rebloquer la région de réplication en continu. [24] Lorsque des répétitions à petite échelle dans la séquence d'ADN existent déjà, la polymérase peut être « confuse » lorsqu'elle se re-clampe pour continuer la réplication et au lieu de se fixer sur les bonnes paires de bases, elle peut déplacer quelques paires de bases et répliquer une partie de la région répétée à nouveau. [24] Notez que bien que cela ait été observé expérimentalement et soit un mécanisme largement accepté, les interactions moléculaires qui ont conduit à cette erreur restent inconnues.De plus, parce que ce type de mécanisme nécessite que la polymérase saute autour du brin d'ADN et qu'il est peu probable que la polymérase puisse se re-clamper à un autre locus à quelques kilobases d'intervalle, c'est donc plus applicable aux répétitions courtes telles que les répétitions dinucléotidiques ou trinucléotidiques. [25]

L'amylase est une enzyme de la salive qui est responsable de la décomposition de l'amidon en monosaccharides, et un type d'amylase est codé par le gène de l'alpha-amylase (AMY1). [9] Le locus AMY1, ainsi que l'enzyme amylase, est l'un des gènes les plus étudiés et séquencés du génome humain. Ses homologues se trouvent également chez d'autres primates et il est donc probable que le gène AMY1 du primate soit ancestral du gène humain AMY1 et qu'il ait été adapté au début de l'évolution des primates. [9] AMY1 est l'un des gènes les mieux étudiés qui a une large gamme de nombres variables de copies dans différentes populations humaines. [9] Le gène AMY1 est également l'un des rares gènes étudiés à présenter des preuves convaincantes corrélant sa fonction protéique à son nombre de copies. [9] Le nombre de copies est connu pour altérer la transcription ainsi que les niveaux de traduction d'un gène particulier, cependant la recherche a montré que la relation entre les niveaux de protéines et le nombre de copies est variable. [26] Dans les gènes AMY1 des Américains d'origine européenne, on constate que la concentration d'amylase salivaire est étroitement corrélée au nombre de copies du gène AMY1. [9] En conséquence, il a été émis l'hypothèse que le nombre de copies du gène AMY1 est étroitement corrélé à sa fonction protéique, qui consiste à digérer l'amidon. [9]

Le nombre de copies du gène AMY1 s'est avéré être corrélé à différents niveaux d'amidon dans les régimes alimentaires de différentes populations. [9] 8 Les populations de différents continents ont été classées en régimes riches en amidon et en régimes pauvres en amidon et leur nombre de copies du gène AMY1 a été visualisé à l'aide de FISH haute résolution et de qPCR. [9] Il a été constaté que les populations à régime riche en amidon, qui comprennent les populations japonaises, Hadza et européennes américaines, avaient un nombre moyen de copies AMY1 significativement plus élevé (2 fois plus élevé) que les populations à faible régime en amidon, notamment Biaka, Mbuti, Datog, Populations de yakoutes. [9] Il a été émis l'hypothèse que les niveaux d'amidon dans le régime alimentaire normal, le substrat d'AMY1, peuvent affecter directement le nombre de copies du gène AMY1. [9] Depuis qu'il a été conclu que le nombre de copies d'AMY1 est directement corrélé avec l'amylase salivaire, [9] plus il y a d'amidon présent dans l'alimentation quotidienne de la population, plus il est favorable sur le plan de l'évolution d'avoir plusieurs copies du gène AMY1. Le gène AMY1 a été le premier gène à fournir des preuves solides de l'évolution au niveau de la génétique moléculaire. [26] De plus, en utilisant l'hybridation génomique comparative, les variations du nombre de copies des génomes entiers de la population japonaise ont été comparées à celles de la population Yakut. [9] Il a été constaté que la variation du nombre de copies du gène AMY1 était significativement différente de la variation du nombre de copies dans d'autres gènes ou régions du génome, suggérant que le gène AMY1 était soumis à une forte pression sélective qui avait peu ou pas d'influence sur les autres variations de numéro de copie. [9] Enfin, la variabilité de la longueur de 783 microsatellites entre les deux populations a été comparée à la variabilité du nombre de copies du gène AMY1. Il a été constaté que la plage du nombre de copies du gène AMY1 était plus large que celle de plus de 97 % des microsatellites examinés. [9] Cela implique que la sélection naturelle a joué un rôle considérable dans la formation du nombre moyen de gènes AMY1 dans ces deux populations. [9] Cependant, comme seules 6 populations ont été étudiées, il est important de considérer la possibilité qu'il puisse y avoir d'autres facteurs dans leur régime alimentaire ou leur culture qui ont influencé le nombre de copies AMY1 autres que l'amidon.

Bien qu'il ne soit pas clair quand le nombre de copies du gène AMY1 a commencé à augmenter, il est connu et confirmé que le gène AMY1 existait chez les premiers primates. Les chimpanzés, les parents évolutifs les plus proches des humains, se sont avérés avoir 2 copies diploïdes du gène AMY1 dont la longueur est identique au gène AMY1 humain, [9] qui est significativement inférieur à celui des humains. D'autre part, les bonobos, également un proche parent de l'homme moderne, se sont avérés avoir plus de 2 copies diploïdes du gène AMY1. [9] Néanmoins, les gènes bonobos AMY1 ont été séquencés et analysés, et il a été constaté que les séquences codantes des gènes AMY1 perturbaient, ce qui peut conduire à la production d'amylase salivaire dysfonctionnelle. [9] On peut déduire des résultats que l'augmentation du nombre de copies des bonobos AMY1 n'est probablement pas corrélée à la quantité d'amidon dans leur alimentation. Il a en outre été émis l'hypothèse que l'augmentation du nombre de copies avait commencé récemment au début de l'évolution des hominidés, car aucun des grands singes n'avait plus de deux copies du gène AMY1 qui produisait une protéine fonctionnelle. [9] En outre, il a été supposé que l'augmentation du nombre de copies AMY1 a commencé il y a environ 20 000 ans lorsque les humains sont passés d'un mode de vie de chasseurs-cueilleurs à des sociétés agricoles, ce qui était également lorsque les humains comptaient fortement sur les légumes-racines riches en amidon. [9] Cette hypothèse, bien que logique, manque de preuves expérimentales en raison des difficultés à recueillir des informations sur l'évolution des régimes alimentaires humains, en particulier sur les légumes-racines riches en amidon car ils ne peuvent pas être directement observés ou testés. Des percées récentes dans le séquençage de l'ADN ont permis aux chercheurs de séquencer de l'ADN plus ancien comme celui des Néandertaliens avec un certain degré de précision. Peut-être que le séquençage de l'ADN de Néandertal peut fournir un marqueur temporel du moment où le nombre de copies du gène AMY1 a augmenté et offrir un aperçu du régime alimentaire humain et de l'évolution des gènes.

Actuellement, on ne sait pas quel mécanisme a donné lieu à la duplication initiale du gène de l'amylase, et cela peut impliquer que l'insertion des séquences rétrovirales était due à une jonction d'extrémités non homologues, qui a provoqué la duplication du gène AMY1. [27] Cependant, il n'y a actuellement aucune preuve pour soutenir cette théorie et donc cette hypothèse reste conjecture. L'origine récente du gène AMY1 multicopie implique qu'en fonction de l'environnement, le nombre de copies du gène AMY1 peut augmenter et diminuer très rapidement par rapport aux gènes qui n'interagissent pas aussi directement avec l'environnement. [26] Le gène AMY1 est un excellent exemple de la façon dont le dosage des gènes affecte la survie d'un organisme dans un environnement donné. Les multiples copies du gène AMY1 donnent à ceux qui dépendent davantage d'un régime riche en amidon un avantage évolutif, par conséquent le nombre élevé de copies du gène persiste dans la population. [26]

Parmi les neurones du cerveau humain, les variations somatiques du nombre de copies sont fréquentes. [28] Les variations du nombre de copies montrent une grande variabilité (9 à 100 % des neurones du cerveau dans différentes études). La plupart des altérations ont une taille comprise entre 2 et 10 Mo avec des suppressions dépassant de loin les amplifications. [28] Les variations du nombre de copies semblent être plus élevées dans les cellules du cerveau que dans les autres types de cellules. [28] Une source probable de variation du nombre de copies est la réparation incorrecte des dommages à l'ADN.

La duplication génomique et la triplication du gène semblent être une cause rare de la maladie de Parkinson, bien que plus fréquente que les mutations ponctuelles. [29]

Les variantes du nombre de copies dans le gène RCL1 sont associées à une gamme de phénotypes neuropsychiatriques chez les enfants. [30]

Récemment, il y avait eu des discussions reliant les variations du nombre de copies aux familles de gènes. Les familles de gènes sont définies comme un ensemble de gènes apparentés qui remplissent des fonctions similaires mais présentent des différences temporelles ou spatiales mineures et ces gènes proviennent probablement d'un gène ancestral. [26] La principale raison pour laquelle les variations du nombre de copies sont liées aux familles de gènes est qu'il existe une possibilité que les gènes d'une famille proviennent d'un gène ancestral qui a été dupliqué en différentes copies. [26] Les mutations s'accumulent au fil du temps dans les gènes et avec la sélection naturelle agissant sur les gènes, certaines mutations conduisent à des avantages environnementaux permettant à ces gènes d'être hérités et finalement des familles de gènes claires sont séparées. Un exemple d'une famille de gènes qui peut avoir été créée en raison de variations du nombre de copies est la famille de gènes de la globine. La famille des gènes de la globine est un réseau élaboré de gènes constitué de gènes d'alpha et de bêta-globine, y compris des gènes exprimés à la fois dans les embryons et les adultes ainsi que des pseudogènes. [31] Ces gènes de la globine de la famille de la globine sont tous bien conservés et ne diffèrent que par une petite partie du gène, indiquant qu'ils sont dérivés d'un gène ancestral commun, peut-être en raison de la duplication du gène de la globine initial. [31]

La recherche a montré que les variations du nombre de copies sont significativement plus courantes dans les gènes qui codent pour des protéines qui interagissent directement avec l'environnement que dans les protéines impliquées dans les activités cellulaires de base. [32] Il a été suggéré que l'effet de dosage du gène accompagnant la variation du nombre de copies peut entraîner des effets néfastes si les fonctions cellulaires essentielles sont perturbées, par conséquent les protéines impliquées dans les voies cellulaires sont soumises à une forte sélection purificatrice. [32] De plus, les protéines fonctionnent ensemble et interagissent avec les protéines d'autres voies, il est donc important de visualiser les effets de la sélection naturelle sur les voies biomoléculaires plutôt que sur les protéines individuelles. Cela étant dit, il a été constaté que les protéines à la périphérie de la voie sont enrichies en variations de nombre de copies alors que les protéines au centre des voies sont appauvries en variations de nombre de copies. [33] Il a été expliqué que les protéines à la périphérie de la voie interagissent avec moins de protéines et qu'un changement de dosage de protéines affecté par un changement du nombre de copies peut donc avoir un effet moindre sur le résultat global de la voie cellulaire. [33]

Au cours des dernières années, les chercheurs semblent avoir déplacé leur attention de la détection, de la localisation et du séquençage des variations du nombre de copies vers des analyses approfondies du rôle de ces variations du nombre de copies dans le génome humain et dans la nature en général. Des preuves sont nécessaires pour valider davantage la relation entre les variations du nombre de copies et les familles de gènes, ainsi que le rôle que joue la sélection naturelle dans la formation de ces relations et de ces changements. En outre, les chercheurs visent également à élucider les mécanismes moléculaires impliqués dans les variations du nombre de copies, car cela peut révéler des informations essentielles concernant les variations structurelles en général. En prenant du recul, le domaine de la variation structurelle du génome humain semble être un sujet de recherche en pleine croissance. Non seulement ces données de recherche peuvent fournir des preuves supplémentaires de l'évolution et de la sélection naturelle, mais elles peuvent également être utilisées pour développer des traitements pour un large éventail de maladies génétiques.


L'étiologie génétique de l'obésité

L'obésité est généralement classée en sous-groupes en fonction de l'étiologie suspectée : obésité monogénique (obésité extrêmement sévère en l'absence de retard de développement), obésité syndromique (sujets cliniquement obèses se distinguant en outre par un retard mental, des caractéristiques dysmorphiques et des anomalies du développement spécifiques à un organe), et polygénique ou l'obésité courante, qui affecte la population générale (mais peut avoir des risques associés pour la santé, tels qu'un risque accru de MCV).

Le premier défaut monogénique causant une obésité monogénique a été décrit en 1997, et à ce jour, il existe environ 20 perturbations monogéniques qui entraînent une forme autosomique d'obésité [1]. Fait intéressant, toutes ces mutations positionnent la voie leptine/mélanocortine dans le système nerveux central (SNC) comme critique dans la régulation de l'homéostasie énergétique du corps entier [13], et l'obésité dans ces cas semble être le résultat d'un appétit accru et d'une diminution de la satiété. . L'obésité syndromique résulte d'anomalies génétiques discrètes ou d'anomalies chromosomiques au niveau de plusieurs gènes, et peut être autosomique ou liée à l'X. L'une des formes les plus connues d'obésité syndromique est le syndrome de Prader-Willi (PWS), qui est causé par une anomalie chromosomique d'une région imprimée sur le chromosome 15q11-q12. Le SPW est caractérisé par une obésité précoce résultant d'une hyperphagie causée par un dysfonctionnement du SNC [14]. Étant donné que les formes d'obésité monogénique et syndromique ont tendance à avoir une pénétrance élevée, la détection de variantes génétiques causales a été assez fructueuse [15]. Le reste de cette revue se concentrera sur la génétique des formes courantes d'obésité.

Il convient de noter que le sexe et l'âge sont associés à des différences d'obésité et de composition corporelle. Par exemple, les femmes ont tendance à stocker plus de graisse par voie sous-cutanée que dans le tissu adipeux viscéral, donc à IMC identique, les femmes auront tendance à avoir plus de graisse corporelle que les hommes [7]. La distribution des graisses suit deux schémas généraux : androïde (dépôt adipeux dans la région abdominale) et gynoïde (dépôt adipeux autour des hanches). La distribution des graisses androïdes est un facteur de risque établi et indépendant de MCV et de diabète de type 2 [16], alors que le schéma gynoïde est considéré comme protecteur ou inversement corrélé [16]. Pour tenir compte de ces différences dans la distribution des graisses, le rapport taille-hanches (WHR = tour de taille [WC]/tour de hanches) est couramment utilisé et l'IMC et le WHR sont corrélés (r 2


Discussion

Cette étude de la masse maigre avec environ un demi-million de participants, le plus grand échantillon utilisé pour un GWAS de masse maigre jusqu'à présent, a été un succès. Plus de 1000 variants ont été identifiés à l'échelle de signification à l'échelle du génome (p < 5 × 10 –9 ). En particulier, plus de la moitié de ces variants ont atteint une signification à l'échelle du génome (p < 5 × 10 –9 ) dans un sexe et ont été répliqués dans l'autre sexe (p < 5 × 10 –5 ). Dans l'ensemble, ces variantes >1000 représentaient

15 % de la variation de l'ALM, encore une fois, la plus grande fraction explicable de variation de la masse maigre signalée jusqu'à présent dans un GWAS. Notre découverte de variantes >1000 est attendue pour un trait complexe avec une héritabilité élevée, en particulier en considérant un autre trait avec une héritabilité comparable, la taille, pour laquelle

700 variantes ont été détectées 30 . Fait intéressant, la majorité des loci détectés dans un précédent GWAS 12 plus petit et une méta-analyse 14 de la masse maigre étaient également significatifs dans la présente étude, fournissant des preuves solides de réplication.

L'incapacité de GWAS à détecter et à reproduire des variantes génétiques spécifiques pour des traits complexes humains, en contradiction avec l'héritabilité élevée établie d'un trait, par ex. hauteur, a été formellement reconnu comme le problème d'héritabilité manquant il y a une décennie 31,32. Une explication est le modèle dit polygénique, où des centaines, voire des milliers de variantes SNP courantes agissent de manière additive, chacune ne contribuant qu'à une infime fraction de la variation du trait. Les résultats génétiques de la présente étude appuient cette explication de la masse maigre. Le total de 1059 variantes conditionnellement indépendantes expliquait 15,5% de la variance phénotypique, correspondant à une variance moyenne par variante aussi faible que 0,015 %. Il convient de noter que la présente étude avait une puissance de près de 100 % pour détecter les variantes avec une taille d'effet supérieure à 0,015% et l'a effectivement fait. D'un autre côté, le pouvoir de détecter des variantes avec des tailles d'effet aussi faibles que 0,001 % était presque nul. Par conséquent, il pourrait exister plus de variantes avec des tailles d'effet plus petites que celles identifiées dans la présente étude, soutenant davantage le modèle polygénique.

La pertinence fonctionnelle de nos variantes identifiées a été étayée par une analyse d'enrichissement de l'ensemble de gènes, où les termes GO, y compris GO:0001501 « développement du système squelettique », GO : 0061448 « développement du tissu conjonctif » et GO : 0051216 « développement du cartilage », figuraient parmi les gènes importants. ensembles. Plus précisément, les gènes communs impliqués dans ces termes étaient étroitement liés dans un réseau qui contenait les gènes de la voie TGF, les gènes de la voie BMP et les gènes de la famille SMAD, qui sont tous des gènes/voies importants du développement musculo-squelettique. Cette découverte est concordante avec la connaissance de la biologie du développement puisque les cellules des os, du cartilage, des muscles et de la graisse partagent le même progéniteur, les cellules souches mésenchymateuses, et la pléiotropie des muscles et des os est bien reconnue chez les humains 33 et les modèles animaux 34 .

Pour déclarer une association comme significative, nous avons exigé que le signal soit non seulement significatif au niveau GWS dans l'analyse combinée, mais également significatif au niveau 5 × 10 –5 pour chaque groupe de sexe. Ce niveau de signification était essentiellement équivalent à celui d'une conception en deux étapes, où la première étape impliquait une GWAS dans un groupe (par exemple le groupe masculin) et la deuxième étape impliquait la réplication des meilleurs résultats dans l'autre groupe (par exemple le groupe féminin). Comme un nombre maximal de 1000 loci indépendants a été supposé, nous aurions pu sélectionner les 1000 meilleurs hits de la première étape pour une réplication à la deuxième étape. En conséquence, un niveau de signification de 5 × 10 –5 (0,05/1000) était suffisamment prudent pour déclarer une réplication réussie. Dans notre analyse actuelle, le nombre de loci indépendants avec p < 5 × 10 –5 étaient 1988 et 1713 dans les groupes de femmes et d'hommes, respectivement, qui étaient presque le double du nombre présumé (m = 1000) de loci indépendants. Cela peut avoir gonflé le taux d'erreur de type I pour les variantes dont p les valeurs se situaient dans la plage de 5 × 10 –5 à 5 × 10 –9 (c'est-à-dire les variantes de niveau 3).

La présente étude présentait les points forts suivants. Premièrement, la grande taille de l'échantillon de plus de 400 000 participants est la plus grande utilisée pour une GWAS de masse maigre à ce jour, offrant une opportunité unique de découvrir des loci qui n'étaient pas détectés par les précédentes GWAS plus petites. Deuxièmement, au lieu d'analyser l'échantillon dans son ensemble, les deux sexes ont été analysés séparément, puis une méta-analyse a été effectuée. Cela a peut-être réduit la puissance statistique pour identifier de nouveaux loci, mais nous a permis de reproduire des résultats significatifs entre les sexes. Troisièmement, via une série d'analyses complètes en aval annotant les SNP identifiés, une compréhension approfondie a été obtenue pour le mécanisme génétique sous-jacent à l'ALM et son interaction avec d'autres traits et maladies complexes.

Certaines limites existaient dans la présente étude. Premièrement, la masse maigre a été mesurée par l'approche BIA, qui n'est pas aussi fiable que les normes de référence pour la quantification de la masse maigre, telles que l'imagerie par résonance magnétique et la tomodensitométrie, car ces dernières méthodes sont des mesures directes. Au lieu de mesurer directement la masse maigre, BIA calcule une estimation de la masse maigre basée sur la conductivité électrique. Par conséquent, il peut être influencé par l'état d'hydratation du sujet. De plus, l'équation de dérivation du BIA repose sur une population de référence calibrée, qui peut ne pas être bien validée à travers les populations. Deuxièmement, les découvertes génétiques pour la masse maigre seules sont insuffisantes pour caractériser la base génétique complète de la sarcopénie.En effet, il existe un consensus selon lequel la sarcopénie se définit non seulement par une faible masse maigre mais aussi, plus important encore, par une faible force musculaire et de mauvaises performances physiques 35 . Par conséquent, la présente étude n'a découvert le mécanisme génétique de la sarcopénie que du point de vue de la masse maigre, bien plus que suffisant pour commencer à comprendre la base génétique de la sarcopénie dans son ensemble. Troisièmement, l'activité physique est connue pour influencer la masse maigre 36, dont l'effet confusionnel n'a pas été contrôlé dans la présente étude.

En résumé, nous avons effectué un GWAS en utilisant environ un demi-million de participants pour la masse maigre. La variante (

15 %) de la masse maigre expliquée par les variantes identifiées représente un saut significatif dans l'explication de l'héritabilité cachée de ce trait complexe en utilisant l'approche GWAS. La valeur translationnelle de ces résultats réside dans l'importance de la masse maigre pour d'autres maladies complexes, telles que le diabète de type 2, car notre analyse de randomisation mendélienne a montré que l'ALM est un facteur de protection pour cette dernière. Dans l'ensemble, notre étude fournit un autre exemple dans lequel un GWAS avec une très grande taille d'échantillon délimite en fin de compte et de manière approfondie l'architecture génétique d'un trait humain complexe. Cela incarne la valeur des mégadonnées dans la recherche en génétique humaine.


Résumé

La sélection du traitement antihypertenseur en fonction de l'origine ethnique auto-définie est recommandée par certaines lignes directrices, mais pourrait être mieux guidée par le génotype individuel plutôt que par l'origine ethnique ou la race. Nous avons comparé la mesure dans laquelle la variation de la réponse de la pression artérielle à travers différentes ethnies peut être expliquée par des facteurs génétiques : ascendance génétiquement définie et variantes génétiques à des loci connus pour être associés à la pression artérielle. Nous avons analysé les données de 5 essais dans lesquels un génotypage avait été effectué (n = 4696) et dans lesquels les réponses au traitement aux -bloquants, aux inhibiteurs de l'enzyme de conversion de l'angiotensine, aux inhibiteurs des récepteurs de l'angiotensine, aux diurétiques thiazidiques ou de type thiazidique et aux inhibiteurs calciques étaient disponibles. L'ascendance génétiquement définie pour la proportion d'ascendance africaine a été calculée en utilisant la base de données de la population de 1000 génomes comme référence. Les différences de réponse au diurétique thiazidique hydrochlorothiazide, aux bêtabloquants aténolol et métoprolol, à l'inhibiteur de l'enzyme de conversion de l'angiotensine lisinopril et au candésartan, un antagoniste des récepteurs de l'angiotensine, étaient plus étroitement associées à l'ascendance génétiquement définie qu'à l'origine ethnique auto-définie chez les sujets mélangés. Un nombre relativement faible de variantes génétiques liées aux loci associés aux voies de signalisation des médicaments (KCNK3, SULT1C3, AMH, PDE3A, PLCE1, PRKAG2) avec une grande taille d'effet (-3,5 à +3,5 mm Hg de différence de réponse par allèle) et des fréquences alléliques différentes chez les individus noirs par rapport aux individus blancs expliquaient une grande partie de la différence de réponse au candésartan et à l'hydrochlorothiazide entre ces groupes. Ces résultats suggèrent qu'une approche de médecine de précision génomique peut être utilisée pour individualiser le traitement antihypertenseur au sein et entre les populations sans recourir à des substituts de structure génétique tels que l'ethnicité auto-définie.

Introduction

L'hypertension est la principale cause de mortalité dans le monde, avec une prévalence en augmentation dans les pays à revenu faible et intermédiaire, en particulier en Afrique, où, dans certains pays, plus de la moitié de la population adulte a besoin d'un traitement. 1 L'abaissement efficace de la pression artérielle (PA) et le contrôle de l'hypertension sont entravés par l'effet d'abaissement de la PA relativement modeste des médicaments de première intention et les différences de réponse entre les populations et entre les individus. Les médicaments qui inhibent le système rénine-angiotensine-aldostérone tels que les inhibiteurs de l'enzyme de conversion de l'angiotensine (ECA) et les inhibiteurs des récepteurs de l'angiotensine sont parmi les agents antihypertenseurs les plus utilisés dans le monde. Cependant, ils sont moins efficaces pour réduire la TA chez les Africains noirs que chez les Européens blancs, alors que la réponse aux inhibiteurs calciques qui agissent indépendamment du système rénine-angiotensine-aldostérone peut être similaire chez les individus noirs et blancs. 3 Pour cette raison, certaines lignes directrices suggèrent de sélectionner les médicaments en fonction de l'ethnicité auto-définie (SDE). 4-6 Cependant, si la réponse médicamenteuse est déterminée génétiquement, la SDE ne prédit pas nécessairement le génotype et la réponse médicamenteuse d'un individu, et son utilisation limitera le degré auquel le traitement peut être individualisé avec précision.

L'objectif de la présente étude était donc de déterminer si la différence interethnique en réponse aux médicaments antihypertenseurs est déterminée génétiquement plutôt qu'en raison de facteurs environnementaux/de mode de vie associés à l'ethnicité et de rechercher des variantes génétiques individuelles qui pourraient expliquer cette différence et donc être responsable de la variation interindividuelle de la réponse médicamenteuse. Nous avons d'abord examiné la relation entre la réponse aux antihypertenseurs et une ascendance génétiquement définie (GDA) par rapport à la SDE. Cela a confirmé une composante génétique probable de la variation interethnique et mixte de la réponse et a fourni un moyen d'ajuster la structure de la population dans une analyse ultérieure. Nous avons exploité la plus grande variation génétique susceptible de sous-tendre la réponse au médicament chez tous les individus de notre étude (par rapport à celle d'un seul groupe ethnique) pour rechercher des variantes génétiques individuelles associées à cette réponse. Plutôt que d'effectuer une étude d'association à l'échelle du génome, pour laquelle les tailles d'échantillon disponibles fourniraient une puissance insuffisante, nous avons recherché des associations avec des variantes de gènes à des loci déjà solidement associées à la PA, en pensant qu'elles incluraient des voies de réponse médicamenteuse dans lesquelles les tailles d'effet pour la réponse médicamenteuse pourraient être devrait être plus important que pour BP lui-même. Pour confirmer un effet des variantes génétiques sur la réponse au médicament (plutôt que d'agir comme un marqueur de la structure de la population), nous avons examiné leur association avec la réponse au médicament au sein des groupes ethniques et également lors de l'ajustement pour le GDA entre les groupes. Enfin, pour déterminer dans quelle mesure ces variantes pourraient expliquer les différences interethniques de réponse, nous avons calculé la taille de l'effet combiné à partir de la taille de l'effet par allèle et des fréquences alléliques dans les groupes ethniques individuels.

Méthodes

Des données et des méthodes d'analyse à utiliser par d'autres chercheurs peuvent être disponibles sous réserve d'accords de partage de données établis entre les institutions concernées (comme ce fut le cas dans la présente étude). Veuillez contacter l'auteur pour la correspondance pour plus de détails.

Cohortes d'essais cliniques

Nous avons analysé les données de 5 essais cliniques de traitement de l'hypertension réalisés dans des cohortes multiethniques aux États-Unis pour lesquels un génotypage avait été réalisé : les études PEAR et PEAR-2 (Pharmacogenomic Evaluation of Antihypertensive Responses), 7,8 les études GERA 1 et 2 (Genetic Epidemiology of Responses to Antihypertensives studies 1 and 2), 9,10 et l'étude GenHAT (Genetics of Hypertension Associated Treatments) 11 dans laquelle les réponses au traitement aux classes de médicaments comprenant les -bloquants (BB) aténolol et métoprolol, inhibiteur de l'ECA lisinopril, angiotensine l'inhibiteur des récepteurs candésartan, les diurétiques thiazidiques et thiazidiques hydrochlorthiazide et chlorthalidone, et l'amlodipine, un inhibiteur calcique, étaient disponibles. Les caractéristiques cliniques et les détails du traitement médicamenteux pour ces cohortes sont résumés dans le supplément de données en ligne uniquement. Un génotypage à l'échelle du génome a été effectué sur les participants à PEAR et PEAR-2 (Illumina Human Omni1-Quad BeadChip et Human Omni2.5S Beadchip) et GERA 1 et 2 (Affymetrix GeneChip Human Mapping 500 000 et 6.0 Array Sets). Les données de la puce Exome pour des variantes sélectionnées des gènes liés à l'hypertension et aux maladies cardiovasculaires étaient disponibles pour GenHAT (puce Illumina Human Exome).

Ascendance génétiquement définie

Les données génétiques ont été utilisées pour déterminer les scores GDA pour chaque participant. Chaque score GDA fournit les pourcentages d'ascendance, déduits des données génétiques d'un individu par rapport à des échantillons de populations indigènes distinctes. Nous avons utilisé le logiciel ADMIXTURE 12 pour estimer les fréquences alléliques des populations ancestrales à l'aide du modèle de génétique des populations de Pritchard-Stephens-Donnelly 13 et des données de référence de l'ensemble de données 1000 Genomes (phase 3). Le package LEAPFROG R 14 a ensuite été utilisé pour estimer les scores GDA au niveau individuel à partir de ces fréquences alléliques. Pour chaque individu, nous avons calculé la proportion d'ascendance africaine totale comme la somme des proportions d'ascendance kenyane et gambienne. De plus amples détails sont fournis dans le supplément de données en ligne uniquement.

Réponse de la PA

Le critère de jugement principal utilisé dans chaque étude était la variation de la PA systolique (ΔSBP) définie comme la PAS de référence (avant le traitement) moins la PAS finale pendant le traitement, donc une ΔSBP plus élevée représentait une réponse antihypertensive plus importante (chute de la PA). La réponse pendant le traitement a été mesurée après ≈ 4 semaines de traitement dans GERA 1 et 2, 6 semaines dans PEAR et PEAR-2 et 6 mois dans GenHAT. Les mesures de la PA dans PEAR et PEAR-2 étaient des PA à domicile obtenues en triple avec l'exactitude de la technique de mesure du patient vérifiée par des coordinateurs d'étude formés. Les mesures dans GERA 1 et 2 étaient des mesures de bureau prises en triple par les coordinateurs de l'étude, tout comme celles de GenHAT. Toutes les mesures ont été effectuées en position assise avec un appareil oscillométrique validé, à l'exception de celles de GenHAT, qui ont été obtenues par sphygmomanométrie au mercure. Étant donné que les conceptions des études différaient et que l'objet était d'évaluer la relation entre la réponse au médicament et l'origine ethnique (plutôt que d'établir une réponse par rapport au placebo ou à un autre médicament), chaque groupe recevant un médicament a été traité séparément en donnant des réponses à 7 médicaments individuels au total. de 9 associations médicament/étude : HCTZ dans GERA 1 et PEAR chlorthalidone dans PEAR-2 et GenHAT aténolol dans PEAR métoprolol dans PEAR-2 candésartan dans GERA 2 amlodipine et lisinopril dans GenHAT). Une composante de la réponse liée à la régression vers la moyenne était donc commune à toutes ces combinaisons et a été ajustée en incorporant la PAS de référence dans les modèles statistiques comme décrit ci-dessous.

Association de la réponse aux antihypertenseurs au SDE et au GDA

Pour chacune des 9 combinaisons de réponse médicament/BP, nous avons ajusté un modèle de régression linéaire (modèle de base) avec ΔSBP comme variable indépendante quantitative et SBP de base, le sexe (codé comme 0 pour les femmes, 1 pour les hommes), l'âge et la masse corporelle. indice (IMC) comme covariables. À ce modèle de référence, nous avons ensuite ajouté soit (1) SDE codé comme 0 pour le blanc et 1 pour le noir (référence + modèle SDE) ou (2) proportion GDA d'ascendance africaine (référence + modèle GDA). Nous avons utilisé des tests de rapport de vraisemblance pour évaluer la signification statistique de l'addition et avons considéré P<0,003 significatif après un ajustement de Bonferroni pour des tests multiples de 9 combinaisons étude/médicament pour 2 modèles.

En raison de la forte corrélation entre SDE et GDA, nous avons utilisé un cadre d'apprentissage automatique à réseau élastique (EN) (un modèle de régression modifié qui intègre la structure de corrélation des variables dans le calcul de la précision prédictive, empêchant les modèles de sur-ajuster) pour évaluer les données individuelles et combinées. valeur prédictive des variables SDE et GDA (ainsi que la PAS, l'âge, le sexe et l'IMC de base) en tant que prédicteurs de ΔSBP 15 chez tous les individus et également sur le sous-ensemble d'individus fortement mélangés (définis comme ceux ayant un score GDA compris entre 0,4 et 0,6). De plus amples détails sur le modèle EN sont fournis dans le supplément de données en ligne uniquement.

Association de la réponse BP aux variants génétiques à des loci BP connus

Pour déterminer si les différentes fréquences de variantes génétiques précédemment signalées associées à la PA pourraient expliquer tout ou partie de la variation ethnique de la réponse au médicament, nous avons examiné les associations de la réponse de la PA avec 163 polymorphismes nucléotidiques (SNP) validés précédemment publiés et identifiés dans l'ensemble du génome de la PA. étude d'association au moment de l'analyse. 16 Parce que nous n'avions pas de couverture pour tous les SNP BP dans GenHAT, nous avons exclu les données GenHAT de l'analyse. Nous avons également combiné les données pour les réponses à l'HCTZ des études GERA 1 et PEAR pour augmenter la puissance. Nous avons d'abord examiné les associations bivariées de la réponse au médicament (correction des comparaisons multiples) avec les SNP individuels de la PA pour déterminer ceux qui étaient solidement associés à la réponse au médicament dans les groupes ethniques (en appliquant une correction de Bonferroni pour le nombre de comparaisons). Nous avons ensuite examiné les associations au sein de chaque groupe ethnique et utilisé des modèles multivariés avec ajustement pour le SDE et le GDA (ainsi que la PAS, l'âge, le sexe et l'IMC de base) pour déterminer les effets indépendants des variantes génétiques sur la réponse de la PA. Les différences de fréquences alléliques entre les groupes ethniques ont été testées par le test du 2. Enfin, nous avons calculé la différence de réponse moyenne de la PA chez les sujets noirs par rapport aux sujets blancs prédite par les modèles multivariés en utilisant les fréquences alléliques des variantes génétiques observées dans les groupes noirs et blancs auto-définis et les coefficients β dans le modèle multivariable. Cela nous a permis d'estimer la proportion de la variation interethnique de la réponse médicamenteuse expliquée par les variantes génétiques identifiées ci-dessus.

Résultats

Caractéristiques des participants et GDA

Les caractéristiques des participants dans les bras de traitement des différentes études sont présentées dans le tableau 1. Les participants étaient principalement des hommes et des femmes noirs et blancs d'âge moyen (âge moyen pour chaque étude allant de 48 à 52 ans) avec une représentation à peu près égale d'hommes. et les femmes, sauf dans GenHAT où les participants étaient plus âgés (âge moyen 69 ans) et il y avait moins de femmes (37 %). La majorité des participants étaient en surpoids/obèses (IMC moyen allant de 29 à 31 kg.m − 2 dans l'ensemble des études).

Tableau 1. Caractéristiques des sujets et réponse tensionnelle systolique dans les essais multiethniques de médicaments antihypertenseurs

Les valeurs sont moyennes ± écart-type ou % de sujets. La variation de la pression artérielle systolique (ΔSBP) est définie comme la PAS initiale moins la PAS finale, ajustée en fonction de l'âge et du sexe. CI est pour la différence de moyennes. L'IMC indique l'indice de masse corporelle CTD, la chlortalidone GenHAT, la génétique des traitements associés à l'hypertension GERA, l'épidémiologie génétique des réponses aux antihypertenseurs HCTZ, hydrochlorthiazide et PEAR, l'évaluation pharmacogénomique des réponses antihypertensives.

Les ascendances génétiques les plus fréquemment détectées dans les différentes études étaient les blancs européens (blancs britanniques et ibériques et finlandais) et les noirs africains (gambiens et kényans) et une petite partie d'autres populations d'ascendance ont également été détectées (figure 1). Pour les participants qui se sont auto-identifiés comme blancs, la proportion moyenne d'ascendance européenne génétiquement définie dans chaque étude variait de 0,79 à 0,86. L'ascendance africaine moyenne pour chaque étude était inférieure à 0,08 chez les individus blancs auto-identifiés. Chez les participants qui se sont auto-identifiés comme noirs, les proportions d'ascendance africaine noire variaient de 0,67 à 0,71 selon les études, avec des proportions similaires d'ascendance kenyane et gambienne. Les participants noirs auto-identifiés ont montré un mélange génétique plus élevé que ceux auto-identifiés comme blancs, avec une proportion moyenne d'ascendance européenne (britannique, ibérique et finlandaise) allant de 0,21 à 0,28 selon les études (Figure 1).

Figure 1. Ascendance génétique des participants et relation de la réponse de la pression artérielle à l'ascendance génétique et aux polymorphismes nucléotidiques simples (SNP). UNE, Distribution des ascendances génétiques parmi les participants aux essais GERA 1 (Epidémiologie génétique des réponses aux antihypertenseurs 1) et PEAR (Évaluation pharmacogénomique des réponses antihypertensives n = 780) recevant de l'hydrochlorthiazide (HTCZ). B, Proportion d'ascendance noire (gambien plus kenyan) tracée pour chaque individu (avec l'ascendance noire la plus faible à la plus élevée de gauche à droite) et la diminution associée de la pression artérielle systolique (PAS) induite par HTCZ. C, Association de la diminution de la PAS induite par HTCZ avec des fréquences alléliques différentes à 3 variantes précédemment liées à la pression artérielle. La diminution de SBP en réponse à HTCZ est proportionnelle au pourcentage d'ascendance africaine, mais peut aussi s'expliquer en grande partie par des fréquences alléliques différentes à ces variantes.

Réponse de la PA au traitement

La PAS initiale (prétraitement) et la réponse au traitement médicamenteux (exprimée comme la PAS moyenne initiale moins la PAS finale en cours de traitement, ajustée en fonction de l'âge et du sexe) en fonction de l'origine ethnique auto-identifiée sont présentées dans le Tableau 1. La PAS moyenne initiale variait de 146 ± 14,3 à 151,9,5 ± 12,7 mm Hg (moyenne ± écart type). La réponse moyenne aux médicaments variait de 0,0 mm Hg (lisinopril chez les individus noirs) à 17,6 mm Hg (HCTZ chez les individus noirs). Par rapport aux participants blancs, les participants noirs ont montré une réponse de la PA plus élevée à l'HCTZ et une réponse de la PA moindre à l'aténolol, au métoprolol, au lisinopril, au candésartan et à l'amlodipine (tableau 1). Ces différences étaient à la fois statistiquement et cliniquement significatives, avec une différence dans la réduction moyenne de la PA dans les groupes noirs et blancs allant de + 63 % (HCTZ dans GERA 1 P<0.001) à -100% (Lisinopril P<0.001). Les réponses à la chlorthalidone étaient similaires chez les sujets noirs et blancs dans les études GenHAT et PEAR-2 (tableau 1).

Association de la réponse au SDE et au GDA : analyse de régression linéaire

Pour tous les médicaments, il y avait une association significative de la réponse avec la PAS initiale compatible avec une régression vers la moyenne et une réponse médicamenteuse plus importante chez les participants ayant une TA initiale plus élevée. La proportion de la variance totale représentée par la PAS de référence variait de 0,08 à 0,41 selon les traitements (tableau S1 dans le supplément de données en ligne uniquement). Pour tous les médicaments à l'exception de la chlorthalidone, il y avait une association significative entre la réponse au médicament et le SDE et entre la réponse au médicament et le GDA lorsque le SDE ou le GDA étaient pris en compte dans un modèle de régression avec la PAS de base, l'âge, le sexe et l'IMC incorporés comme covariables supplémentaires (tableau S1). L'association de la réponse de la PA avec le noir par rapport au blanc SDE variait de +4,57 mm Hg (réponse plus élevée pour le noir par rapport au blanc) pour l'HCTZ à -7,25 et -7,54 mm Hg pour le candésartan et l'aténolol, respectivement. Pour la GDA, l'association de la réponse BP avec la GDA exprimée en millimètre de mercure par unité de proportion d'ascendance noire variait de +6,24 mm Hg pour HCTZ (+0,624 mmHg pour 10 % de changement d'ascendance noire) à -11,6 et -13,11 mm Hg ( -1,16 et -1,311 mm Hg par 10 % de changement d'ascendance noire) pour le candésartan et l'aténolol, respectivement (Figure 2).

Figure 2. Relation entre la réponse de la pression artérielle systolique (SBP) et l'ethnicité auto-définie (SDE, barres jaunes) et l'ascendance génétiquement définie (GDA, barres bleues) dans les essais multiethniques de médicaments examinant la réponse de la pression artérielle. La variable de réponse (ΔSBP) était la variation de la PAS définie comme la PAS de base moins la PAS finale. Le graphique montre le coefficient β reliant ΔSBP à SDE et GDA dans un modèle de régression linéaire comprenant la SBP de base, l'âge, le sexe et l'IMC et soit SDE ou GDA.Les unités sont des millimètres de différence de mercure dans la SBP entre les sujets noirs et blancs (SDE) ou par unité de proportion d'ascendance africaine (GDA) ou le changement de réponse par 100% de changement d'ascendance africaine. Un coefficient β positif représente une réduction plus importante de la PAS chez les sujets noirs par rapport aux sujets blancs (SDE) ou chez les sujets d'ascendance africaine plus importante (GDA). *Le test du rapport de vraisemblance (comparant chaque modèle à un modèle de base comprenant la PAS, l'âge, le sexe et l'indice de masse corporelle) était significatif après ajustement de Bonferroni pour des comparaisons multiples. CTD indique chlortalidone GERA 2, études d'épidémiologie génétique des réponses aux antihypertenseurs 2 GenHAT, génétique des traitements associés à l'hypertension HCTZ, hydrochlorothiazide et PEAR, évaluation pharmacogénomique des réponses antihypertensives.

Association de Réponse à SDE et GDA : Modèle EN Combinant SDE et GDA

Comme dans les modèles de régression ci-dessus, le SDE ou le GDA ont été sélectionnés comme prédicteur de réponse pour tous les médicaments, à l'exception de la chlorthalidone, lorsque les modèles EN étaient limités pour permettre l'entrée du SDE ou du GDA mais pas des deux. Lorsque le SDE et le GDA ont été autorisés à entrer dans l'EN, le GDA a été sélectionné soit en plus (hydrochlorothiazide, lisinopril et amlodipine) soit de préférence au SDE (aténolol et métoprolol), sauf dans le cas du candésartan lorsque le SDE a été sélectionné de préférence au GDA (Tableau S2). Il est important de noter que dans tous les cas, les différences entre les modèles contenant SDE et GDA étaient minimes. La comparaison de la prédiction du GDA par rapport au SDE chez les sujets mélangés était limitée par le petit nombre de sujets et l'utilisation d'une classification binaire du SDE (plutôt qu'un pourcentage estimé d'ascendance noire ou blanche), mais chez ces sujets, le GDA était un meilleur prédicteur de réponse que SDE (tableau S3). Chez les sujets les plus mélangés (avec un GDA entre 0,4 et 0,6 qui se situaient dans le dixième centile supérieur des individus les plus mélangés dans chaque groupe de traitement), le modèle EN a sélectionné de manière significative le GDA comme prédicteur unique de l'ethnicité (GenHAT/chlorthalidone, PEAR/atenolol , PEAR-2/métoprolol, GERA/candésartan Tableau S3) ou en complément du SDE (PEAR/HCTZ, GenHAT/lisinopril Tableau S3). Il n'y a eu aucun cas dans lequel SDE a été sélectionné de préférence à GDA (P = 0,036 pour l'inclusion de GDA). Ni le SDE ni le GDA n'ont été sélectionnés comme prédicteurs de la réponse à l'amlodipine dans GenHAT. L'inclusion de scores GDA distincts pour chaque population ancestrale (par exemple, kenyan et gambien) n'a pas augmenté de manière significative la variance expliquée par les modèles GDA, que ce soit dans l'ensemble de la population ou chez les sujets les plus mélangés.

Association de la réponse aux variants génétiques dans les loci BP connus

Pour chaque médicament (à l'exception de la chlorthalidone), entre 1 et 7 des 163 SNP identifiés précédemment dans l'étude d'association à l'échelle du génome de la PA se sont avérés être significativement associés à la réponse de la PA après ajustement pour plusieurs tests (P valeur allant de 2,6×10 − 4 à 3,8×10 −8 Tableau S4). Les réponses au candésartan étaient liées à 4 loci : KCNK3, SULT1C3, AMH, et SH2B3 et ceux à HCTZ à 7 loci : CYP1A1-ULK3, PDE3A, ADO, PLCE1, PRKAG2, c5orf56, et NUCB2. Les réponses au BB aténolol et métoprolol étaient liées à OBFC1, TXB2, RRP1B (aténolol), et FIGN-GRB14 (métoprolol). Les fréquences alléliques pour tous les SNP associés à la réponse médicamenteuse différaient significativement entre les groupes ethniques noirs et blancs (tableau 2). Cependant, lorsqu'ils sont examinés au sein de groupes ethniques individuels, l'effet était dans la même direction et plusieurs loci étaient significativement associés à la réponse au sein de groupes ethniques individuels (P<0.001 pour toutes les variantes associées à la réponse à l'hydrochlortiazide chez les individus blancs, P<4.9×10 −5 pour l'association de PLCE1 avec une réponse à l'hydrochlorthiazide chez les individus blancs et noirs, P<0.005 pour KCNK3 association avec la réponse au candésartan chez les participants blancs Tableau 2). Des fréquences alléliques différentes mais une taille d'effet similaire dans les groupes noirs par rapport aux blancs ont entraîné une différence d'effet moyen de ces SNP entre les groupes noirs et blancs et représentent ainsi une proportion substantielle de la différence de réponse entre les individus blancs et noirs (tableau 2).

Tableau 2. Associations de SNP à des loci de tension artérielle connus avec une réponse tensionnelle au sein de groupes ethniques individuels* et calcul de la différence attendue de réponse selon les fréquences alléliques

La différence entre les sujets noirs et blancs attribuable à chaque SNP est dérivée de la taille de l'effet (dans le modèle multivarié) et des fréquences alléliques dans les groupes respectifs. ATEN indique aténolol CAND, candésartan, HCTZ, hydrochlorthiazide et METOP, métoprolol.

* À l'exclusion de ceux des traitements associés à la génétique de l'hypertension pour lesquels la couverture génétique était insuffisante pour identifier les SNP d'intérêt.

P les valeurs sont des associations significatives lors de la correction de Bonferroni pour 15 comparaisons (P valeur inférieure à 3,33×10 −3 ), pour les 15 SNP significativement associés à la réponse dans l'ensemble de l'échantillon.

Lorsqu'ils sont pris en compte dans des modèles multivariés, l'ajout de SNP (identifiés ci-dessus) à un modèle de base comprenant l'âge, le sexe, l'IMC et soit SDE ou GDA a amélioré l'ajustement du modèle tel que jugé par les critères AIC (tableau S5) et a augmenté la quantité de variabilité expliquée pour le candésartan et l'HCTZ (de 5 % et 2 %, respectivement, par rapport aux modèles incorporant soit le SDE soit le GDA seul). Pour le candésartan et l'HCTZ, ni le SDE ni le GDA ne sont restés significatifs lorsque les SNP étaient déjà inclus. Lorsque les tailles d'effet par allèle (tirées des coefficients β dans les modèles multivariables) et les fréquences alléliques dans les groupes noirs et blancs ont été utilisées pour calculer la différence de réponse de PA attendue entre les groupes noirs et blancs, les SNP ont été considérés comme représentant la majorité des cette différence, représentant 85 % et 94 % de la différence de réponse entre les groupes noirs et blancs pour le candésartan et l'HCTZ, respectivement. Les loci qui sont restés significativement associés à la réponse de la PA dans les modes multivariés comprenaient : KCN3, SULT1C3, et AMH pour le candésartan PDE3, PLCE1, et PRKAG2 pour HCTZ et TBX2 pour l'aténolol (tableau S5). L'ajustement pour l'étude dans les données pour l'HCTZ (combinées entre les études GERA 1 et PEAR) n'a fait qu'une différence minime dans les résultats et a représenté <1% de la variabilité de la réponse de la PA.

Discussion

La réponse de la PA aux médicaments antihypertenseurs chez les Américains noirs et blancs (tels que catégorisés à l'aide du SDE) dans les essais examinés dans cette étude était largement en accord avec les résultats des méta-analyses précédentes. 3,17 Les réponses à la BB, à l'inhibiteur de l'ECA et au bloqueur des récepteurs de l'angiotensine étaient plus faibles chez les Noirs que chez les Blancs et la réponse à l'HCTZ était plus élevée chez les Noirs que chez les Blancs. La réponse à l'amlodipine était plus faible chez les sujets noirs que chez les sujets blancs, ce qui diffère d'une méta-analyse précédente. 3 Il est à noter que, contrairement à l'HCTZ, la réponse à la chlortalidone était similaire chez les sujets noirs et blancs dans les études GENHAT et PEAR-2. Ainsi, la variation de la réponse au diurétique entre les groupes ethniques peut dépendre de la pharmacocinétique ou du mécanisme d'action du médicament. Alors qu'une quantité relativement modeste de la variance en réponse au BB, à l'inhibiteur de l'ECA, au bloqueur des récepteurs de l'angiotensine et au HTCZ a été expliquée par le SDE (peut-être en raison des contributions relativement importantes de la variation physiologique et de l'erreur de mesure à la variance de la réponse), la différence de réponse entre les groupes ethniques auto-définis était néanmoins important, représentant entre 39 % et 160 % de la réponse moyenne à la drogue parmi les groupes ethniques. Cette variation de réponse selon SDE a souvent été attribuée à une différence génétique. Cependant, l'existence de facteurs génétiques spécifiques à la population expliquant la variation des phénotypes communs a été contestée car des variantes communes sont probablement présentes dans le génome humain au moment de l'émigration africaine et donc mondiale. 18 En outre, SDE encapsule une interaction complexe de facteurs psychosociaux, de mode de vie et d'environnement qui ne sont pas génétiques. 18

À notre connaissance, il s'agit de la première étude à examiner l'association de la réponse au traitement antihypertenseur avec un GDA plutôt qu'un SDE. Pour la plupart des médicaments, l'association de la réponse à un GDA fournissant la quantité d'ascendance génétique noire était similaire à celle du SDE avec des directions d'effet concordantes. Bien que la prédiction de la réponse par GDA versus SDE chez les sujets mélangés ait été limitée par le petit nombre de sujets et l'utilisation d'une classification binaire de SDE, GDA chez ces sujets était un meilleur prédicteur de réponse que SDE. Pour les médicaments agissant directement sur le système rénine-angiotensine-aldostérone (BB, lisinopril et candésartan), pour lesquels il existe la variation de réponse la plus constante entre les groupes ethniques, la GDA était le prédicteur unique/le plus important de la réponse. Ces résultats sont cohérents avec une composante génétique sous-jacente à tout ou partie de la variation ethnique en réponse à ces médicaments, mais n'identifient pas de variantes génétiques causales individuelles.

Pour identifier les variantes génétiques causales potentielles, nous avons cherché à savoir si la réponse médicamenteuse pouvait être expliquée par des variantes à des loci génétiques connus associés à la pression artérielle, car nombre d'entre elles sont liées à des cibles médicamenteuses. 19 Un nombre relativement faible d'entre eux se sont avérés être significativement associés à la réponse médicamenteuse. Bien que cette association puisse provenir des variantes agissant comme un marqueur de substitution de l'ethnicité (puisque pour la plupart des variantes, les fréquences alléliques différaient considérablement entre les groupes noirs et blancs), cela est peu probable car, pour de nombreuses variantes, des associations avec la réponse médicamenteuse ont également été observées au sein de groupes ethniques individuels. Deuxièmement, dans les modèles multivariés, les effets de ces variantes génétiques étaient significatifs lors de l'ajustement pour SDE ou GDA et fournissaient une meilleure prédiction de la réponse que SDE ou GDA. De plus, les ensembles de variantes génétiques étaient spécifiques au médicament. C'est-à-dire qu'ils différaient selon les classes de médicaments individuelles, comme le laisserait présager leur action sur des cibles spécifiques. Les tailles d'effet pour plusieurs loci étaient importantes avec un changement dans la réponse de la PA >3 mm Hg par allèle (dans les modèles entièrement ajustés), ce qui est plusieurs fois supérieur à la taille de l'association avec la PA d'une étude d'association à l'échelle du génome de la PA à effet principal, généralement <1 mm Hg par allèle. Peut-être parce que la PA est un trait polygénique déterminé par de multiples voies homéostatiques, alors que la réponse médicamenteuse peut être plus étroitement liée à moins de variantes génétiques liées à une voie de signalisation médicamenteuse spécifique. Lorsque la différence moyenne de réponse entre les sujets noirs et blancs a été calculée à partir de l'effet combiné des différentes fréquences alléliques des variantes qui se sont avérées être significativement associées à la réponse au médicament, cela s'est avéré expliquer la majorité de la différence interethnique observée dans la réponse au médicament. pour le candésartan et l'HCTZ.

La suppression de l'activité de la rénine et de la rénine plasmatiques est reconnue comme étant plus fréquente chez les sujets noirs que chez les sujets blancs et a été attribuée à une rétention accrue de sodium plutôt qu'à une augmentation de l'apport en sodium 9,20-22, ce qui peut influencer la réponse aux diurétiques et aux médicaments inhibant la rénine. système d'angiotensine. 23 Il est à noter que les syndromes monogéniques rares de l'hypertension sont principalement médiés par la rétention de sodium 24 et une explication de la présente étude est un effet polygénique sur la rétention de sodium avec une plus grande fréquence de variantes du gène de rétention de sodium chez les sujets noirs par rapport aux sujets blancs. Il est à noter que parmi les loci que nous avons identifiés comme étant liés à la réponse médicamenteuse, nombre d'entre eux se trouvent dans des voies qui pourraient influencer la réponse médicamenteuse par la rétention de sodium et par d'autres voies de signalisation des médicaments. KCNK3 code pour un canal potassique (TASK-1) impliqué dans la synthèse de l'aldostérone. 25 SH2B3, un membre de la famille des protéines adaptatrices SH2B, est une protéine adaptatrice intracellulaire qui agit comme un régulateur négatif dans de nombreuses voies de signalisation (Janus kinase et récepteurs tyrosine kinases) et on pense qu'elle influence la rétention de sodium via la modulation de l'inflammation. 26,27 Le CYP1A1-ULK3 loci contient plusieurs gènes qui ont été liés à la rétention de sodium. 28 NUCB2 est une protéine précurseur de la nesfatine-1, qui peut influencer la PA probablement par la signalisation de la kinase hypothalamique conduisant à l'activation sympathique et à la rétention de sodium. 29 Des études avec une plus grande taille d'échantillon dans différentes populations ainsi que des études fonctionnelles seront nécessaires pour déterminer la signification biologique de tous les loci potentiels identifiés ici.

Notre étude est sujette à plusieurs limites. La taille de l'échantillon, en particulier pour les sujets mixtes, était petite. Les essais que nous avons analysés étaient de conception variable, avec des périodes de suivi variables, nous n'avons pas tenu compte de l'adhésion variable au traitement médicamenteux et la réponse de la PA était principalement dérivée des lectures en cabinet. Ces facteurs auraient eu tendance à masquer la relation de la réponse BP avec le SDE, le GDA et les variantes génétiques individuelles. Les participants GenHAT ont été exclus de l'analyse d'association de la réponse de la PA aux variantes génétiques connues (en raison de la couverture incomplète de ces variantes dans GenHAT). Cependant, l'association de la réponse BP avec la GDA a été stratifiée à la fois par le médicament et l'étude et était similaire pour la chlorthalidone, le seul médicament étudié à la fois dans GenHAT et PEAR-2. Nous n'avons étudié que les Américains noirs et blancs et la confirmation de la valeur prédictive de l'ascendance génétique et du rôle prédictif et biologique des variantes génétiques individuelles identifiées ici nécessitera d'autres études pharmacogénétiques à grande échelle réalisées dans des groupes multiethniques dans différents emplacements géographiques.

Points de vue

La sélection du traitement selon la SDE, telle que recommandée par certaines lignes directrices actuelles 6 , a été critiquée comme étant potentiellement désavantageuse pour les personnes chez lesquelles la SDE est une description trompeuse des déterminants pharmacogénomiques de la réponse d'une personne. 30 De plus, cela peut perpétuer l'utilisation d'une mesure imprécise des déterminants génétiques et environnementaux de la réponse BP. La présente étude montre que bien que l'individualisation du traitement par le biais d'un GDA soit susceptible d'être d'un bénéfice marginal dans les populations homogènes, elle peut être bénéfique dans les populations mixtes, y compris celles d'Amérique latine et des Caraïbes ou originaires de celles-ci. De plus, lorsque la variation génétique entre les groupes ethniques a été exploitée pour augmenter la capacité de détecter l'association de la réponse avec les loci connus de la PA, un petit nombre de variantes génétiques avec de grandes tailles d'effet ont été identifiées qui expliquent une grande partie de la variation interethnique de la réponse aux médicaments antihypertenseurs. La taille relativement petite de l'échantillon et le manque de cohortes de réplication (qui, à notre connaissance, ne sont pas disponibles) signifient que nous ne pouvons pas être certains que toutes les variantes identifiées ici sont causalement associées à la réponse médicamenteuse. Cependant, la force des associations rend très probable qu'une approche pharmacogénétique impliquant relativement peu de variantes sera en mesure d'individualiser la thérapie indépendamment de l'ethnicité. En outre, il est probable que des loci puissent être identifiés qui fourniront un aperçu des voies moléculaires déterminant la réponse au traitement à la fois au sein des populations et entre elles.

Conclusion

En conclusion, l'exploitation de la variation génétique entre les groupes ethniques et l'examen des associations avec des loci BP connus identifie un petit nombre de variantes génétiques avec de grandes tailles d'effet qui peuvent expliquer une grande partie de la variation interethnique dans la réponse aux médicaments antihypertenseurs. Ces résultats suggèrent qu'une approche de médicaments de précision génomique peut être utilisée pour individualiser le traitement antihypertenseur au sein et entre les populations sans recourir à des substituts de structure génétique tels que SDE.

Sources de financement

Ce travail a été réalisé dans le cadre du programme Ancestry and Biological Informative Markers in stratification of HYpertension Stratified Medicines in hypertension financé par le Medical Research Council et la British Heart Foundation. Nous reconnaissons également le soutien du ministère de la Santé via un centre de recherche biomédicale et un centre de recherche clinique du National Institute for Health Research (NIHR) à Guy's and St Thomas′ NHS Foundation Trust en partenariat avec le King's College de Londres et le NIHR Biomedical Research Center à South London et Maudsley NHS Foundation Trust et King's College London. Les études PEAR et PEAR-2 (Pharmacogenomic Evaluation of Antihypertensive Responses) ont été financées par la subvention U01-GM074492 du National Institute of Health Pharmacogenetics Research Network et le National Center for Advancing Translational Sciences sous le numéro de récompense UL1 TR000064 (University of Florida) UL1 TR000454 ( Emory University) et UL1 TR000135 (Mayo Clinic). L'étude GenHAT (Genetics of Hypertension Associated Treatments) a été financée par le National Institutes of Health (NIH) Heart, Lung, and Blood Institute subvention 5 R01 HL-63082, Genetics of Hypertension Associated Treatment. L'essai ALLHAT (Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial) a été soutenu par un contrat avec le National Heart, Lung, and Blood Institute. Le génotypage GenHAT a été financé par la subvention 1R01HL103612 du NIH Heart, Lung, and Blood Institute.

Divulgations

Notes de bas de page

*Ces auteurs ont participé à ce travail à part égale.

Cet article a été envoyé à Takayoshi Ohkubo, rédacteur en chef invité, pour examen par des arbitres experts, décision éditoriale et décision finale


Variation génétique

Reproduction sexuée résulte en des possibilités infinies de variation génétique. En d'autres termes, la reproduction sexuée donne une descendance génétiquement unique. Ils diffèrent des deux parents et aussi l'un de l'autre. Cela se produit pour un certain nombre de raisons.

  • Lorsque des chromosomes homologues forment des paires pendant la prophase I de la méiose I, un croisement peut se produire. Traverser est l'échange de matériel génétique entre des chromosomes homologues. Il en résulte de nouvelles combinaisons de gènes sur chaque chromosome.
  • Lorsque les cellules se divisent pendant la méiose, les chromosomes homologues sont distribués de manière aléatoire aux cellules filles et différents chromosomes se séparent indépendamment les uns des autres. Cet appelé s'appelle assortiment indépendant. Il en résulte des gamètes qui ont des combinaisons uniques de chromosomes.
  • Dans la reproduction sexuée, deux gamètes s'unissent pour produire une progéniture. Mais quels seront-ils parmi les millions de gamètes possibles ? C'est probablement une question de chance. C'est évidemment une autre source de variation génétique dans la progéniture. Ceci est connu comme fécondation aléatoire.

Tous ces mécanismes fonctionnant ensemble entraînent une quantité incroyable de variation potentielle. Chaque couple humain, par exemple, a le potentiel de produire plus de 64 000 milliards d'enfants génétiquement uniques. Pas étonnant que nous soyons tous différents !

Traverser

Le croisement se produit pendant la prophase I, et c'est l'échange de matériel génétique entre les chromatides non sœurs de chromosomes homologues. Rappelons que pendant la prophase I, les chromosomes homologues s'alignent par paires, gène pour gène sur toute leur longueur, formant une configuration à quatre chromatides, connue sous le nom de tétrade. À ce stade, les chromatides sont très proches les unes des autres et une partie du matériel de deux chromatides change de chromosome, c'est-à-dire que le matériel se détache et se rattache à la même position sur le chromosome homologue (Figure (PageIndex<2>)) . Cet échange de matériel génétique peut se produire plusieurs fois au sein de la même paire de chromosomes homologues, créant des combinaisons uniques de gènes. Ce processus est également connu sous le nom de recombinaison.

Figure (PageIndex<2>):​​​​​ ​​Crossing. Un brin d'ADN maternel est représenté en rouge. Un brin paternel d'ADN est représenté en bleu. Le croisement produit deux chromosomes qui n'existaient pas auparavant. Le processus de recombinaison implique la rupture et la réunion des chromosomes parentaux (M, F). Cela se traduit par la génération de nouveaux chromosomes (C1, C2) qui partagent l'ADN des deux parents.

Pendant la prophase I, les chromosomes se condensent et deviennent visibles à l'intérieur du noyau. Lorsque l'enveloppe nucléaire commence à se décomposer, les chromosomes homologues se rapprochent. Le complexe synaptonémique, un réseau de protéines entre les chromosomes homologues, se forme à des emplacements spécifiques, s'étendant pour couvrir toute la longueur des chromosomes. L'appariement étroit des chromosomes homologues est appelé synapsis. Dans la synapsis, les gènes des chromatides des chromosomes homologues sont alignés les uns avec les autres. Le complexe synaptonémique prend également en charge l'échange de segments chromosomiques entre des chromatides homologues non sœurs dans un processus appelé croisement. Les événements de croisement sont la première source de variation génétique produite par la méiose. Un seul événement de croisement entre des chromatides homologues non sœurs conduit à un échange d'ADN entre les chromosomes. Après le croisement, le complexe synaptonémique se décompose et la connexion de cohésine entre les paires homologues est également supprimée. A la fin de la prophase I, les paires ne sont maintenues ensemble qu'au niveau des chiasmes qu'on appelle tétrades car les quatre chromatides sœurs de chaque paire de chromosomes homologues sont désormais visibles.

Figure (PageIndex<3>) : Croisement entre chromosomes homologues Le croisement se produit entre les chromatides non sœurs de chromosomes homologues. Le résultat est un échange de matériel génétique entre des chromosomes homologues. Cela se produit lorsque les chromosomes homologues s'alignent. Les chromatides de chaque chromosome peuvent se croiser et se recombiner (échanger des sections). Il en résulte deux chromosomes recombinants et deux chromosomes non recombinants.


Fond

Le coton est une culture commerciale importante qui fournit la fibre la plus naturelle au monde et est également une source importante d'huile comestible. Parmi les espèces de coton cultivées, le coton upland (Gossypium hirsutum L.) contribue à plus de 95% de la production totale de coton en raison de son rendement élevé et de sa grande adaptabilité [1]. Le développement de variétés à haut rendement a été l'une des cibles essentielles de la sélection cotonnière. Cependant, l'amélioration du rendement du coton via les programmes de sélection conventionnels reste faible et lente car le fond génétique étroit du coton upland a entraîné des goulots d'étranglement pour la sélection [2]. Par conséquent, il est d'une grande importance d'explorer et de mettre en pyramide les loci de caractères quantitatifs d'élite (QTL)/gènes liés aux composants de rendement pour améliorer le rendement du coton grâce à la sélection moléculaire.

Les composantes du rendement du coton comprennent principalement le nombre de capsules par plante (BN), le poids des capsules (BW), le pourcentage de fibre (LP), l'indice de graine (SI) et l'indice de fibre (LI), qui sont hérités quantitativement et sont facilement influencés par le environnement [3]. Plusieurs QTL pour les caractères liés au rendement du coton ont été identifiés à l'aide de marqueurs moléculaires et d'une analyse de cartographie de liaison biparentale [4, 5]. Cependant, il est difficile d'exploiter les QTL par le biais de la sélection assistée par marqueurs en raison du nombre limité de marqueurs et des grandes régions QTL. Avec le développement rapide des technologies de séquençage à haut débit et des méthodes statistiques, la base génétique des caractères liés au rendement du coton a été révélée de manière préliminaire. Au cours des cinq dernières années, l'assemblage et l'amélioration du génome du coton cultivé tétraploïde ont considérablement accéléré la cartographie des gènes pour les traits importants du coton [6,7,8,9,10,11]. Sur la base de la séquence du génome de référence, un grand nombre de QTL et de gènes candidats associés à des caractères liés au rendement ont été identifiés par l'analyse d'une étude d'association pangénomique (GWAS) [12,13,14,15]. La puissance de l'analyse d'association pangénomique repose principalement sur quatre facteurs : la richesse de la diversité génétique, la véracité de l'acquisition des caractères, la densité des marqueurs et les méthodes statistiques [16]. Dans la plupart des études précédentes, en raison de la conception expérimentale d'un environnement unique et des approches GWAS à locus unique, de nombreux loci stables restent à détecter. Les GWAS multi-environnements et multi-locus couplés à une conception expérimentale améliorée et aux méthodes associées peuvent augmenter l'efficacité pour extraire les QTL/gènes liés aux caractéristiques de rendement en fibre, ce qui reste un défi dans la sélection du coton.

Dans la présente étude, 242 accessions de coton upland d'origines diverses ont été plantées dans plusieurs environnements au cours des années pour l'étude du phénotypage de quatre composantes principales du rendement, BW et LP sous 13 environnements naturels, et BN et SI sous 11 environnements. L'analyse GWAS a été menée sur la base d'un modèle linéaire mixte multi-locus à effet SNP aléatoire, et des QTL stables associés aux composants de rendement ont été révélés dans plusieurs environnements. Combinés à l'analyse du transcriptome, les modèles d'expression des gènes candidats ont été étudiés et les gènes clés contribuant au rendement du coton ont été prédits. Les résultats peuvent être utiles pour mieux comprendre l'architecture génétique des caractères de rendement et fournir des marqueurs moléculaires et des gènes candidats pour la conception de lignées de coton à haut rendement via la sélection moléculaire.


Les références

Manolio, T.A. et al. Trouver l'héritabilité manquante des maladies complexes. La nature 461, 747–753 (2009).

Hirschhorn, J.N. Études d'association à l'échelle du génome – éclairant les voies biologiques. N. Engl. J. Méd. 360, 1699–1701 (2009).

Goldstein, D.B. Variation génétique commune et traits humains. N. Engl. J. Méd. 360, 1696–1698 (2009).

Kraft, P. et al. Au-delà des rapports de cotes – risque de maladie communicante basé sur les profils génétiques. Nat. le révérend Genet. 10, 264–269 (2009).

Pharaon, P.D. et al. Susceptibilité polygénique au cancer du sein et implications pour la prévention. Nat. Genet. 31, 33–36 (2002).

Gail, M.H. Intérêt de l'ajout de génotypes de polymorphisme à un seul nucléotide à un modèle de risque de cancer du sein. J. Natl. Cancer Inst. 101, 959–963 (2009).

Gail, M.H. Précision discriminante des polymorphismes mononucléotidiques dans les modèles pour prédire le risque de cancer du sein. J. Natl. Cancer Inst. 100, 1037–1041 (2008).

Xu, J. et al. Estimation du risque absolu de cancer de la prostate à l'aide de marqueurs génétiques et d'antécédents familiaux. Prostate 69, 1565–1572 (2009).

Meigs, J.B. et al. Score de génotype en plus des facteurs de risque communs pour la prédiction du diabète de type 2. N. Engl. J. Méd. 359, 2208–2219 (2008).

Wacholder, S. et al. Performance des variantes génétiques courantes dans les modèles de risque de cancer du sein. N. Engl. J. Méd. 362, 986–993 (2010).

Kraft, P. & Hunter, D.J. Prédiction du risque génétique : en sommes-nous encore là ? N. Engl. J. Méd. 360, 1701–1703 (2009).

Visscher, P.M. Dimensionnement de la variation de la taille humaine. Nat. Genet. 40, 489–490 (2008).

Gudbjartsson, D.F. et al. De nombreuses variantes de séquence affectant la diversité de la taille humaine adulte. Nat. Genet. 40, 609–615 (2008).

Lettre, G. et al. L'identification de dix loci associés à la hauteur met en évidence de nouvelles voies biologiques dans la croissance humaine. Nat. Genet. 40, 584–591 (2008).

Weedon, M.N. et al. L'analyse d'association à l'échelle du génome identifie 20 loci qui influencent la taille adulte. Nat. Genet. 40, 575–583 (2008).

Weedon, M.N. & Frayling, T.M. Atteindre de nouveaux sommets : un aperçu de la génétique de la stature humaine. Tendances Genet. 24, 595–603 (2008).

Barrett, J.C. et al. L'association à l'échelle du génome définit plus de 30 loci de susceptibilité distincts pour la maladie de Crohn. Nat. Genet. 40, 955–962 (2008).

Lichtenstein, P. et al. Facteurs environnementaux et héréditaires dans la causalité du cancer - analyses de cohortes de jumeaux de Suède, du Danemark et de Finlande. N. Engl. J. Méd. 343, 78–85 (2000).

Easton, D.F. et al. Une étude d'association pangénomique identifie de nouveaux loci de susceptibilité au cancer du sein. La nature 447, 1087–1093 (2007).

Eeles, R.A. et al. Plusieurs loci nouvellement identifiés associés à la susceptibilité au cancer de la prostate. Nat. Genet. 40, 316–321 (2008).

Houlston, R.S. et al. Une méta-analyse des données d'association pangénomique identifie quatre nouveaux loci de susceptibilité au cancer colorectal. Nat. Genet. 40, 1426–1435 (2008).

Thomas, G. et al. Une étude d'association à l'échelle du génome en plusieurs étapes dans le cancer du sein identifie deux nouveaux allèles à risque à 1p11.2 et 14q24.1 (RAD51L1). Nat. Genet. 41, 579–584 (2009).

Thomas, G. et al. Plusieurs loci identifiés dans une étude d'association pangénomique du cancer de la prostate. Nat. Genet. 40, 310–315 (2008).

Eeles, R.A. et al. Identification de sept nouveaux loci de susceptibilité au cancer de la prostate grâce à une étude d'association pangénomique. Nat. Genet. 41, 1116–1121 (2009).

Orr, H.A. La génétique des populations de l'adaptation : La distribution des facteurs fixés au cours de l'évolution adaptative. Évolution 52, 935–949 (1998).

Eberle, M.A. et al. Pouvoir de détecter les allèles à risque à l'aide de panels SNP de balises à l'échelle du génome. PLoS Genet. 3, 1827–1837 (2007).

Schork, N.J. Calculs de puissance pour les études d'association génétique utilisant des distributions de probabilité estimées. Un m. J. Hum. Genet. 70, 1480–1489 (2002).

Ambrosius, W.T., Lange, E.M. & Langefeld, C.D. Puissance pour les études d'association génétique avec des fréquences alléliques aléatoires et des distributions de génotypes. Un m. J. Hum. Genet. 74, 683–693 (2004).

Spencer, C.C., Su, Z., Donnelly, P. & Marchini, J. Conception d'études d'association à l'échelle du génome : taille de l'échantillon, puissance, imputation et choix de la puce de génotypage. PLoS Genet. 5, e1000477 (2009).

Dickson, S.P., Wang, K., Krantz, I., Hakonarson, H. & amp Goldstein, D.B. Des variantes rares créent des associations synthétiques à l'échelle du génome. PLoS Biol. 8, e1000294 (2010).

Yu, K. et al. Conception flexible pour le suivi des résultats positifs. Un m. J. Hum. Genet. 81, 540–551 (2007).

Ghosh, A., Zou, F. & Wright, F.A. Estimation des rapports de cotes dans les analyses du génome : une approche de vraisemblance conditionnelle approximative. Un m. J. Hum. Genet. 82, 1064–1074 (2008).

Li, B. & Leal, S.M. Découverte de variantes rares par séquençage : implications pour la conception d'études d'association de traits complexes. PLoS Genet. 5, e1000481 (2009).

Li, B. & Leal, S.M. Méthodes de détection d'associations avec des variants rares pour des maladies courantes : application à l'analyse de données de séquences. Un m. J. Hum. Genet. 83, 311–321 (2008).

Zhong, H. & Prentice, R.L. Estimateurs à biais réduit et intervalles de confiance pour les rapports de cotes dans les études d'association à l'échelle du génome. Biostatistique 9, 621–634 (2008).

Zhong, H. & Prentice, R.L. Correction de la "malédiction du gagnant" dans les rapports de cotes à partir des résultats d'association à l'échelle du génome pour les principales maladies humaines complexes. Genet. Epidémiol. 34, 78–91 (2009).


Résultats/Discussion

Modèle à locus unique

De nombreux points généraux sont illustrés par deux exemples simples, le modèle à locus unique avec dominance et le modèle à deux locus avec interaction AA, nous les considérons donc plus en détail. Pour le modèle à locus unique avec des valeurs génotypiques pour CC, Cc et cc de +une, et -une, respectivement, VUNE = 2p(1−p)[une+(1−2p)] 2 et V = 4p 2 (1−p) 2 2 . Pour = une, c'est-à-dire une dominance complète de C, VUNE = 8p(1−p) 3 une 2 et V = 4p 2 (1−p) 2 une 2 et donc : à p = 0.5, VUNE = (2/3)Vg si l'allèle dominant est rare (c'est-à-dire p → 0), Vg → 8p et VUNE/Vg → 1, et s'il est commun, Vg → 4p 2 et VUNE/Vg → 0. Notez cependant que Vg et VUNE sont beaucoup plus élevés lorsque l'allèle dominant est à basse fréquence, par ex. 0,1, que sont Vg et V lorsque le récessif est à basse fréquence, par ex. p = 0,9. Même pour un locus surdominant (une = 0), toute la variance génétique devient additive à des fréquences génétiques extrêmes. Considérant maintenant les attentes (E) sur les distributions de fréquences, soit ?? 2 = E(VUNE)/E(Vg), un équivalent à l'héritabilité au sens étroit si VE = 0. Pour la distribution « U », ?? 2 = 1− 2 /(3une 2 +2 2 ) et pour la distribution uniforme, ?? 2 = 1−2 2 /(5une 2 +3 2 ). Ainsi, pour un locus complètement dominant, ?? 2 = 0,8 et ?? 2 = 0,75 respectivement alors que VUNE/Vg = 0,67 pour p = 0,5. En résumé, la fraction de la variance génétique qui est génétique additive diminue à mesure que la proportion de gènes aux fréquences extrêmes diminue (tableau 2).

Additif à deux locus × ​​modèle additif

Les valeurs génotypiques (voir section Théorie) pour le modèle AA simple pour les doubles homozygotes BBCC et bbcc sont de +2une et pour bbCC et BBcc sont 0, et tous les hétérozygotes simples ou doubles sont intermédiaires (+une). Avec équilibre de liaison, VUNE/Vg = 1−HpHq/[Hp+Hq−3HpHq], où les hétérozygoties sont Hp et Hq aux loci B et C. Ainsi VUNE/Vg → 1 si Soit locus est à une fréquence extrême (c'est-à-dire p ou q → 0 ou 1), et vaut 0 lorsque p = q = 0,5. Si p = q, pour les fréquences de gènes 0,1, 0,2, 0,3 et 0,4, VUNE/Vg = 0,88, 0,69, 0,43 et 0,14. Pour la distribution uniforme ?? 2 = 2/3, et pour la distribution « U », les variances sont fonction de la taille de la population, car des fréquences plus extrêmes sont possibles à des tailles de population plus importantes. Ainsi ?? 2 = (2−4/K)/(2−3/K), où K = ln(2N), donc ?? 2 → 1 pour les grands K. Tout résidu est VAA.

Ces deux exemples, le locus unique et le modèle A × A, illustrent ce qui s'avère être le point fondamental pour considérer l'impact de la distribution de fréquence des gènes. Lorsqu'un allèle (disons C) est rare, donc la plupart des individus ont le génotype Cc ou cc, la substitution allélique ou l'effet moyen de C vs. c représente essentiellement toutes les différences trouvées dans les valeurs génotypiques ou en d'autres termes la régression linéaire de la valeur génotypique sur le nombre de gènes C explique les différences génotypiques (voir [3], p 117). D'où presque tous Vg est comptabilisé par VUNE.

Autres modèles épistatiques

Avec la distribution « U », la plupart des gènes ont un allèle rare et donc la plus grande partie de la variance est additive. D'autres exemples (tableau 2) illustrent ce point, y compris le facteur dupliqué et les modèles complémentaires où il y a une dominance substantielle et une épistasie. Ces modèles montrent surtout VUNE pour la distribution « U » pour quelques loci, mais la proportion de la variance génétique additive diminue à mesure que le nombre augmente. Avec de nombreux loci, cependant, ces modèles extrêmes n'expliquent pas la covariance des frères et sœurs (c'est-à-dire toute héritabilité) ou la linéarité approximative de la dépression de consanguinité avec le coefficient de consanguinité, F, trouvé dans les expériences [3],[4],[40],[41],[42], ou la linéarité en réponse à la sélection artificielle [43].

Nous avons également analysé un modèle de biologie des systèmes bien étudié de flux dans les voies métaboliques [38],[39],[44] et avons de nouveau constaté que la proportion attendue de Vg qui s'explique par VUNE est grand (tableau 3).

Exemples de modèles issus d'analyses QTL publiées hautement épistatiques

Un certain nombre d'analyses de QTL utilisant des croisements entre populations (certaines consanguines, certaines sélectionnées) ont été publiées dans lesquelles des paires particulières (ou plus) de loci ont été identifiées comme ayant des effets épistatiques substantiels [8]. Nous considérons des exemples des cas les plus extrêmes d'épistasie trouvés, en obtenant des composantes de variance par intégration numérique. Les résultats sont présentés dans le tableau 4, pour des exemples de [8] délibérément choisis comme extrêmes. Même ainsi, la proportion de la variance génétique qui est additive est élevée avec la distribution « U », sauf dans l'exemple dominance × dominance. De plus, comme ces exemples ont été sélectionnés par Carlborg et Haley et nous comme des cas d'épistasie extrême, il n'est pas déraisonnable de supposer que les effets épistatiques réels sont inférieurs à leurs estimations.

Assouplissement des hypothèses

Espérance d'un ratio des composantes de la variance.

Les formules que nous avons données ont été pour les quantités E(VUNE), E(Vg) et le rapport E(VUNE)/E(Vg). La quantité effectivement observée est VUNE/Vg =jeVUNEjeVgje où l'expression désigne les sommes sur les lieux (je) de la variance génétique additive et totale apportée par chacun en l'absence d'épistasie ou de déséquilibre de liaison, ou en présence de ceux-ci, des sommes sur des ensembles pertinents de loci. Comme, pour tout locus, ou pour leur somme, en général E(VUNE/Vg) ≠ E(VUNE)/E(Vg), il faut considérer la pertinence des quantités calculées. Alors qu'il serait possible d'obtenir des approximations en utilisant la différenciation statistique [4], les formules sont compliquées et invoquent une hypothèse de petits coefficients de variation des quantités qui n'est pas toujours vraie. C'est pourquoi nous avons utilisé la simulation Monte Carlo et quelques exemples sont donnés dans le tableau 5. On voit que, sauf avec très peu de loci, le biais n'est pas important dans l'utilisation du ratio des attentes. Dans des situations réelles où de nombreux loci d'effets et de fréquences différents sont susceptibles d'être impliqués, le biais est susceptible d'être insignifiant à moins qu'un seul locus contribue à presque toute la variance.

Influence du déséquilibre de liaison (LD).

Dans cette analyse, nous avons supposé qu'il existe un équilibre de Hardy-Weinberg (HWE) et un équilibre de liaison entre les loci. Comme les écarts par rapport à HWE sont transitoires avec un accouplement aléatoire, ils peuvent être ignorés, mais LD peut persister, et donc les effets estimés au locus C dépendent de ceux ajustés à B et vice versa. L'effet de la LD est de réduire le nombre d'haplotypes qui se séparent dans la population de sorte que ce qui serait une variance épistatique devienne une variance additive ou de dominance. Par exemple, considérons le modèle A × A et le LD complet, c'est-à-dire des fréquences égales aux loci B et C et les deux loci se séparent mais avec seulement deux haplotypes présents. Alors seuls les haplotypes Bc et bC sont présents, et les valeurs génotypiques sont 0 pour les classes homozygotes et une pour les hétérozygotes (surdominance ‘pure’), ou seulement les haplotypes BC et bc, avec des valeurs génotypiques 2une pour les homozygotes et une pour les hétérozygotes (sous-dominance « pure »). Dans les deux cas, les écarts sont les mêmes que pour le cas de dominance avec une = 0.Ainsi, la LD conduirait à l'attribution de la variance épistatique réelle à la variance additive ou de dominance, et exacerberait les résultats obtenus à partir des discussions sur la distribution de la fréquence des gènes.

Conséquences des allèles multiples.

Dans ces modèles, nous avons considéré uniquement des loci bialléliques, appropriés pour les faibles taux de mutation. Les loci multialléliques, en termes d'effets sur le caractère, peuvent provenir de mutations à différents sites structurels ou de contrôle. Les prédictions sont compliquées par la nécessité de considérer k(k−1)/2 valeurs génotypiques à un k locus allélique, et de nombreux autres termes épistatiques, nous considérons donc deux cas extrêmes. Si les allèles ont tous des effets similaires, par exemple en raison d'un knock-out, le taux de mutation effectif est augmenté, mais il faudrait de très nombreux sites de ce type pour que la distribution des fréquences des allèles du trait diffère grandement de la proportionnalité à 1/[p(1−p)]. Une telle ségrégation d'allèles multiples sera plus fréquente dans les grandes populations, où de toute façon la distribution de fréquence est la plus extrême, et donc l'impact est peu susceptible d'être important. Un deuxième cas est celui où tous les allèles ont des effets et des interactions de dominance différents. Toute substitution allélique produit alors un changement dans la moyenne et donc une variance additive est présente et, par exemple, contribue plus VUNE que le modèle de surdominance à p = 0.5.

Modèles alternatifs.

L'analyse que nous avons donnée pour estimer les effets de dominance et d'épistasie est pour la méthode classique utilisant des moyennes simples sur les génotypes pondérés par leurs fréquences, qui sont les estimations par les moindres carrés dans le cas équilibré et la base de l'analyse de la variance [14],[ 15],[16]. Il existe des paramétrisations alternatives visant à illustrer plus clairement la nature des interactions, dont celle de « l'épistasie physiologique » [45]. Bien que de telles alternatives puissent être utiles dans l'analyse et l'interprétation d'expériences de cartographie de gènes ou de QTL où des génotypes individuels peuvent être identifiés ou prédits à partir de marqueurs liés, de telles paramétrisations alternatives ne sont pas réalisables dans l'analyse de populations utilisant uniquement des données sur les caractères quantitatifs, à partir desquels les estimations des composantes de la variance génétique et de l'héritabilité sont obtenues. De plus, comme cela a été souligné [46], bien que les effets estimés puissent différer, les variances expliquées par différents modèles sont généralement les mêmes dans les populations en ségrégation.

Effets de la sélection sur les distributions de fréquence des gènes et la partition de la variance.

Les distributions de fréquence des gènes en « U » et en fait uniformes sont des cas limites applicables en l'absence de sélection sur des loci affectant le caractère quantitatif. Les résultats pour un large éventail de modèles peuvent être résumés comme suit : les fréquences des gènes qui causent VUNE/Vg être petit aussi cause Vg être petit. Par conséquent, lorsque VUNE et Vg sont sommés sur une gamme complète de fréquences, VUNE/Vg est large. Cette conclusion dépend du fait que la distribution des fréquences des gènes est symétrique, de sorte que les cas avec de grandes Vg et grand VUNE/Vg sont aussi fréquents que les cas avec de petits Vg et petit VUNE/Vg. L'impact de la sélection dépendra de la façon dont elle agit sur le ou les traits analysés et également sur d'autres aspects de la fitness, nous devons donc déterminer si les résultats sont robustes à la sélection.

La stabilisation de la sélection sur le trait, de sorte que les individus dont le phénotype est le plus proche d'un optimum soient les plus aptes, conduit au maintien de la moyenne de la population à ou proche de l'optimum, de sorte que les mutants sont désavantagés s'ils augmentent ou diminuent les valeurs du trait. Par conséquent, la distribution de fréquence des gènes est encore largement en forme de U, mais avec une concentration beaucoup plus proche de 0 ou 1 [47]. Par conséquent, une telle sélection est susceptible d'augmenter les proportions de variance additive. Cette conclusion serait fausse s'il y avait une surdominance généralisée au niveau des gènes individuels, car cela pousserait les fréquences des gènes à des valeurs intermédiaires. Cependant, la dépression de consanguinité observée est incompatible avec une surdominance généralisée [48].

Dans le cadre des modèles de mutation neutre ou de sélection stabilisante où les distributions de fréquence des gènes ont une forme extrême en U, la sélection directionnelle ultérieure conduira soit à une fixation rapide, soit à une augmentation à une fréquence intermédiaire des gènes affectant le trait. Même si la distribution des fréquences alléliques est initialement symétrique, on peut donc s'attendre à une nette augmentation de la variance au fil des générations [49] (Chapitre 6). Cependant, des réponses accélérées à la sélection artificielle n'ont pas été observées dans les lignées fondées sur des populations naturelles [50]. Les calculs montrent que si les gènes sont analysés indépendamment, une telle augmentation de la variance avec la sélection artificielle ne peut en théorie se produire selon le modèle neutre que si la plupart des effets des gènes sont importants (non publiés) ou avec des distributions de fréquence plus extrêmes après une sélection stabilisante [51]. Ceux-ci ignorent l'accumulation de déséquilibre gamétique négatif par l'effet Bulmer [52], cependant, alors que dans les modèles multi-locus simulés de drosophile aucune augmentation de la variance n'a été trouvée [51]. Les effets de liaison seraient plus faibles chez les espèces ayant plus de chromosomes, mais les lignées de sélection dans celles-ci n'ont généralement pas été fondées directement à partir de populations naturelles.

D'autres types de sélection conduisent à une distribution asymétrique des fréquences alléliques car l'allèle défavorable sera typiquement à une fréquence basse. Nous avons considéré le cas de gènes dont l'effet à la fois sur le caractère mesuré et sur la fitness montre une dominance complète. Ainsi, les mutants récessifs et dominants favorables et défavorables ont été considérés, et leur contribution attendue à la variance calculée au cours de leur vie à la fixation ou à la perte, en utilisant des méthodes de matrice de transition. Les résultats sont donnés dans le tableau 6 pour la taille de la population (N) 100 et valeurs sélectives (s) de l'homozygote de 0,05 (Ns = 5), mais le résultat qualitatif n'est pas affecté par l'utilisation d'une sélection plus faible ou plus forte. Les mutations délétères et récessives montrent le plus bas VUNE/Vg mais même ici, il est de 0,44 et ces cas présentent également la variance totale la plus faible. Par conséquent, dans un trait affecté par un mélange de gènes avec divers types d'action génique, VUNE/Vg est susceptible d'être bien au-dessus de 0,5.

Ainsi, si les valeurs génotypiques les plus élevées et les plus faibles correspondent à plusieurs classes homozygotes, il est clair qu'une proportion élevée de la variance devrait être génétique additive même avec la sélection. Les exceptions potentielles se produisent lorsqu'il y a un maximum à des fréquences intermédiaires, comme avec un locus surdominant ou certains des cas présentés dans le tableau 4. Néanmoins, peu de cas confirmés de surdominance claire/supériorité hétérozygote ont été trouvés (autres que la drépanocytose) et les tendances du tableau 4 sont quelque peu erratiques.

Effet de la taille de la population et des goulots d'étranglement.

L'analyse théorique a été entreprise pour de grandes populations, mais une grande partie des données expérimentales provient du bétail, des animaux de laboratoire et des humains, qui ont tous connu des goulots d'étranglement de la taille effective de la population réduite. Comme cela a été beaucoup exploré, les goulots d'étranglement de la taille de la population sont susceptibles de modifier la proportion de variation qui est additive, et par exemple d'augmenter les niveaux de VUNE pour les récessifs à basse fréquence [53] et pour « convertir » l'épistatique en variation additive [54],[55],[56],[57],[58], augmentant ainsi le rapport VUNE/Vg. Par exemple, pour le modèle additif × additif à deux locus, le rapport des variances au niveau de la consanguinité F en termes de valeurs à F = 0 est VUNE(F)/Vg(F) = (VUNE+4VFAA)/(VUNE+VAA+3VFAA) pour toute fréquence de gène (en utilisant les résultats de [54], mais pour les loci avec dominance ou interactions de dominance, VUNE(F)/Vg(F) dépend de la fréquence des gènes. Cela se produit parce que le goulot d'étranglement conduit à la dispersion des fréquences des gènes et à la réduction de l'hétérozygotie moyenne, donc pour le modèle AA, si les fréquences sont initialement intermédiaires (par exemple 0,5), il y a une augmentation substantielle de VUNE/Vg, alors que si les fréquences suivent initialement la distribution « U », il y a peu VAA initialement, la variance totale diminue et le niveau de dispersion et VUNE/Vg n'augmente pas sensiblement. En effet, pour une population qui débute avec la distribution de fréquence des gènes en forme de U, la perte d'hétérozygotie est due à la fixation. Parmi les gènes qui restent en ségrégation, la distribution des fréquences des gènes s'aplatit considérablement et, en l'absence de nouvelle mutation, se rapproche de la distribution uniforme qui a un rapport plus faible de VUNE/Vg que la distribution « U ». Cependant, malgré cela, VAA diminue plus vite que VUNE car, à mesure que les loci se fixent, le nombre de paires de loci de ségrégation diminue plus rapidement que le nombre de loci de ségrégation. Ainsi, il n'est pas évident de savoir quel effet les goulots d'étranglement dans le bétail, les laboratoires ou les populations humaines ont eu sur le ratio VUNE/Vg. Nous soupçonnons qu'il n'a pas été important car, si une réduction importante de l'hétérozygotie s'était produite, ces populations présenteraient une faible variance génétique et rien n'indique que ce soit le cas. Dans tous les cas, les résultats montrent que la conclusion selon laquelle la plupart des variances génétiques sont additives est assez robuste aux hypothèses concernant la distribution des fréquences des gènes, par exemple les distributions « U » et uniformes conduisent toutes deux qualitativement à la même conclusion.

Preuve de l'effet de la fréquence des gènes sur les composants de la variance

Un test de l'hypothèse selon laquelle l'absence de variance non additive observée dans les populations humaines ou animales est due au fait que les fréquences de gènes proches de 0,5 sont beaucoup moins fréquentes que celles plus extrêmes, et non parce que les effets non additifs sont absents, consiste à comparer les composantes de la variance entre populations avec des profils de fréquence génétique différents. Pour les cultures telles que le maïs et pour les animaux de laboratoire, les estimations peuvent être obtenues à la fois à partir de non-sangs et de populations avec des fréquences génétiques de moitié dérivées de croisements de lignées consanguines. Il y a un nombre limité de contrastes possibles et le lien confond les comparaisons de variation dans F2 et ensuite entre soi générations, cependant, il est donc difficile de répartir la variation entre un seul locus et les composants épistatiques (par exemple [17] ch. 7).

Les données les plus complètes concernent les caractères de rendement du maïs. Les grandeurs d'héritabilité et de dominance par rapport à la variance additive estimées pour différents types de populations dans un nombre important d'études (dont 24 sur F2 et 27 sur pollinisation libre, c'est-à-dire non consanguines) ont été résumés [59]. Estimations moyennes de h 2 étaient de 0,19 pour les populations à pollinisation libre, 0,23 pour les synthétiques issus de la recombinaison de nombreuses lignées, 0,24 pour F2 populations, 0,13 pour les croisements de variétés et 0,14 pour les composites. Estimations de VUNE/Vg (à partir des valeurs tabulées de V/VUNE [59]) étaient respectivement de 0,57, 0,55, 0,50, 0,42 et 0,43, ce qui n'est pas concluant mais indique une variance de dominance relativement plus importante à des fréquences de 0,5. Les analyses de l'ampleur de l'épistasie au niveau des effets, plutôt que de la variance, ne fournissent pas de modèles cohérents. Par exemple, dans deux analyses récentes d'ensembles de données substantiels de F2 populations de maïs, l'une a trouvé une épistasie importante [60] et l'autre presque aucune [61]. Dans une analyse d'une gamme de caractères dans les lignées consanguines recombinantes, F2 et triple test croisés [62] dans Arabidopsis thaliana, il y avait une variance génétique et de dominance additive substantielle pour tous les caractères, avec la plupart des estimations de V/VUNE dans la plage de 0,3 à 0,5, essentiellement pas d'effets épistatiques additifs × additifs significatifs, mais plusieurs cas d'épistasie impliquant une dominance [63].

Bien qu'il semble y avoir plus de variance de dominance dans les populations avec des fréquences de gènes de moitié qu'avec des fréquences dispersées, à partir de ces résultats, nous ne pouvons pas rejeter ou accepter l'hypothèse qu'il y a relativement beaucoup plus de variance épistatique dans ces populations. Une explication est en effet qu'il n'y a pas une grande quantité de variance épistatique dans les populations à quelque fréquence que ce soit, bien qu'une autre soit que le maïs a des quantités inhabituellement faibles d'épistasie. De nombreux QTL additifs ont été identifiés dans une analyse d'une lignée dérivée du F2 de lignées à haute et basse teneur en huile très divergentes de l'expérience de sélection de maïs à long terme de l'Illinois, mais avec presque aucune preuve d'épistasie ou d'effets de dominance [64]. En revanche, un F2 de lignées divergentes de volailles sélectionnées à long terme et un F2 des lignées consanguines de souris ont montré des effets QTL hautement épistatiques sur le poids corporel [65],[66]. Nous ne prétendons pas comprendre ces différents résultats, mais comme cela a été souligné [67], [68], les QTL avec des effets d'interaction épistatique significatifs pourraient ne pas représenter la majorité des QTL avec de petits effets contribuant aux réseaux de gènes.

Conclusions et conséquences

Nous avons résumé les preuves empiriques de l'existence d'une variation génétique non additive à travers une gamme d'espèces, y compris celle présentée ici à partir de données de jumeaux chez l'homme, et montré que la majeure partie de la variance génétique semble être génétique additive. Il y a deux explications principales, premièrement qu'il y a en effet peu d'action génique dominante ou épistatique réelle, ou deuxièmement que c'est principalement parce que les fréquences alléliques sont distribuées vers des valeurs extrêmes, comme par exemple dans le modèle de mutation neutre. La dominance complète ou partielle des gènes est courante, du moins pour ceux à effet important et une action épistatique des gènes a été rapportée dans certaines expériences QTL [8], [69]. Des analyses détaillées dans Drosophila melanogaster, en utilisant les outils moléculaires et génétiques disponibles pour cela, identifient des quantités substantielles d'épistasie, y compris des traits comportementaux [70] et le nombre de poils abdominaux [71], mais la plupart des variations génétiques dans la ségrégation des populations pour le nombre de poils semblent être additives (comme indiqué ci-dessus). Mais de nombreuses études QTL sur l'action des gènes épistatiques souffrent d'un degré élevé de tests multiples, de plus en plus, plus les loci et les ordres d'interaction sont inclus, de sorte qu'ils peuvent exagérer la quantité d'épistasie signalée. En supposant que bon nombre des effets sont bien réels, nous avons tourné notre attention vers la deuxième explication.

Les modèles théoriques que nous avons étudiés prédisent des proportions élevées de variance génétique additive même en présence d'une action génique non additive, essentiellement parce que la plupart des allèles sont susceptibles d'être à des fréquences extrêmes. Si le spectre des fréquences alléliques est indépendant des allèles dominants ou épistatiques, VUNE/Vg est grand pour presque tous les modèles de dominance et d'épistasie parce que VUNE/Vg n'est faible qu'aux fréquences alléliques où Vg est faible et contribue donc peu au total Vg. La distribution des fréquences alléliques devrait être indépendante des allèles dominants ou épistatiques pour les polymorphismes neutres, mais sous sélection naturelle, l'allèle favorable devrait être commun et conduire à des valeurs élevées ou faibles. VUNE/Vg selon qu'il est dominant (faible VUNE) ou récessif (élevé VUNE). Le cas équivalent pour l'épistasie est que toutes les combinaisons de génotypes sauf une sont favorables (faible VUNE) vs. une seule combinaison de génotypes est favorable (forte VUNE).

Si la variation génétique des caractères associés à la valeur adaptative est presque entièrement due à des gènes récessifs délétères à faible fréquence qui ne répondent pas à la sélection naturelle, ces caractères présenteraient une faible fréquence. VUNE/Vg. Cependant, ni les preuves empiriques ni la théorie ne soutiennent cette attente. Il semble y avoir une variance génétique additive substantielle pour les traits associés à la fitness [21] et la fitness elle-même [30],[31],[72]. Bien que l'héritabilité de ces caractères puisse être faible, ils présentent un coefficient de variation génétique additif élevé (évolutivité) [29], et la corrélation des enregistrements répétés est généralement légèrement supérieure à l'héritabilité (par exemple, la taille de la portée chez les porcs), indiquant que VUNE/Vg est la moitié ou plus. En accord avec cela, lorsque l'histoire de la vie des mutants récessifs délétères a été modélisée, VUNE/Vg s'est avéré être de 0,44 (tableau 6), essentiellement parce que les récessifs rares contribuent si peu à la variance, bien que la plupart soient V, dans les populations non consanguines.

Nous pensons avoir un modèle de fréquence des gènes plausible pour expliquer les quantités minimales de variance génétique non additive et en particulier épistatique. Quelles conséquences nos découvertes ont-elles ? Pour la sélection animale et végétale, maintenir l'accent sur l'utilisation de la variation additive par une sélection directe reste la meilleure stratégie. Pour la cartographie génétique, nos résultats impliquent que VUNE est important, nous devrions donc être en mesure de détecter et d'identifier les allèles ayant un effet de substitution génique significatif au sein d'une population. De telles variantes ont été rapportées à partir d'études d'association à l'échelle du génome dans la population humaine [9],[10],[11],[12],[13]. Bien qu'il puisse bien y avoir d'importants effets génétiques non additifs, le pouvoir de détecter les interactions gène-gène dans les populations non consanguines est fonction de la proportion de variance qu'ils expliquent, il sera donc difficile de détecter de telles interactions à moins que les effets ne soient importants. et les gènes ont une fréquence intermédiaire. Ainsi, nous nous attendons à ce que le succès de la réplication des effets épistatiques rapportés soit encore plus faible que pour les effets additifs ou de dominance, à la fois parce que les interactions multi-locus seront estimées avec moins de précision que les effets principaux et parce qu'elles expliquent une proportion plus faible de la variance. Enfin, si les effets épistatiques sont réels, les effets de substitution génique peuvent varier considérablement entre les populations qui diffèrent par la fréquence des allèles, de sorte que des effets significatifs dans une population peuvent ne pas se reproduire dans d'autres.