Informations

8.2 : Exemple de gènes multiples affectant un caractère - Biologie

8.2 : Exemple de gènes multiples affectant un caractère - Biologie


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Génétique de la fourrure de chat

La plupart des aspects des phénotypes de fourrure des chats communs peuvent être expliqués par l'action de quelques gènes seulement (tableau 6-2). D'autres gènes, non décrits ici, peuvent modifier davantage ces traits et expliquer les phénotypes observés chez les chats tabby et dans les races plus exotiques, telles que les siamois.

Par exemple, le X-linked Orange gène a deux formes alléliques. Les OO l'allèle produit une fourrure orange, tandis que le OB les allèles produisent une fourrure non orange (souvent noire). Notez cependant qu'en raison de l'inactivation du chromosome X, le résultat est un mosaïcisme dans l'expression. Dans OO / OB Des taches d'hétérozygotes femelles de couleur noire et orange sont visibles, ce qui produit le motif en écaille de tortue (Figure 6-13 A,B). C'est un exemple rare de co-dominance puisque le phénotype des deux allèles peut être vu. Notez que le chat de la partie A a une fourrure courte par rapport au chat de la partie B ; les allèles récessifs à un locus indépendant (L/l) produisent de longs (ll) plutôt que court (L_) fourrure.

allèles de la diluer gène affectent l'intensité de la pigmentation, que cette pigmentation soit due à un pigment noir ou orange. La partie C montre un chat noir avec au moins un allèle dominant de diluer (RÉ_), contrairement au chat en D, qui est gris plutôt que noir, car il a la jj génotype.

L'épistasie est démontrée par un allèle d'un seul des gènes du tableau (PageIndex{2}). Un allèle dominant de masquage blanc (W) empêche le développement normal des mélanocytes (cellules productrices de pigments). Par conséquent, les chats de génotype (W_) aura une fourrure entièrement blanche quel que soit le génotype à la Orange ou diluer loci (partie E). Bien que ce locus produise une couleur blanche, W_ n'est pas la même chose que l'albinisme, qui est un phénotype beaucoup plus rare causé par des mutations dans d'autres gènes. Les chats albinos se distinguent par leurs yeux rouges, tandis que W_ les chats ont les yeux qui ne sont pas rouges.

Taches pie est l'apparition de taches de fourrure blanche. Ces patchs varient en taille pour de nombreuses raisons, y compris le génotype. Chats homozygotes avec génotype ss n'ont pas de taches blanches, tandis que les chats de génotype SS et SS ont des taches blanches, et les homozygotes ont tendance à avoir une plus grande proportion de fourrure blanche que les hétérozygotes (partie F). La combinaison de taches pie et de motifs en écaille de tortue produit un chat calicot, qui a des taches séparées de fourrure orange, noire et blanche.

Tableau (PageIndex{2}) : Résumé des phénotypes et génotypes simplifiés de la fourrure de chat.
TraitPhénotypeGénotypecommentaires
longueur de fourrurecourtLL ou LlL est complètement dominant
longuell
toute la fourrure blanche (non albinos)100% fourrure blancheWW ou WWSi le chat a les yeux rouges, c'est qu'il est albinos, pas W_. W est épistatique à tous les autres gènes de couleur de fourrure ; si le chat est W_, ne peut pas déduire de génotypes pour d'autres gènes de couleur de fourrure.
ww
taches pie> 50% de taches blanches (mais pas 100%)SSS est incomplètement dominant et montre une expressivité variable
< 50 % de taches blanchesSS
pas de taches blanchesss
fourrure orangetoute la fourrure orangeXOXO ou XOOuiO est lié à l'X
panachure écaille de tortueXOXB
pas de fourrure orange (souvent noire)XBXB ou XBOui
pigmentation diluéela pigmentation est intenseJj ou jj est complètement dominant
la pigmentation est diluée (par exemple, gris plutôt que noir, crème plutôt qu'orange, brun clair plutôt que brun)jj
tigrémotif tabbyAA ou AaCeci est une simplification du phénotype tabby, qui implique plusieurs gènes
coloration solideaa
sexefemelleXX
MasculinXY

Les références

  1. Adapté from Christensen (2000) Génétique 155:999-1004)

Mendel a pu effectuer son travail d'une manière interprétable parce qu'il prenait des notes minutieuses, faisait des comptes précis et choisissait des traits qui présentaient un modèle d'expression clairement dominant ou récessif. En fait, les allèles qui présentent des modèles d'expression dominants ou récessifs simples sont parfois appelés « traits mendéliens ». Cependant, peu d'allèles se comportent d'une manière mendélienne aussi simple. Ce tutoriel explorera des modèles d'expression plus complexes. À la fin de ce didacticiel, vous devriez avoir une compréhension de base de :

  • Gènes avec plusieurs allèles
  • La distinction entre les trois types de dominance
  • Comment les gènes peuvent avoir des effets multiples
  • Comment les gènes peuvent affecter l'expression d'autres gènes
  • Pourquoi certains caractères sont contrôlés par plus d'un gène

Dominance incomplète

Dans les expériences de Mendel, la progéniture ressemblait toujours à l'un des deux phénotypes en raison de la domination totale d'un allèle sur l'autre pour les caractères qui avaient deux traits. Ce n'est pas toujours le cas car certains gènes présentent dominance incomplète. Dans ce type de relation de dominance entre deux allèles, les individus hétérozygotes présentent un phénotype intermédiaire entre les individus homozygotes. . Par exemple, la figure 1 illustre le résultat d'un croisement entre un muflier à fleurs rouges et un à fleurs blanches la progéniture dans le F1 avoir des fleurs roses. Dans ce cas, aucun des allèles de la couleur des fleurs n'est complètement dominant par rapport à l'autre. Par conséquent, les individus hétérozygotes ont un phénotype différent de ceux avec l'un ou l'autre ensemble d'allèles homozygotes.


Figure 1. Domination incomplète de la couleur muflier. (Cliquez sur l'image pour l'agrandir).

Comme le montre la figure 1, le carré de Punnett pour ce croisement est semblable à celui de tout autre croisement monohybride. Cependant, le rapport des phénotypes dans le F2 la génération n'est pas 3:1 (dominante:récessive), comme on le voit avec des allèles complètement dominants, mais plutôt un rapport 1:2:1 de fleurs rouges:roses:blanches. Dans cet exemple, les allèles sont représentés différemment que dans les exemples précédents. Étant donné qu'aucun des allèles n'est dominant par rapport à l'autre, l'utilisation d'une version majuscule et minuscule de la même lettre n'est pas appropriée. Dans cet exemple, le caractère (couleur de la fleur) est indiqué par une lettre (C), et les allèles codant le trait (blanc ou rouge) sont répertoriés en indices majuscules (ils sont tous les deux en majuscules car aucun n'est dominant par rapport à l'autre). Vous pouvez voir d'autres représentations symboliques pour une dominance incomplète, mais ne vous laissez pas embrouiller par cela. La chose importante à savoir est que certains gènes sont exprimés de manière dominante incomplète.

Sur le site Web suivant, trouvez la bonne réponse aux questions croisées monohybrides ou dihybrides à choix multiples. Résolvez chaque problème par vous-même. Pour afficher une explication du problème, sélectionnez le bouton "TUTORIAL". Après avoir consulté la bonne réponse, fermez la fenêtre Monohybrid Cross Problem Set ou Dihybrid Cross pour revenir à cette page. (Remarque : ces sites font partie des ensembles de problèmes monohybrides et dihybrides fournis par le projet de biologie de l'Université de l'Arizona.)

Problème 9 : Dominance incomplète - Ce problème fait partie de l'ensemble de problèmes croisés monohybrides.

Problème 10 : Disparition des phénotypes parentaux dans la génération F1 - Ce problème fait également partie du Monohybrid Cross Problem Set.

Problème 11 : Dominance incomplète dans un croisement dihybride - Ce problème fait partie de l'ensemble de problèmes de croisement dihybride.


Héritage simple

L'héritage simple décrit les caractéristiques phénotypiques qui apparaissent sous l'une des deux formes. Ils peuvent être déterminés par un seul gène ou plus d'un gène, mais la caractéristique héritée est là ou non. Des exemples d'hérédité simple des phénotypes dominants sont le syndrome d'Achoo (c'est-à-dire que le flash d'un appareil photo vous fait éternuer), une fente au menton, une myopie précoce (myopie infantile), un petit doigt courbé, des fossettes faciales, l'étreinte de la main (pouce gauche sur le dessus ), des poils sur l'articulation médiane de vos doigts et la capacité de rouler votre langue en forme de « O ».


Contenu

Une approche générale lors du calcul d'alignements de séquences multiples consiste à utiliser des graphiques pour identifier tous les différents alignements. Lors de la recherche d'alignements via un graphique, un alignement complet est créé dans un graphe pondéré qui contient un ensemble de sommets et un ensemble d'arêtes. Chacune des arêtes du graphique a un poids basé sur une certaine heuristique qui aide à marquer chaque alignement ou un sous-ensemble du graphique d'origine.

Traçage des alignements Modifier

Lors de la détermination des alignements les mieux adaptés pour chaque MSA, un trace est généralement généré. Une trace est un ensemble de réalisé, ou des sommets correspondants et alignés qui ont un poids spécifique basé sur les arêtes sélectionnées entre les sommets correspondants. Lors du choix des traces pour un ensemble de séquences, il est nécessaire de choisir une trace avec un poids maximum pour obtenir le meilleur alignement des séquences.

Il existe diverses méthodes d'alignement utilisées dans plusieurs séquences pour maximiser les scores et l'exactitude des alignements. Chacun est généralement basé sur une certaine heuristique avec un aperçu du processus évolutif. La plupart essaient de reproduire l'évolution pour obtenir l'alignement le plus réaliste possible afin de mieux prédire les relations entre les séquences.

Programmation dynamique Modifier

Une méthode directe de production d'un MSA utilise la technique de programmation dynamique pour identifier la solution d'alignement globalement optimale. Pour les protéines, cette méthode implique généralement deux ensembles de paramètres : une pénalité d'écart et une matrice de substitution attribuant des scores ou des probabilités à l'alignement de chaque paire possible d'acides aminés en fonction de la similitude des propriétés chimiques des acides aminés et de la probabilité évolutive de la mutation. Pour les séquences nucléotidiques, une pénalité d'écart similaire est utilisée, mais une matrice de substitution beaucoup plus simple, dans laquelle seules les correspondances et les mésappariements identiques sont pris en compte, est typique. Les scores dans la matrice de substitution peuvent être soit tous positifs, soit un mélange de positifs et négatifs dans le cas d'un alignement global, mais doivent être à la fois positifs et négatifs, dans le cas d'un alignement local. [4]

Pour m séquences individuelles, la méthode naïve nécessite de construire le m-équivalent dimensionnel de la matrice formée dans un alignement de séquences par paires standard. L'espace de recherche augmente donc de façon exponentielle avec l'augmentation m et dépend également fortement de la longueur de la séquence. Exprimé avec la grande notation O couramment utilisée pour mesurer la complexité de calcul, un MSA naïf prend O(Longueur Nseqs ) le temps de produire. Pour trouver l'optimum global pour m séquences de cette façon s'est avéré être un problème NP-complet. [5] [6] [7] En 1989, basé sur l'algorithme de Carrillo-Lipman, [8] Altschul a introduit une méthode pratique qui utilise des alignements par paires pour contraindre l'espace de recherche n-dimensionnel. [9] Dans cette approche, des alignements de programmation dynamique par paires sont effectués sur chaque paire de séquences dans l'ensemble de requêtes, et seul l'espace près de l'intersection à n dimensions de ces alignements est recherché pour l'alignement à n voies. Le programme MSA optimise la somme de toutes les paires de caractères à chaque position de l'alignement (ce qu'on appelle somme de paire score) et a été implémenté dans un logiciel pour construire des alignements de séquences multiples. [10] En 2019, Hosseininasab et van Hoeve ont montré qu'en utilisant des diagrammes de décision, la MSA peut être modélisée en complexité spatiale polynomiale. [3]

Construction d'alignement progressif Modifier

L'approche la plus largement utilisée pour les alignements de séquences multiples utilise une recherche heuristique connue sous le nom de technique progressive (également connue sous le nom de méthode hiérarchique ou arborescente) développée par Da-Fei Feng et Doolittle en 1987. [11] L'alignement progressif construit un MSA final en combinant alignements par paires commençant par la paire la plus similaire et progressant vers la plus éloignée. Toutes les méthodes d'alignement progressif nécessitent deux étapes : une première étape dans laquelle les relations entre les séquences sont représentées sous la forme d'un arbre, appelé un arbre de guidage, et une deuxième étape dans laquelle le MSA est construit en ajoutant les séquences séquentiellement au MSA croissant selon l'arbre guide. La première arbre de guidage est déterminé par une méthode de clustering efficace telle que la jointure par les voisins ou UPGMA, et peut utiliser des distances basées sur le nombre de sous-séquences identiques de deux lettres (comme dans FASTA plutôt qu'un alignement de programmation dynamique). [12]

Il n'est pas garanti que les alignements progressifs soient globalement optimaux. Le problème principal est que lorsque des erreurs sont commises à n'importe quel stade de la croissance du MSA, ces erreurs sont ensuite propagées jusqu'au résultat final. Les performances sont également particulièrement mauvaises lorsque toutes les séquences de l'ensemble sont assez éloignées. La plupart des méthodes progressives modernes modifient leur fonction de notation avec une fonction de pondération secondaire qui attribue des facteurs d'échelle aux membres individuels de l'ensemble de requêtes de manière non linéaire en fonction de leur distance phylogénétique par rapport à leurs voisins les plus proches. Ceci corrige la sélection non aléatoire des séquences données au programme d'alignement. [12]

Les méthodes d'alignement progressif sont suffisamment efficaces pour être mises en œuvre à grande échelle pour de nombreuses séquences (100 à 1000). Les services d'alignement progressif sont généralement disponibles sur des serveurs Web accessibles au public, de sorte que les utilisateurs n'ont pas besoin d'installer localement les applications qui les intéressent. La méthode d'alignement progressif la plus populaire a été la famille Clustal, [13] en particulier la variante pondérée ClustalW [14] à laquelle l'accès est fourni par un grand nombre de portails Web, notamment GenomeNet, EBI et EMBNet. Différents portails ou implémentations peuvent varier dans l'interface utilisateur et rendre différents paramètres accessibles à l'utilisateur. ClustalW est largement utilisé pour la construction d'arbres phylogénétiques, malgré les avertissements explicites de l'auteur selon lesquels les alignements non édités ne doivent pas être utilisés dans de telles études et comme entrée pour la prédiction de la structure des protéines par la modélisation d'homologie. La version actuelle de la famille Clustal est ClustalW2. L'EMBL-EBI a annoncé que CLustalW2 expirera en août 2015. Ils recommandent Clustal Omega qui fonctionne sur la base d'arbres guides ensemencés et de techniques de profil-profil HMM pour l'alignement des protéines. Ils offrent différents outils MSA pour les alignements progressifs de l'ADN. L'un d'eux est MAFFT (alignement multiple utilisant la transformée de Fourier rapide). [15]

Une autre méthode d'alignement progressif courante appelée T-Coffee [16] est plus lente que Clustal et ses dérivés, mais produit généralement des alignements plus précis pour des ensembles de séquences éloignés. T-Coffee calcule les alignements par paires en combinant l'alignement direct de la paire avec des alignements indirects qui aligne chaque séquence de la paire sur une troisième séquence. Il utilise la sortie de Clustal ainsi qu'un autre programme d'alignement local LALIGN, qui trouve plusieurs régions d'alignement local entre deux séquences. L'alignement et l'arbre phylogénétique qui en résultent sont utilisés comme guide pour produire de nouveaux facteurs de pondération plus précis.

Étant donné que les méthodes progressives sont des heuristiques dont la convergence vers un optimum global n'est pas garantie, la qualité de l'alignement peut être difficile à évaluer et leur véritable signification biologique peut être obscure. Une méthode semi-progressive qui améliore la qualité de l'alignement et n'utilise pas d'heuristique avec perte tout en s'exécutant en temps polynomial a été implémentée dans le programme PSAlign. [17]

Méthodes itératives Modifier

Un ensemble de méthodes pour produire des MSA tout en réduisant les erreurs inhérentes aux méthodes progressives est classée comme « itérative » car elles fonctionnent de manière similaire aux méthodes progressives mais réalignent à plusieurs reprises les séquences initiales ainsi qu'en ajoutant de nouvelles séquences au MSA en croissance. L'une des raisons pour lesquelles les méthodes progressives dépendent si fortement d'un alignement initial de haute qualité est le fait que ces alignements sont toujours incorporés dans le résultat final, c'est-à-dire qu'une fois qu'une séquence a été alignée dans le MSA, son alignement n'est plus pris en compte. Cette approximation améliore l'efficacité au détriment de la précision. En revanche, les méthodes itératives peuvent revenir à des alignements par paires ou à des sous-MSA précédemment calculés incorporant des sous-ensembles de la séquence de requête comme moyen d'optimiser une fonction objectif générale telle que la recherche d'un score d'alignement de haute qualité. [12]

Une variété de méthodes d'itération subtilement différentes ont été mises en œuvre et mises à disposition dans des revues de progiciels et des comparaisons ont été utiles mais s'abstiennent généralement de choisir une "meilleure" technique. [18] Le progiciel PRRN/PRRP utilise un algorithme d'escalade pour optimiser son score d'alignement MSA [19] et corrige de manière itérative à la fois les poids d'alignement et les régions localement divergentes ou « vides » du MSA en croissance. [12] PRRP fonctionne mieux lors du raffinement d'un alignement précédemment construit par une méthode plus rapide. [12]

Un autre programme itératif, DIALIGN, adopte une approche inhabituelle en se concentrant étroitement sur les alignements locaux entre les sous-segments ou les motifs de séquence sans introduire de pénalité d'écart. [20] L'alignement des motifs individuels est ensuite réalisé avec une représentation matricielle similaire à un tracé matriciel dans un alignement par paires. Une méthode alternative qui utilise des alignements locaux rapides comme points d'ancrage ou "graines" pour une procédure d'alignement global plus lente est implémentée dans la suite CHAOS/DIALIGN. [20]

Une troisième méthode populaire basée sur l'itération appelée MUSCLE (alignement de séquences multiples par attente logarithmique) améliore les méthodes progressives avec une mesure de distance plus précise pour évaluer la relation entre deux séquences. [21] La mesure de distance est mise à jour entre les étapes d'itération (bien que, dans sa forme originale, MUSCLE ne contenait que 2-3 itérations selon que le raffinement était activé ou non).

Méthodes de consensus Modifier

Les méthodes de consensus tentent de trouver l'alignement optimal de séquences multiples étant donné plusieurs alignements différents du même ensemble de séquences. Il existe deux méthodes de consensus couramment utilisées, M-COFFEE et MergeAlign. [22] M-COFFEE utilise des alignements de séquences multiples générés par sept méthodes différentes pour générer des alignements consensus. MergeAlign est capable de générer des alignements consensus à partir de n'importe quel nombre d'alignements d'entrée générés à l'aide de différents modèles d'évolution de séquences ou de différentes méthodes d'alignement de séquences multiples. L'option par défaut pour MergeAlign consiste à déduire un alignement consensus à l'aide d'alignements générés à l'aide de 91 modèles différents d'évolution de séquences protéiques.

Modèles cachés de Markov Modifier

Les modèles de Markov cachés sont des modèles probabilistes qui peuvent attribuer des probabilités à toutes les combinaisons possibles d'écarts, de correspondances et de discordances afin de déterminer le MSA le plus probable ou l'ensemble de MSA possibles. Les HMM peuvent produire une seule sortie avec le score le plus élevé, mais peuvent également générer une famille d'alignements possibles qui peuvent ensuite être évalués pour leur importance biologique. Les HMM peuvent produire des alignements globaux et locaux. Bien que les méthodes basées sur HMM aient été développées relativement récemment, elles offrent des améliorations significatives de la vitesse de calcul, en particulier pour les séquences contenant des régions qui se chevauchent. [12]

Les méthodes typiques basées sur HMM fonctionnent en représentant un MSA sous la forme d'un graphe acyclique dirigé connu sous le nom de graphe d'ordre partiel, qui consiste en une série de nœuds représentant des entrées possibles dans les colonnes d'un MSA. Dans cette représentation, une colonne qui est absolument conservée (c'est-à-dire que toutes les séquences du MSA partagent un caractère particulier à une position particulière) est codée comme un seul nœud avec autant de connexions sortantes qu'il y a de caractères possibles dans la colonne suivante de l'alignement. Dans les termes d'un modèle de Markov caché typique, les états observés sont les colonnes d'alignement individuelles et les états "cachés" représentent la séquence ancestrale présumée à partir de laquelle les séquences de l'ensemble de requêtes sont supposées être descendues. Une variante de recherche efficace de la méthode de programmation dynamique, connue sous le nom d'algorithme de Viterbi, est généralement utilisée pour aligner successivement le MSA croissant sur la séquence suivante dans l'ensemble de requêtes pour produire un nouveau MSA. [23] Ceci est distinct des méthodes d'alignement progressif car l'alignement des séquences antérieures est mis à jour à chaque nouvelle addition de séquence. Cependant, comme les méthodes progressives, cette technique peut être influencée par l'ordre dans lequel les séquences de l'ensemble de requêtes sont intégrées dans l'alignement, en particulier lorsque les séquences sont éloignées. [12]

Plusieurs logiciels sont disponibles dans lesquels des variantes de méthodes basées sur HMM ont été implémentées et qui sont connus pour leur évolutivité et leur efficacité, bien que l'utilisation correcte d'une méthode HMM soit plus complexe que l'utilisation de méthodes progressives plus courantes. La plus simple est POA (Partial-Order Alignment) [24] une méthode similaire mais plus généralisée est implémentée dans les packages SAM (Sequence Alignment and Modeling System). [25] et HMMER. [26] SAM a été utilisé comme source d'alignements pour la prédiction de la structure des protéines pour participer à l'expérience de prédiction de la structure CASP et pour développer une base de données de protéines prédites dans les espèces de levure S. cerevisiae. HHsearch [27] est un progiciel pour la détection de séquences de protéines liées à distance basé sur la comparaison par paires de HMM. Un serveur exécutant HHsearch (HHpred) était de loin le plus rapide des 10 meilleurs serveurs de prédiction de structure automatique dans les compétitions de prédiction de structure CASP7 et CASP8. [28]

Méthodes sensibles à la phylogénie Modifier

La plupart des méthodes d'alignement de séquences multiples essaient de minimiser le nombre d'insertions/suppressions (lacunes) et, par conséquent, de produire des alignements compacts. Cela pose plusieurs problèmes si les séquences à aligner contiennent des régions non homologues, si les lacunes sont informatives dans une analyse de phylogénie. Ces problèmes sont courants dans les séquences nouvellement produites qui sont mal annotées et peuvent contenir des décalages de trame, des domaines erronés ou des exons épissés non homologues. La première de ces méthodes a été développée en 2005 par Löytynoja et Goldman. [29] Les mêmes auteurs ont publié un progiciel appelé BLAGUE en 2008. [30] PRANK améliore les alignements lorsque des insertions sont présentes. Néanmoins, elle fonctionne lentement par rapport aux méthodes progressives et/ou itératives développées depuis plusieurs années.

En 2012, deux nouveaux outils sensibles à la phylogénie sont apparus. L'un s'appelle PAÏEN qui a été développé par la même équipe que PRANK. [31] L'autre est ProGraphMSA développé par Szalkowski. [32] Les deux progiciels ont été développés indépendamment mais partagent des caractéristiques communes, notamment l'utilisation d'algorithmes de graphes pour améliorer la reconnaissance des régions non homologues, et une amélioration du code rendant ces logiciels plus rapides que PRANK.

Recherche de motifs Modifier

La recherche de motifs, également connue sous le nom d'analyse de profil, est une méthode de localisation des motifs de séquence dans les MSA globales qui est à la fois un moyen de produire un meilleur MSA et un moyen de produire une matrice de notation à utiliser pour rechercher d'autres séquences pour des motifs similaires. Une variété de méthodes pour isoler les motifs ont été développées, mais toutes sont basées sur l'identification de motifs courts hautement conservés dans le plus grand alignement et la construction d'une matrice similaire à une matrice de substitution qui reflète la composition en acides aminés ou en nucléotides de chaque position dans le motif putatif. . L'alignement peut ensuite être affiné à l'aide de ces matrices. Dans l'analyse de profil standard, la matrice comprend des entrées pour chaque caractère possible ainsi que des entrées pour les écarts. [12] Alternativement, les algorithmes de recherche de motifs statistiques peuvent identifier les motifs comme un précurseur d'un MSA plutôt que comme une dérivation. Dans de nombreux cas, lorsque l'ensemble de requêtes ne contient qu'un petit nombre de séquences ou contient uniquement des séquences fortement liées, des pseudo-comptes sont ajoutés pour normaliser la distribution reflétée dans la matrice de notation. En particulier, cela corrige les entrées de probabilité zéro dans la matrice aux valeurs qui sont petites mais non nulles.

L'analyse des blocs est une méthode de recherche de motifs qui restreint les motifs aux régions non appariées de l'alignement. Les blocs peuvent être générés à partir d'un MSA ou ils peuvent être extraits de séquences non alignées en utilisant un ensemble précalculé de motifs communs précédemment générés à partir de familles de gènes connues. [33] La notation par blocs repose généralement sur l'espacement des caractères à haute fréquence plutôt que sur le calcul d'une matrice de substitution explicite. Le serveur BLOCKS fournit une méthode interactive pour localiser de tels motifs dans des séquences non alignées.

L'appariement statistique de modèles a été mis en œuvre en utilisant à la fois l'algorithme de maximisation des attentes et l'échantillonneur de Gibbs. L'un des outils de recherche de motifs les plus courants, connu sous le nom de MEME, utilise la maximisation des attentes et les méthodes de Markov cachées pour générer des motifs qui sont ensuite utilisés comme outils de recherche par son compagnon MAST dans la suite combinée MEME/MAST. [34] [35]

Alignement de séquences multiples non codant

Les régions d'ADN non codantes, en particulier les TFBS, sont plutôt plus conservées et pas nécessairement liées à l'évolution, et peuvent avoir convergé à partir d'ancêtres non communs. Ainsi, les hypothèses utilisées pour aligner les séquences protéiques et les régions codantes d'ADN sont intrinsèquement différentes de celles qui s'appliquent aux séquences TFBS. Bien qu'il soit significatif d'aligner les régions codant l'ADN pour des séquences homologues à l'aide d'opérateurs de mutation, l'alignement des séquences de sites de liaison pour le même facteur de transcription ne peut pas reposer sur des opérations de mutation liées à l'évolution. De même, l'opérateur évolutif des mutations ponctuelles peut être utilisé pour définir une distance d'édition pour les séquences codantes, mais cela a peu de sens pour les séquences TFBS car toute variation de séquence doit maintenir un certain niveau de spécificité pour que le site de liaison fonctionne. Cela devient particulièrement important lorsque vous essayez d'aligner des séquences TFBS connues pour créer des modèles supervisés afin de prédire des emplacements inconnus du même TFBS. Par conséquent, les méthodes d'alignement de séquences multiples doivent ajuster l'hypothèse évolutive sous-jacente et les opérateurs utilisés comme dans les travaux publiés incorporant des informations thermodynamiques de base voisines [36] pour aligner les sites de liaison à la recherche de l'alignement thermodynamique le plus bas en conservant la spécificité du site de liaison, EDNA.

Algorithmes génétiques et recuit simulé Modifier

Des techniques d'optimisation standard en informatique - qui ont toutes deux été inspirées par, mais ne reproduisent pas directement, des processus physiques - ont également été utilisées pour tenter de produire plus efficacement des MSA de qualité. Une de ces techniques, les algorithmes génétiques, a été utilisée pour la production de MSA dans le but de simuler largement le processus évolutif hypothétique qui a donné lieu à la divergence dans l'ensemble de requêtes. La méthode fonctionne en brisant une série de MSA possibles en fragments et en réarrangeant à plusieurs reprises ces fragments avec l'introduction d'espaces à différentes positions. Une fonction objectif générale est optimisée au cours de la simulation, le plus généralement la fonction de maximisation "somme de paires" introduite dans les méthodes MSA basées sur la programmation dynamique. Une technique de séquences protéiques a été implémentée dans le logiciel SAGA (Sequence Alignment by Genetic Algorithm) [37] et son équivalent en ARN s'appelle RAGA. [38]

La technique de recuit simulé, par laquelle un MSA existant produit par une autre méthode est affiné par une série de réarrangements conçus pour trouver de meilleures régions d'espace d'alignement que celle que l'alignement d'entrée occupe déjà. Comme la méthode de l'algorithme génétique, le recuit simulé maximise une fonction objective comme la fonction de somme de paires. Le recuit simulé utilise un "facteur de température" métaphorique qui détermine la vitesse à laquelle les réarrangements se déroulent et la probabilité de chaque réarrangement L'utilisation typique alterne des périodes de taux de réarrangement élevés avec une probabilité relativement faible (pour explorer des régions plus éloignées de l'espace d'alignement) avec des périodes de taux inférieur et des probabilités plus élevées d'explorer plus en profondeur les minima locaux à proximité des régions nouvellement "colonisées". Cette approche a été implémentée dans le programme MSASA (Multiple Sequence Alignment by Simulated Annealing). [39]

Programmation mathématique et algorithmes de solution exacte Modifier

La programmation mathématique et en particulier les modèles de programmation en nombres entiers mixtes sont une autre approche pour résoudre les problèmes MSA. L'avantage de tels modèles d'optimisation est qu'ils peuvent être utilisés pour trouver la solution MSA optimale plus efficacement par rapport à l'approche DP traditionnelle. Cela est dû en partie à l'applicabilité des techniques de décomposition pour les programmes mathématiques, où le modèle MSA est décomposé en parties plus petites et résolu de manière itérative jusqu'à ce que la solution optimale soit trouvée. Les exemples d'algorithmes utilisés pour résoudre les modèles de programmation en nombres entiers mixtes de MSA incluent la décomposition de branche et de prix [40] et la décomposition de Benders. [3] Bien que les approches exactes soient lentes en calcul par rapport aux algorithmes heuristiques pour MSA, elles sont garanties d'atteindre la solution optimale à terme, même pour les problèmes de grande taille.

Calcul quantique simulé Modifier

En janvier 2017, D-Wave Systems a annoncé que son logiciel d'informatique quantique open source qbsolv avait été utilisé avec succès pour trouver une solution plus rapide au problème MSA. [41]

L'utilisation nécessaire d'heuristiques pour l'alignement multiple signifie que pour un ensemble arbitraire de protéines, il y a toujours de bonnes chances qu'un alignement contienne des erreurs. Par exemple, une évaluation de plusieurs programmes d'alignement de premier plan à l'aide du benchmark BAliBase a révélé qu'au moins 24% de toutes les paires d'acides aminés alignés étaient incorrectement alignés. [2] Ces erreurs peuvent survenir en raison d'insertions uniques dans une ou plusieurs régions de séquences, ou par le biais d'un processus évolutif plus complexe conduisant à des protéines qui ne s'alignent pas facilement par séquence seule. Au fur et à mesure que le nombre de séquences et leur divergence augmentent, beaucoup plus d'erreurs seront commises simplement à cause de la nature heuristique des algorithmes MSA. Les visionneuses d'alignement de séquences multiples permettent de revoir visuellement les alignements, souvent en inspectant la qualité de l'alignement pour les sites fonctionnels annotés sur deux séquences ou plus. Beaucoup permettent également de modifier l'alignement pour corriger ces erreurs (généralement mineures), afin d'obtenir un alignement « organisé » optimal adapté à une utilisation dans l'analyse phylogénétique ou la modélisation comparative. [42]

Cependant, à mesure que le nombre de séquences augmente et en particulier dans les études à l'échelle du génome qui impliquent de nombreux MSA, il est impossible de gérer manuellement tous les alignements. De plus, la curation manuelle est subjective. Et enfin, même le meilleur expert ne peut pas aligner avec confiance les cas les plus ambigus de séquences très divergentes. Dans de tels cas, il est courant d'utiliser des procédures automatiques pour exclure les régions alignées de manière non fiable de la MSA. Aux fins de la reconstruction de la phylogénie (voir ci-dessous), le programme Gblocks est largement utilisé pour supprimer les blocs d'alignement suspects de faible qualité, selon divers seuils sur le nombre de séquences vides dans les colonnes d'alignement. [43] Cependant, ces critères peuvent filtrer excessivement les régions avec des événements d'insertion/suppression qui peuvent encore être alignés de manière fiable, et ces régions pourraient être souhaitables à d'autres fins telles que la détection de sélection positive. Quelques algorithmes d'alignement génèrent des scores spécifiques au site qui permettent la sélection de régions à haute confiance. Un tel service a été proposé pour la première fois par le programme SOAP, [44] qui teste la robustesse de chaque colonne à la perturbation des paramètres du programme d'alignement populaire CLUSTALW. Le programme T-Coffee [45] utilise une bibliothèque d'alignements dans la construction du MSA final, et son MSA de sortie est coloré en fonction des scores de confiance qui reflètent l'accord entre les différents alignements de la bibliothèque concernant chaque résidu aligné. Son extension, TCS : (Trancitif Cpersistance Score), utilise les bibliothèques T-Coffee d'alignements par paires pour évaluer tout MSA tiers. Les projections par paires peuvent être produites à l'aide de méthodes rapides ou lentes, permettant ainsi un compromis entre vitesse et précision. [46] [47] Un autre programme d'alignement qui peut sortir un MSA avec des scores de confiance est FSA, [48] qui utilise un modèle statistique qui permet le calcul de l'incertitude dans l'alignement. Le score HoT (Heads-Or-Tails) peut être utilisé comme mesure de l'incertitude d'alignement spécifique au site en raison de l'existence de plusieurs solutions co-optimales. [49] The GUIDANCE program [50] calculates a similar site-specific confidence measure based on the robustness of the alignment to uncertainty in the guide tree that is used in progressive alignment programs. An alternative, more statistically justified approach to assess alignment uncertainty is the use of probabilistic evolutionary models for joint estimation of phylogeny and alignment. A Bayesian approach allows calculation of posterior probabilities of estimated phylogeny and alignment, which is a measure of the confidence in these estimates. In this case, a posterior probability can be calculated for each site in the alignment. Such an approach was implemented in the program BAli-Phy. [51]

There are free programs available for visualization of multiple sequence alignments, for example Jalview and UGENE.

Multiple sequence alignments can be used to create a phylogenetic tree. [52] This is made possible by two reasons. The first is because functional domains that are known in annotated sequences can be used for alignment in non-annotated sequences. The other is that conserved regions known to be functionally important can be found. This makes it possible for multiple sequence alignments to be used to analyze and find evolutionary relationships through homology between sequences. Point mutations and insertion or deletion events (called indels) can be detected.

Multiple sequence alignments can also be used to identify functionally important sites, such as binding sites, active sites, or sites corresponding to other key functions, by locating conserved domains. When looking at multiple sequence alignments, it is useful to consider different aspects of the sequences when comparing sequences. These aspects include identity, similarity, and homology. Identity means that the sequences have identical residues at their respective positions. On the other hand, similarity has to do with the sequences being compared having similar residues quantitatively. For example, in terms of nucleotide sequences, pyrimidines are considered similar to each other, as are purines. Similarity ultimately leads to homology, in that the more similar sequences are, the closer they are to being homologous. This similarity in sequences can then go on to help find common ancestry. [52]


Evolution of complexity: genic, genomic, and developmental

Studies in arthropods have led to major insights into the complexity of developmental mechanisms and evolutionary changes. Experiments on the fruit fly Drosophila melanogaster have uncovered the complexity of gene interaction networks during early development 25,26 . For example, the earliest set of genes that are activated in the embryo, termed the ‘maternal’ class of genes, help establish body axes. Subsequent to the formation of body plan, segments and polarities of segments require the function of genes belonging to zygotic, gap, pair-rule, and segment polarity classes 27 . The cooperative and antagonistic actions between these genes ensure a precise and robust sequence of developmental events in the embryo, leading to the formation of tissues and organs at later stages. While the entire developmental process encoded in the DNA sequence is a necessary component of evolution, the individual mutations involved are not uniquely necessary they can be replaced with others. Genomic and proteomic studies are providing insight into the old question of developmental constraints in evolution. Recent studies have shown that developmental constraint and selection work together: development can constrain evolution in the short term, but selection can alter and reshape those constraints in the long term 28,29 . While developmental constraint on genes affecting embryology is not unexpected, as shown by Artieri and Singh 30 using patterns of gene expression during Drosophile ontogeny, it is not development but Darwinian ‘selection opportunity’ that dictates post-embryological diversification 4,30,31 .

Technological advancements over the last decade have made efficient large-scale genome sequencing of organisms easily available. The analysis of sequence data has revealed the structure of genes, gene families, and their chromosomal organizations (e.g., see www.genecards.org, www.informatics.jax.org, www.flybase.org, and www.wormbase.org). Genomic data together with gene expression studies are providing insight not only into the history of evolution but also on the type and extent of standing variation in populations. Some of the highlights reported by these studies are summarized below.

Number of genes do not correlate with complexity

While higher organisms have more protein coding genes, variation in gene number does not strongly correlate with morphological complexity. For example, the nematode C. elegans has more genes than the fruit fly D. melanogaster, but the latter has appendages and is morphologically more complex. Protein-coding genes in humans, excluding splicing variants, are converging toward 20,000, even though the entire genome is predicted to code over 200,000 transcripts 32 . In addition to mRNA and proteins, there are increasing numbers of non-coding RNA transcripts in metazoan genomes such as micro RNA (miRNA) and long non-coding RNA (lncRNA) 33 . In humans, there are more non-coding RNA genes than protein-coding genes 32 .

Evolution occurs by making alternate use of genes

Evolution occurs by making alternate uses of existing genes through structural 34,35,36 and regulatory changes 37,38 . This is reflected in the 99% sequence similarity shared by humans and chimpanzees, with only 6% of the genes in one species lacking a known homolog in the other 39 . Despite such a high level of sequence conservation, about 80% of proteins in humans and chimps differ in at least one amino acid 35 and 10% of genes between humans and chimpanzees differ in their expression in the brains of the two species 40,41 .

Number of genes affecting a trait appears large

The notion of candidate genes/loci persists and guides much of health genomics for practical reasons. Studies involving the mapping of quantitative trait loci (QTL) have shown that, directly and indirectly, traits are affected by a large number of genes 42,43 . As an example, early studies of variation in human height initially implicated half a dozen to a dozen genes. A recent genomic meta-analysis of human height variation involving over 700,000 individuals has detected over 3290 significant SNPs 44 . Yet together, these SNPs may account for only 24% of the variance in height. The same is largely true for all complex diseases. Genomics is driving home the lesson that there are protein-coding and non-coding genes that perform a variety of functions, but there are no genes specific for a trait. Genome-wide association studies (GWAS) have led to the identification of genes linked to specific traits and diseases 45 (https://www.genome.gov/about-genomics/fact-sheets/Genome-Wide-Association-Studies-Fact-Sheet). The data reveal that genes are shared between traits. A recent paper by Boyle et al. presents an ‘omnigenic’ model of complex traits 46 , proposing that all genes expressed in disease-relevant cells are involved in a functional network and hence contribute to the condition.

A significant part of non-coding DNA may be involved in regulation

The ENCODE project (Encyclopedia of DNA Elements the ENCODE Project Consortium 2012) initially reported a large proportion of the genome to be functional, but ultimately scaled it down to approximately10%. This added to the ‘junk DNA’ debate and questions regarding the proper biological function of a gene 47,48 . Although a large proportion of mammalian DNA may have no necessary or essential function, this should not be interpreted as lacking in function or being inert. Such apparently ‘non-functional’ DNA may be part of the unnecessary complexity of the uncommitted ‘gene pool’—part of current phenotypic plasticity devoid of teleological explanation for future use.

Phylogenetic gene complexity shows the same function can be shaped by different genes

Recent genomic studies of protein evolution in anatomical traits of D. melanogaster embryos showed that younger genes, i.e., genes that are comparatively newer based on phylogenetic analysis, had lesser tissue distribution, fewer interactions, high expression levels, and less evolutionary constraint 49,50 . Given that the function of a gene is not fixed and functions evolve between genes as well as within genes over time, we can expect the complexity of interaction networks of newer genes to increase with time. In a study of adaptation in protein-coding gene trees in the primate clade, Daub et al. 51 remarked: ‘several gene sets are found significant at multiple levels in the phylogeny, but different genes are responsible for the selection signal in the different branches. This suggests that the same function has been optimized in different ways at different times in primate evolution.’

Evolution by gene regulation is not ‘break free’

In the post genomic world, the old ‘major vs. minor’ or ‘regulatory vs. structural’ mutation debate has been restructured and refined in terms of the role of cis-regulation vs. structural mutation in evolution 52,53,54 . Mutations in ‘cis’ elements generally affect the expression of individual genes, possibly contributing to regulatory evolution 54 . However, there are also examples of stabilizing selection operating on gene expression that tends to compensate for ‘cis’ changes (e.g., see ref. 55 ), leading to the evolution of biological complexity. While new cases of evolution by cis-regulatory mutations are being discovered, they are still far fewer than those by coding mutations 52,53 . Although the importance of cis-regulatory mutations in evolution is well documented, the real question involves neither their crucial role nor their unique contribution to the evolution of morphology. Instead, it is whether cis-regulatory mutations provide a source of variation that, unlike protein-coding mutations, is potentially large and pleiotropy-free, i.e., have no deleterious side effects and provide possibilities for ‘break-free’ evolutionary change. It is erroneous to argue that, unlike protein-coding variation, cis-regulation variation is free of pleiotropic effects or free of constraints 56,57 . Molecular population genetic studies inform us that genetic variation is not the limiting factor in evolution the limiting factor is ‘selection opportunity’ 58 . Evolution does not work toward producing perfect proteins. The protein-protein interactions and any negative effects arising therefrom are part of the genetic machinery involved in evolutionary change. Negative pleiotropy in structural mutations may not be any worse than the negative effect of gene expression in an unwanted place and time 53 . Negative pleiotropic effects of structural mutations are factored into the rate of evolution through compensatory mutations and gene-gene interactions. De la même manière, cis-acting regulations are obviously important in controlling gene expression and may appear to provide a limitless rate of evolutionary change however, we do not need to argue that evolution in nature is slow and incremental.

Molecular redundancy is a universal feature of organisms

Organisms are both the subject and the object of evolutionary change. Since the organisms’ environment is not constant, we can expect some degree of molecular flexibility in the ability of the organisms to adapt to environmental fluctuations experienced over their lifetime. Such a flexibility could come from at least three distinct but interrelated sources. One of these is what we have termed as unnecessary complexity, i.e., multiple redundant gene interactions and pathways. The second source of flexibility is over-expression of genes or up-regulation of pathways. It is expected that the functional integrity of any pathway/network would be limited by the least-expressed genes and such genes may be under pressure to be upregulated. Any increase in gene expression will contribute to higher probability of random molecular interactions thereby forming the basis of new functions and, therefore, new evolutionary adaptations. The third source is gene-environment interactions, termed ‘norm of reaction’ 17 . The unnecessary complexity together with molecular flexibility is what we have termed as molecular redundancy (Fig. 1).

G and P are the spaces of the genotypic and phenotypic description. g1, G′1, G2, and G′2 are genotypic descriptions at various points in time within successive generations. P1, P′1, P2, and P′2 are phenotypic descriptions. T1, and T3 are laws of transformation from genotype to phenotype and back, respectively, during development. T2 are laws of population biology, and T4 are laws of Mendel and Morgan about gamete formation. Necessary and unnecessary complexities and molecular redundancy are defined in the text. (After Lewontin 19 ). The graph lines are not intended to mean monotonic increase.


Pleiotropy Definition

In pleiotropy, one gene controls the expression of several phenotypic traits. Phenotypes are traits that are physically expressed such as color, body shape, and height. It is often difficult to detect which traits may be the result of pleitoropy unless a mutation occurs in a gene. Because pleiotropic genes control multiple traits, a mutation in a pleiotropic gene will impact more than one trait.

Typically, traits are determined by two alleles (variant form of a gene). Specific allele combinations determine the production of proteins which drive the processes for the development of phenotypic traits. A mutation occurring in a gene alters the DNA sequence of the gene. Changing gene segment sequences most often results in non-functioning proteins. In a pleiotropic gene, all of the traits associated with the gene will be altered by the mutation.

Gene pleiotropy, also referred to as molecular-gene pleiotropy, focuses on the number of functions of a particular gene. The functions are determined by the number of traits and biochemical factors impacted by a gene. Biochemical factors include the number of enzyme reactions catalyzed by the protein products of the gene.

Developmental pleiotropy focuses on mutations and their influence on multiple traits. The mutation of a single gene manifests in the alteration of several different traits. Diseases involving mutational pleiotropy are characterized by deficiencies in multiple organs that impact several body systems.

Selectional pleiotropy focuses on the number of separate fitness components affected by a gene mutation. The term fitness relates to how successful a particular organism is at transferring its genes to the next generation through sexual reproduction. This type of pleiotropy is concerned only with the impact of natural selection on traits.


What Behaviors Do We Inherit Via Genes?

A pervasive assumption in evolutionary psychology is that how we act is affected by the genes we carry. Is there good concrete evidence of this? Are our outcomes predetermined by our biology? The most intriguing findings on this issue came from twin studies.

Evidence that Genes Affect Human Behavior

The study of identical twins reared apart is a natural experiment where two individuals with exactly the same genes grow up in different environments. If they turn out to be similar, then the similarity can be attributed to genotype.

Behavior geneticists concluded that genetics plays a big role in personality, accounting for about half of the differences in personality test results and even more of the differences in IQ scores.

Apart from these scientific findings, researchers were impressed by many obvious similarities between twins when they were reunited for the first time after being separated from birth. Many of the pairs dressed similarly or had the same haircut, or glasses. They described remarkable similarities in hobbies and interests. One pair reported that they were the only ones in their neighborhood to construct a circular bench around a tree in their backyard.

Striking as such stories are, they remain mere anecdotes and have no scientific value. The main problem is that there is confirmation bias. If a pair of twins is wearing the same baseball hat, we tend to interpret this as a wonderful example of genetic control over the minutiae of behavior. If a pair shows up wearing different hats, however, we ignore that difference but instead register some similarities such as both twins wearing a black shirt.

Identical twins separated at birth have some striking differences. If one twin is schizophrenic, there is no more than a coin-toss chance that the other is diagnosed with the same mental disorder. This is striking given that schizophrenia is believed to have a basis in brain biology. (The same is true of political affiliation).

We must also recognize that identical twins are a special case whose relevance to the behavior of ordinary people is disputable. The problem is that many characteristics are affected by multiple genes. If there are six genes involved, identical twins will be the same because they have all six genes. Yet, taken separately, each of those genes might not have a detectable effect on the trait of interest if studied in the general population.

This wrinkle (known as epistasis) may help explain why it is so difficult to establish a biochemical chain of causation between specific genes and complex human behaviors, although researchers have made heroic efforts to account for various traits, such as sensation seeking as a function of dopamine receptors, and have investigated various candidate genes to account for criminal violence.

Biochemistry and Behavior

Establishing that some behavioral traits are heritable is not the end of the scientific mission but really just the beginning. We need to know not just that genes affect behavior but also have to establish which genes are involved and how they affect the biochemistry of brain cells in ways that influence behavior.

One of the first of such projects involved work on receptors for dopamine that are implicated in sensation seeking.

This research proved successful. Yet, the success was qualified because variation in the dopamine receptor explained only a tiny fraction of individual differences in the sensation-seeking trait.

Another study looked at the so-called “warrior genes” that were over-represented among violent criminals. Criminal defense attorneys were excited by this finding because it offered a new defense strategy for violent offenders, namely that they were not fully responsible for their actions because their genes made them do it.

That genetic defense has been a flop, however. Warrior genes affect violent behavior only in the small category of individuals who grow up in extremely abusive homes. Children who are raised by loving parents are very unlikely to engage in orgies of uncontrolled aggression.

So there is a striking contradiction between the seeming clarity of the early research via twin and adoption studies, that established clear and substantial effects of genetic inheritance on personality and behavior, and subsequent efforts to work out how these influences play out.

Adaptation Without Genes

Although it is hard to deny genetic influences on human behavior, anyone who tries to explain what a person does in terms of simple biochemical differences is likely to be disappointed. Personality psychologists recognize that gene effects are difficult to separate from environmental influences. Children growing up in the same home experience that environment very differently because they have distinct temperaments, are treated differently by parents and siblings, and pursue different interests with different companions.

For example, a child with a greater sense of curiosity is going to cultivate varied interests and activities that feed the thirst for knowledge, whereas less curious siblings extract far less intellectual stimulation from their home environment. Such differences between siblings in what they get out of the environment are about as important as genes in determining personality and intelligence (1).

So there is little doubt that how we act is affected by genes in fairly generalized ways. Some individuals are born with a propensity to be outgoing, to be happy, emotionally reactive, sociable, creative, or intelligent. Yet, we do not have a good understanding of any of the relevant biochemical mechanisms.

Moreover, there is no satisfactory explanation of the underlying biochemical mechanisms in most cases. There is an important distinction between personality predispositions and actual behavior. Personality may be genetically heritable to some degree but human behavior never is.

Honeybees have a complex sequence of hygienic behavior that consists of digging out infected larvae and chucking them out of the hive — a sequence that is understood in terms of Mendelian genetics with one gene for uncapping and another for removing the dead larvae (2). As far as humans are concerned, we may or may not have strong hygienic tendencies, but there is no gene for cleaning out the refrigerator.

1 Plomin, R. (1990). Nature and nurture. Pacific Grove, CA: Brooks/Cole.

2 Grier, J. W. (1984). Biology of animal behavior. St. Louis, MO: Times Mirror/Mosby.


Recombination of Linked Genes

It is essential to understand homologous recombination to comprehend linked genes. Now that we know that the chromosomes are cut at random places during homologous recombination, we can see how linked genes are inherited together. Let’s take a real example to better understand it: freckles and red hair.

It is very common to find people with freckles and red hair. In fact, this occurs way more often than it would by chance otherwise, many blonde or brunette people would have freckles more often, and fewer red-haired people would have freckles. This happens because the genes that code for freckles and the genes that code for red hair sit close together on the same chromosome. When homologous recombination occurs, it is very unlikely that the DNA will be cut in between the two genes. Although homologous recombination happens numerous times, these two features are inherited together most of the time because the chances that the DNA coding for these two genes is split up are very low, consequently leading to the genes being inherited together most of the time.


Renseignements à l'appui

Dataset S1.

The sorghum gene list. Sorghum genes from 37 regions were from Sbi1.4 to which we added many genes on the basis of orthology to rice Niponbarre, TIGR 5 the added genes included many with corresponding RNAs since these are absent in Sbi1.4. SI1 uses the format Sbxgxxxxxx for Sbi1.4 genes and sorghum_chrmosomex_startx_stopx for genes we added based on Sb-Os orthology. Genes in local arrays were marked as parent, duplicate (D or DUP), or interrupter (a gene located within a tandem repeat) using published methods [7], and duplicates were marked and ignored subsequently up to three interrupter genes were permitted. If a remaining gene occurred syntenically (blastn bitscore >50) on a maize homeolog, then it was coded “1” or “2” if it occurred on only one of the homeologs or “B” if it occurred on both. A few genes were invalidated for technical reasons (“N”), and some genes were not found in the syntenic position in either maize homeolog (encoded as “0”).

Dataset S2.

The sorghum-maize dot-plot. Sorghum (X-axis) and maize (oui-axis) with alpha-tetraploidy lines colored purple by lower Ks from SynMap in CoGe. Numerals are chromosome numbers. Lower Ks is more recent. Although hundreds of breakpoints are evident, each segment of maize is orthologous to one sorghum region, and each sorghum segment is orthologous to two maize regions.

Dataset S3.

Fractionation runs used to determine bias for all 37 orthologous sorghum/maize regions. Here, bias is measured in units “genes lost completely.” The code we used, taken from the Dataset S1 datasheet (e.g. 11BBB1121B2121BBBB2222BB…), is given at the top of each diagram. Assuming that genes are lost in units of one gene, the null hypothesis is that the same number of genes are lost on each of the homeologs: using the symbols of the alignment diagrams, 0 = 1. The p value predicts the chance that this 1∶1 ratio is possible. Many genes coded “B” (retained) were actually a complete gene paired with a gene fragment, as expected if fractionation is not complete. All of our 37 diagrams had runs of over nine genes removed because they are known to be segmental translocations.

Dataset S4.

Maize-maize self-blastn dot-plot. Sequences present 40×X in the genome were masked. Axes are in genes from annotated psudomolecules from 10-09. Tangent angles = bias. Green lines are higher Ks and are from the alpha-tetraploidy.

Dataset S5.

Whole-gene deletion in soybean (Glycine max). (A) A GEvo output of soybean homeologous regions from the alpha tetraploidy (panels 1 and 2), Medicago trunculata (panel 3), and the soybean homeologous regions from the beta tetraploidy event (panels 4 and 5). Circled is a gene in Medicago that has orthologs in all soybean homeologs except for soybean chromosome 1 (panel 1). (B) Diagram showing the homeologous sequences of soybean chromosome 1 (Glma01) and chromosome 2 (Glma02, panel 2). In chromosome 2 the circled gene from (A) (colored green in this diagram) is present, but absent in chromosome 1. Direct repeats (purple) and inverted repeats (blue) flank the sequence surrounding the gene in chromosome 2. Yellow denotes the syntenous sequence highlighted in pink from (A).

Dataset S6.

Generating the augmented sorghum gene list by comparison of sorghum to rice. We used a pipeline to generate the sorghum gene list of SI1. Given the input of the same genomes and annotation, this pipeline generates this list repeatedly. This sorghum gene list includes the JGI official annotated sorghum genes plus the output of this pipeline: sorghum-rice ortholgous blastn hits that, when further analyzed, turned out to be homologous to RNA or protein-encoding genes or pseudogenes.

Dataset S7.

The script used to run the genetic algorithm for Figure 5. The fitness of solutions in the evolutionary algorithm were scored using the Monte Carlo method as described in Methods (with the modification that rather than fixing the deletion length at 1 gene, deletion lengths were selected using the weighted averages generated by the evolutionary algorithm) with the most fit solutions being those where the median simulated number of deletion runs was least different from the observed number of runs. The genetic algorithm was allowed to run for 100,000 generations.


Voir la vidéo: Yves Sznajer: La sclérose tubéreuse de Bourneville: les gènes et le cerveau (Janvier 2023).